首页 > 编程源码 > Hive学习之路:Hive的数据倾斜

Hive学习之路:Hive的数据倾斜

楼主：资源分享 [官方] · 2020-6-22 · 浏览5700 · 编程源码 · ID:

1、什么是数据倾斜？
由于数据分布不均匀，造成数据大量的集中到一点，造成数据热点

2、Hadoop 框架的特性
　　A、不怕数据大，怕数据倾斜
　　B、Jobs 数比较多的作业运行效率相对比较低，如子查询比较多
　　C、 sum,count,max,min 等聚集函数，通常不会有数据倾斜问题

文章来源于互联网。

- 版权声明 - 1、本帖所有言论和图片等纯属网友个人意见，与流星社区立场无关；
2、其他单位或个人使用、转载或引用本帖时必须同时征得该帖子作者资源分享和流星社区的同意；
3、备注原文地址：https://bbs.liuxingw.com/t/31248.html，可忽略第2条；
4、帖子作者需承担一切因本文发表而直接或间接导致的相关责任；
5、如本帖内容或部分内容转载自其它媒体，这并不代表本站赞同其观点和对其真实性负责；
6、如本帖若为资源类，将仅限用于学习和研究目的，您必须在下载后的24个小时之内，从您安装或使用的设备中彻底删除上述内容；
7、如果您喜欢该程序，请支持正版软件，购买注册，可以得到更好的正版服务；
8、如本帖侵犯到任何版权或违法问题，请立即邮件告知我们，我们将及时予以处理。

161条回复 | 最后回复于2020-6-22

资源分享 [官方]

D：某些 HQL 语句本身就存在数据倾斜

发布于2020-6-22

回复列表

内容加载中...

说点什么...

资源分享 [官方]

6、业务场景

发布于2020-6-22

回复列表

内容加载中...

说点什么...

资源分享 [官方]

（1）空值产生的数据倾斜

发布于2020-6-22

回复列表

内容加载中...

说点什么...

资源分享 [官方]

场景说明。

发布于2020-6-22

回复列表

内容加载中...

说点什么...

资源分享 [官方]

在日志中，常会有信息丢失的问题，比如日志中的 user_id，如果取其中的 user_id 和用户表中的 user_id 相关联，就会碰到数据倾斜的问题。

发布于2020-6-22

回复列表

内容加载中...

说点什么...

[]

优秀

发布于2020-6-22

回复列表

内容加载中...

说点什么...

资源分享 [官方]

解决方案。

发布于2020-6-22

回复列表

内容加载中...

说点什么...

资源分享 [官方]

解决方案 1：user_id 为空的不参与关联

发布于2020-6-22

回复列表

内容加载中...

说点什么...

资源分享 [官方]

解决方案 2：赋予空值新的 key 值

发布于2020-6-22

回复列表

内容加载中...

说点什么...

资源分享 [官方]

总结
方法 2 比方法 1 效率更好，不但 IO 少了，而且作业数也少了，方案 1 中，log 表读了两次，jobs 肯定是 2，而方案 2 是 1。这个优化适合无效 id（比如-99，’’，null）产生的数据倾斜，把空值的 key 变成一个字符串加上一个随机数，就能把造成数据倾斜的数据分到不同的 reduce 上解决数据倾斜的问题。

发布于2020-6-22

回复列表

内容加载中...

说点什么...

登录注册后才可进行评论

签到

10人签到

已签0天

48671帖子
1966806热点量
198167火热值

登录注册

友情链接

优惠券线报大流量卡免费办流量消失器乐趣图床 ChatGPT问答测网速乐趣云API接口乐云挂机助手 ChatGPT独享号游魂博客人生重开模拟器制作收款码 IP属地查询流星社区交流群

Hive学习之路:Hive的数据倾斜

回复列表 默认排序 默认排序 最新回复

回复列表 默认排序 默认排序 最新回复

回复列表 默认排序 默认排序 最新回复

回复列表 默认排序 默认排序 最新回复

回复列表 默认排序 默认排序 最新回复

回复列表 默认排序 默认排序 最新回复

回复列表 默认排序 默认排序 最新回复

回复列表 默认排序 默认排序 最新回复

回复列表 默认排序 默认排序 最新回复

回复列表 默认排序 默认排序 最新回复

回复列表

回复列表

回复列表

回复列表

回复列表

回复列表

回复列表

回复列表

回复列表

回复列表