打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
什么是数据倾斜

数据倾斜是指在并行计算模式下(hadoop 的map-reduce 框架下,数据被切分为N个片段,分发到不同的计算节点上,单独计算),单个计算节点获得的数据量远远大于其他节点,造成该节点计算压力过大,导致计算效率下降或计算内存溢出。这个现象就是数据倾斜。 同工不同酬。

解决这个问题的办法一般是:

1 .对数据集重新分区,增大分区数量,使得每个分区记录数尽量相等

2. 给数据增加随机id,按这个id重新分区;

3. 给数据 “加盐”一种生成均匀分布的id值的机制。重分区

4. 对造成数据集中的超级节点id,进行过滤,单独处理这样的节点。如,模电商的电话每天有数万订单,这个电话关联的业务数据就容易造成数据倾斜

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
大数据开发之Spark SQL执行性能的提升
TDW千台Spark千亿节点对相似度计算
part0-spark生态系统及rdd基本概念
「干货」边缘计算将在2017年大行其道,细数其中的价值、机遇与挑战!
Fluent 并行UDF丨01 介绍
Impala JOIN操作及元数据过期问题
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服