题目描述:
表table_a(数据量10亿)
```
event_id(string)--事件id session_id(string)--会话id
```
表table_b(数据量5亿)
```
session_id(string)--会话id topic(string)--主题
```
这两个表在进行join的时候如果出现数据倾斜,该怎么确定倾斜的key?
效果:
使用SQL分析表中倾斜的Key
任务要求:
1:使用SQL分析表中倾斜的Key
任务提示、思路分析:
1:对两表session_id分别随机采样,再从采样中看某个session_id是否重复值过多