并行度调优疑问
实际工作中怎么去定位设置num-executors和executor-cores以及conf “parallelism”的值的大小
29
收起
正在回答
1回答
1:num-executors和executor-cores
在4-6中我们讲了,针对executor-cores一般设置为2~4个
咱们在4-1中介绍了如果想把这个任务的所有数据都放到内存中,该如何确定内存。
假设一个任务如果希望将所有数据(100G)全部放到内存中取处理,这样性能肯定是最高的
咱们在4-6中介绍了一个executor建议分配2~4G内存
这样的话就可以推算出来,一个任务如果将所有的数据全部加载到内存的时候,需要多少个executor(100G/2~4G)
2:针对parallelism,一般都是读取的hdfs中的数据,这种情况下一般是不需要手动设置并行度的,spark会根据hdfs中数据的block来设置对应的分区数量,也就是并行度
恭喜解决一个难题,获得1积分~
来为老师/同学的回答评分吧
0 星