并行度调优疑问

并行度调优疑问

实际工作中怎么去定位设置num-executors和executor-cores以及conf “parallelism”的值的大小

正在回答

登陆购买课程后可参与讨论,去登陆

1回答

1:num-executors和executor-cores

在4-6中我们讲了,针对executor-cores一般设置为2~4个


咱们在4-1中介绍了如果想把这个任务的所有数据都放到内存中,该如何确定内存。

假设一个任务如果希望将所有数据(100G)全部放到内存中取处理,这样性能肯定是最高的

咱们在4-6中介绍了一个executor建议分配2~4G内存

这样的话就可以推算出来,一个任务如果将所有的数据全部加载到内存的时候,需要多少个executor(100G/2~4G)

2:针对parallelism,一般都是读取的hdfs中的数据,这种情况下一般是不需要手动设置并行度的,spark会根据hdfs中数据的block来设置对应的分区数量,也就是并行度

  • GRdreamflying 提问者 #1
    视频中为什么要设置parallelism为5
    2020-09-15 08:54:57
  • 徐老师 回复 提问者 GRdreamflying #2
    那是为了举个例子,如果要在sparksubmit脚本中动态修改并行度的话可以这样修改通过—conf动态指定
    2020-09-15 08:56:33
  • GRdreamflying 提问者 回复 徐老师 #3
    这个实际工作中还是spark按照读取数据按照文件大小自动设置是么 不需要我们指定
    2020-09-15 09:01:19
问题已解决,确定采纳
还有疑问,暂不采纳

恭喜解决一个难题,获得1积分~

来为老师/同学的回答评分吧

0 星
请稍等 ...
意见反馈 帮助中心 APP下载
官方微信

在线咨询

领取优惠

免费试听

领取大纲

扫描二维码,添加
你的专属老师