【学习任务】项目任务-Spark实现多路输出
我要参与
【学习任务】项目任务-Spark实现多路输出
学习任务 1.5k
等53人参与
来源: 第13周 / 大数据工程师

题目描述:
在Spark程序中将处理的结果数据按照一定的规则,输出到多个不同的目录中。

输入目录:hdfs://bigdata01:9000/moreTypeData

此目录下有多个文件,文件内容如下:文件中的单词之间分隔符是逗号


hello,you,hello
hehe,haha,tom

输出目录:hdfs://bigdata01:9000/moreTypeRes

效果:

最终想要获取类似这样的结果

在输出目录hdfs://bigdata01:9000/moreTypeRes下会产生两个子目录

hdfs://bigdata01:9000/moreTypeRes/type1hdfs://bigdata01:9000/moreTypeRes/type2

其中hdfs://bigdata01:9000/moreTypeRes/type1 子目录下文件中的内容为:


hello,2

其中hdfs://bigdata01:9000/moreTypeRes/type2 子目录下文件中的内容为:


haha,1
hehe,1
tom,1
you,1

任务要求:

1:将hello这个单词统计的结果数据保存到type1这个子目录中,将其它单词的统计结果数据保存到type2这个子目录中

2:使用Scala代码实现

任务提示、思路分析:

1:默认情况下Spark的结果数据只会输出到一个目录中,想要实现输出到多个目录中,需要使用MultipleTextOutputFormat

去发布

登录后即可发布作业,立即

我的作业

全部作业

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

在线咨询

领取优惠

免费试听

领取大纲

扫描二维码,添加
你的专属老师