【学习任务】项目任务-Spark实现多路输出
我要参与
【学习任务】项目任务-Spark实现多路输出
学习任务 1.2k
等49人参与
来源: 第13周 / 大数据工程师 2024 版

题目描述:
在Spark程序中将处理的结果数据按照一定的规则,输出到多个不同的目录中。

输入目录:hdfs://bigdata01:9000/moreTypeData

此目录下有多个文件,文件内容如下:文件中的单词之间分隔符是逗号


hello,you,hello
hehe,haha,tom

输出目录:hdfs://bigdata01:9000/moreTypeRes

效果:

最终想要获取类似这样的结果

在输出目录hdfs://bigdata01:9000/moreTypeRes下会产生两个子目录

hdfs://bigdata01:9000/moreTypeRes/type1hdfs://bigdata01:9000/moreTypeRes/type2

其中hdfs://bigdata01:9000/moreTypeRes/type1 子目录下文件中的内容为:


hello,2

其中hdfs://bigdata01:9000/moreTypeRes/type2 子目录下文件中的内容为:


haha,1
hehe,1
tom,1
you,1

任务要求:

1:将hello这个单词统计的结果数据保存到type1这个子目录中,将其它单词的统计结果数据保存到type2这个子目录中

2:使用Scala代码实现

任务提示、思路分析:

1:默认情况下Spark的结果数据只会输出到一个目录中,想要实现输出到多个目录中,需要使用MultipleTextOutputFormat

去发布

登录后即可发布作业,立即

我的作业

全部作业

意见反馈 帮助中心 APP下载
官方微信

在线咨询

领取优惠

免费试听

领取大纲

扫描二维码,添加
你的专属老师