【学习任务】项目任务-Spark实现多路输出-慕课网

题目描述：
在Spark程序中将处理的结果数据按照一定的规则，输出到多个不同的目录中。

输入目录：hdfs://bigdata01:9000/moreTypeData

此目录下有多个文件，文件内容如下：文件中的单词之间分隔符是逗号


hello,you,hello
hehe,haha,tom

输出目录：hdfs://bigdata01:9000/moreTypeRes

效果：

最终想要获取类似这样的结果

在输出目录hdfs://bigdata01:9000/moreTypeRes下会产生两个子目录

hdfs://bigdata01:9000/moreTypeRes/type1 和 hdfs://bigdata01:9000/moreTypeRes/type2

其中hdfs://bigdata01:9000/moreTypeRes/type1 子目录下文件中的内容为：


hello,2

其中hdfs://bigdata01:9000/moreTypeRes/type2 子目录下文件中的内容为：


haha,1
hehe,1
tom,1
you,1

任务要求:

1：将hello这个单词统计的结果数据保存到type1这个子目录中，将其它单词的统计结果数据保存到type2这个子目录中

2：使用Scala代码实现

任务提示、思路分析：

1：默认情况下Spark的结果数据只会输出到一个目录中，想要实现输出到多个目录中，需要使用MultipleTextOutputFormat

热搜