题目描述:
在Spark程序中将处理的结果数据按照一定的规则,输出到多个不同的目录中。
输入目录:hdfs://bigdata01:9000/moreTypeData
此目录下有多个文件,文件内容如下:文件中的单词之间分隔符是逗号
hello,you,hello
hehe,haha,tom
输出目录:hdfs://bigdata01:9000/moreTypeRes
效果:
最终想要获取类似这样的结果
在输出目录hdfs://bigdata01:9000/moreTypeRes
下会产生两个子目录
hdfs://bigdata01:9000/moreTypeRes/type1
和 hdfs://bigdata01:9000/moreTypeRes/type2
其中hdfs://bigdata01:9000/moreTypeRes/type1
子目录下文件中的内容为:
hello,2
其中hdfs://bigdata01:9000/moreTypeRes/type2
子目录下文件中的内容为:
haha,1
hehe,1
tom,1
you,1
任务要求:
1:将hello这个单词统计的结果数据保存到type1这个子目录中,将其它单词的统计结果数据保存到type2这个子目录中
2:使用Scala代码实现
任务提示、思路分析:
1:默认情况下Spark的结果数据只会输出到一个目录中,想要实现输出到多个目录中,需要使用MultipleTextOutputFormat