题目描述:
在MapReduce程序中同时处理两个不同输入目录中的数据文件,最终统计所有文件中单词出现的次数。【简称:多路输入】
第一个输入目录为:hdfs://bigdata01:9000/abc
此目录下有多个文件,文件内容如下:文件中的单词之间分隔符是逗号
```
hello,you,hello
hehe,haha,tom
```
第二个输入目录为:hdfs://bigdata01:9000/xyz
此目录下有多个文件,文件内容如下:文件中的单词之间分隔符是空格
```
hello you hello
hehe haha tom
```
效果:
最终想要获取类似这样的结果
```
haha,2
hehe,2
hello,4
tom,2
you,2
```
任务要求:
1:针对每一个输入目录设置使用不同的自定义Mapper,里面写不同的处理逻辑,因为两份数据中的数据格式是不一样的
任务提示、思路分析:
1:使用MultipleInputs
实现加载不同路径中的文件,查阅MultipleInputs
的相关使用资料
2:针对不同的输入目录设置不同的自定义Mapper,最终需要定义两个自定义Mapper