【学习任务】项目任务-在MapReduce程序中同时处理多个输入目录
我要参与
【学习任务】项目任务-在MapReduce程序中同时处理多个输入目录
学习任务 1.1k
等62人参与
来源: 第6周 / 大数据工程师 2024 版

题目描述:
在MapReduce程序中同时处理两个不同输入目录中的数据文件,最终统计所有文件中单词出现的次数。【简称:多路输入】

第一个输入目录为:hdfs://bigdata01:9000/abc

此目录下有多个文件,文件内容如下:文件中的单词之间分隔符是逗号

​```
hello,you,hello
hehe,haha,tom
​```

第二个输入目录为:hdfs://bigdata01:9000/xyz

此目录下有多个文件,文件内容如下:文件中的单词之间分隔符是空格

​```
hello you hello
hehe haha tom
​```

效果:

最终想要获取类似这样的结果

​```
haha,2
hehe,2
hello,4
tom,2
you,2
​```

任务要求:

1:针对每一个输入目录设置使用不同的自定义Mapper,里面写不同的处理逻辑,因为两份数据中的数据格式是不一样的

任务提示、思路分析:

1:使用MultipleInputs实现加载不同路径中的文件,查阅MultipleInputs的相关使用资料

2:针对不同的输入目录设置不同的自定义Mapper,最终需要定义两个自定义Mapper

去发布

登录后即可发布作业,立即

我的作业

全部作业

意见反馈 帮助中心 APP下载
官方微信

在线咨询

领取优惠

免费试听

领取大纲

扫描二维码,添加
你的专属老师