数据采集相关

数据采集相关

老师请教下,数据采集模块的generate_data模块模拟的是埋点产生数据,collect_data模块就是数据采集和落盘过程;那么真实场景中的埋点过程是怎么样的,要实现用到什么技术?

正在回答 回答被采纳积分+1

登陆购买课程后可参与讨论,去登陆

1回答
徐老师 2021-10-28 17:51:41

埋点其实就是在页面(jsp或者html)的某个位置插入一段js代码,然后记录一些参数信息。这个主要是前端岗位负责的,主要用到的也是前端技术。

  • 提问者 慕粉163136580 #1

    嗯嗯,明白了,再请教两个问题:

    1.   实际开发过程中,我们不可能把A部门所有的数据都拿过去(放到hdfs上),比如我们只拿了log和部分业务表,那我们是怎么知道要拿这部分数据呢?是提前进行了需求沟通吗?

    2.   接着上一个问题,是不是我们先知道使用哪部分业务数据,然后才把它们采集过来进行计算,而不是说我来了一个sql,然后发现没有数据,再去拉取数据进行计算?

    2021-10-28 18:10:41
  • 徐老师 回复 提问者 慕粉163136580 #2

    两种流程

    1:如果是想要做一个大型数仓,会直接将所有业务表数据和日志接入到数仓中,这样是不需要区分这份数据目前能不能用到的

    2:还有一种是如果数据源比较多,暂时不想全部接入数仓,会先梳理一下目前的常用需求,根据这些需求反推出来用到的数据源表,然后把这些数据源表导入数仓,这种会存在后续缺少数据的情况,缺少的时候再按需采集


    企业中在起步阶段的话,第二种是比较常见的。

    2021-10-28 18:15:43
问题已解决,确定采纳
还有疑问,暂不采纳

恭喜解决一个难题,获得1积分~

来为老师/同学的回答评分吧

0 星
请稍等 ...
意见反馈 帮助中心 APP下载
官方微信

在线咨询

领取优惠

免费试听

领取大纲

扫描二维码,添加
你的专属老师