发布网友 发布时间:2022-03-23 14:40
共1个回答
热心网友 时间:2022-03-23 16:09
不太清楚你说的是搭建pipeline的工具还是说pipeline里面处理数据的工具,就顺道都说一下。
pipeline工具本身一般是控制这些工具的流程,最简单的crontab就定时执行就好,但是有时候会有数据依赖的问题,比如第7步依赖第三步的两个文件以及平行的第6步的文件,这个依赖并不是线性的,而是一个图的形式。当中加上有些技术延迟比如有些数据生成失败了需要重启某些特定的步骤重新生成,这个问题就稍微复杂了。crontab一般在这时候就搞不定,需要一些专门的pipeline管理,比如 spotify/luigi · GitHub 或者 Azkaban
2. 预处理文本数据本身一般用一些Linux的工具比如cut啊awk啊等等做数据筛选和清理,自己写一写python小工具做数据的简单组合比如复杂的regex规则组合,比较大的数据归类和抽象一般用Hive之类的hadoop工具都可以,里面也可以插入linux小工具和自己写的工具。
工业界的数据项目多数时间要设计如何清理数据,这和学术界的玩具数据玩起来很不一样,欢迎来到真实的世界。-ITjob