发布网友 发布时间:2022-04-10 07:15
共1个回答
热心网友 时间:2022-04-10 08:44
Spark比较好地解决了一体化数据流水线的问题。即用户可以在Spark单一一个平台上,在单一一个应用内,通过组装Spark的各种组件,高效完成多种范式的计算。例如可以用利用Spark Core做基本的清洗,利用Spark SQL做进一步的复杂ETL,再用MLlib做学习训练。同时利用Spark SQL的DataFrame和外部数据源API可以融合各种存储系统和存储格式,进行混合计算后再以指定的格式写入指定的存储系统,或以DataFrame/RDD的形式作为下一步计算的输入交给其他的Spark组件。