Hadoop和Spark解决了哪些并行数据库没解决的问题

发布网友发布时间：2022-04-10 07:15

共1个回答

热心网友时间：2022-04-10 08:44

Spark比较好地解决了一体化数据流水线的问题。即用户可以在Spark单一一个平台上，在单一一个应用内，通过组装Spark的各种组件，高效完成多种范式的计算。例如可以用利用Spark Core做基本的清洗，利用Spark SQL做进一步的复杂ETL，再用MLlib做学习训练。同时利用Spark SQL的DataFrame和外部数据源API可以融合各种存储系统和存储格式，进行混合计算后再以指定的格式写入指定的存储系统，或以DataFrame/RDD的形式作为下一步计算的输入交给其他的Spark组件。

声明：本网页内容为用户发布，旨在传播知识，不代表本网认同其观点，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。E-MAIL:11247931@qq.com