大数据开发必用的分布式框架有哪些

发布网友发布时间：2022-04-23 06:55

共1个回答

热心网友时间：2022-05-05 02:33

Spark
Spark用比较少的Scala代码实现，跟Hadoop基于分布式文件IO操作方式不同，Spark尽可能利用内存去做迭代计算，并使用mesos管理机器资源分配。
hadoop

Hadoop 是一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求（requirements）这样可以流的形式访问（streaming access）文件系统中的数据。
bbo
Dubbo是一个阿里巴巴开源出来的一个分布式服务框架，致力于提供高性能和透明化的RPC远程服务调用方案，以及SOA服务治理方案。其核心部分包含:
远程通讯: 提供对多种基于长连接的NIO框架抽象封装，包括多种线程模型，序列化，以及“请求-响应”模式的信息交换方式。
集群容错: 提供基于接口方法的透明远程过程调用，包括多协议支持，以及软负载均衡，失败容错，地址路由，动态配置等集群支持。
自动发现: 基于注册中心目录服务，使服务消费方能动态的查找服务提供方，使地址透明，使服务提供方可以平滑增加或减少机器。
Fourinone则是通过多个包工头多环节链式处理和包工头内部多阶段处理的粗细粒度方式支持迭代类型计算，对于内存的使用提供完整的单机小型缓存和多机分布式缓存功能（详见第4章）。因此，通过提供多环节计算支持和分布式缓存功能，也能实现Spark基于内存完成迭代计算的机制。