发布网友 发布时间:2022-04-30 01:40
共1个回答
热心网友 时间:2022-04-14 07:16
基于Receiver方式实现会利用Kakfa的高层消费API,和所有的其他Receivers一样,接受到的数据会保存到excutors中,然后由spark Streaming 来启动Job进行处理这些数据。
在默认的配置下,这种方式在失败的情况下,会丢失数据,如果要保证零数据丢失,需要启用WAL(Write Ahead Logs)。它同步将接受到数据保存到分布式文件系统上比如HDFS。 所以数据在出错的情况下可以恢复出来。
使用两个步骤:
1、添加依赖:spark-streaming-kafka_2.10-1.3.0
2、编程:import org.apache.spark.streaming.kafka._