Flink+Paimon在阿里云大数据云原生运维数仓的实践
发布网友
发布时间:2024-09-28 09:45
我来回答
共1个回答
热心网友
时间:2024-09-29 05:14
随着大数据云原生化进程的推进,运维挑战日益增加,迫切需要实时的资源审计、拓扑和趋势分析。阿里云为提升运维能力,构建了基于Flink和Paimon的云原生运维数仓,提供分钟级实时数据服务。Flink以其实时计算能力作为基础,而Paimon则提供了低成本的数据湖解决方案,适合我们的需求。
在方案选择上,考虑到实时性要求,我们舍弃了离线数仓,倾向于Flink+Hologres和Flink+Paimon。最终,由于Hologres的存储成本较高,我们选择了Flink+Paimon,以实现低成本和高实时性。数据采集方面,我们研发的exporter-operator实时监控Kubernetes工作负载变化,通过SLS或Kafka同步至Paimon的ods层,同时处理排序问题,确保数据一致性。
数据清洗和处理阶段,ods层存储原始数据,dwd层进行聚合和排序,ads层则进一步进行数据聚合,以减少Flink状态资源消耗和提高实时性。在数据分析上,Dataworks和Flink提供了查询和报表生成的能力,FBI用于深度分析。总结来说,Flink+Paimon方案成本低、延迟低,是云原生运维的理想选择,尤其对于对成本敏感的场景。