Impala - 高性能大数据查询引擎

发布网友发布时间：2024-11-07 12:20

共1个回答

热心网友时间：2024-11-07 13:08

Impala概述

Impala是一个开源高性能分布式SQL查询引擎，由Cloudera于2017年开源。它专为在Apache Hadoop集群中处理大规模数据集提供快速大数据查询和分析能力，与SQL兼容，适用于Hadoop生态系统。

Impala与Presto/Trino一样，是一个分布式并行处理（MPP）数据库引擎，作为Hadoop上的标准SQL查询引擎。

Doris与StarRocks基于Impala早期版本。

在Hadoop生态中的Impala位置

Impala的架构设计

在大数据领域，很多框架采用主从结构，如HDFS、Presto、YARN等，通过一个Master节点进行分布式控制、元数据管理及任务分发，而Slave节点只执行特定功能。然而，这样的架构存在Master节点单点问题及性能瓶颈。Presto的Master节点缺乏高可用方案，Master节点故障会导致集群完全不可用；在高并发和大量任务处理场景下，Presto的Master节点在解析阶段的耗时显著增加。

Impala采用去中心化架构，由StateStoreD、CatalogD和ImpalaD三个服务组成，没有主从概念，各司其职，相互配合。

StateStoreD负责状态同步，持续监控集群中所有ImpalaD的运行状况，并将其结果转发给每个ImpalaD。

StateStoreD在集群状态错误时提供帮助，对Impala集群运行不构成关键影响。如果StateStoreD停止运行，ImpalaD仍可继续运行，但如果其他ImpalaD脱机，集群的健壮性会受到影响。当StateStoreD重新上线时，它将重新建立与ImpalaD的通信并恢复监控功能。

StateStoreD只需在集群的某一个主机上运行。

CatalogD作为元数据访问网关，从Hive Metastore等外部Catalog获取元数据信息及统计信息，缓存在自己的catalog结构中。信息包括库表定义、列类型、统计信息（如表大小、行数、分区及各列信息），以及从NameNode获取的文件粒度信息（如文件存储位置、副本、文件块信息）。

ImpalaD请求CatalogD查询库表元数据信息。

ImpalaD执行DDL命令时通过CatalogD执行，更新由StateStoreD广播至集群其他ImpalaD。

同StateStoreD一样，一个集群只有一个CatalogD服务。

ImpalaD作为核心服务组件，分为三种运行模式：Coordinator、Executor和Executor And Coordinator（默认）。Coordinator模式下，ImpalaD仅作为查询协调者，负责解析SQL语句、生成执行计划、调度查询执行计划以及收集并返回查询结果。Executor负责具体的数据查询执行，包括数据扫描、聚合、排序等操作。Executor And Coordinator模式则包含两者功能。

生产环境一般建议ImpalaD做好角色分离，即要么是Executor，要么是Coordinator。

查询执行过程

在Impala中，查询处理的主要过程在ImpalaD中完成。ImpalaD可以进一步细分为Query Planner、Query Coordinator和Query Executor三个部分，其中Query Planner被称为FE端，主要用Java语言实现；Query Coordinator和Query Executor被称为BE端，由C++实现。

查询执行过程如下：

1、客户端（如JDBC、ODBC、Impala Shell）向Impala集群任意节点发送查询请求。

2、ImpalaD接收请求并通过JNI接口请求FE端。

3、FE端将查询解析生成抽象语法树（statementBase），加载元数据信息。

4、进行语义分析及权限校验（通过调用AnalysisContext.analyzeAndAuthorize方法），实际调用抽象语法树各StatementBase节点的analyze方法。

5、根据statementBase类型，进行不同处理，如DDL类型创建对应的catalog请求，普通query类型创建执行计划。

6、生成单节点执行计划（singleNodePlan），对plan进行小查询判断及优化，然后进行join重写，根据代价评估调整join类型及子节点顺序。

7、遍历单节点执行计划（singleNodePlan），生成PlanFragment，最终生成分布式执行计划，返回给Impala。

8、ImpalaD获得分布式执行计划，将查询状态设置为PENDING，创建线程执行查询请求。

9、提交查询并进行资源准入模块AdmissionControl判断，判断资源使用是否超限、是否满足条件、是否需要排队等待。

10、资源判断通过后，调用调度器scheler的Schele方法生成调度信息。

11、为查询创建Coordinator，执行Exec方法初始化fragment状态信息及BE端状态信息，然后分发任务。

12、在所有BE端并行启动查询执行，并阻塞直到启动完成。

13、所有BE端异步执行任务，如扫描、排序、聚合。

14、BE端执行完成后，查询结果在Coordinator中汇聚。

15、Coordinator将得到的查询结果传输给客户端。

Impala与Presto（Trino）对比

欢迎关注我的公众号“大数据小百科”，获取原创技术文章。