hive分区的作用

发布网友发布时间：2022-04-07 16:47

共1个回答

热心网友时间：2022-04-07 18:16

Hive分区。

是指按照数据表的某列或某些列分为多个区，区从形式上可以理解为文件夹，比如我们要收集某个大型网站的日志数据，一个网站每天的日志数据存在同一张表上，由于每天会生成大量的日志，导致数据表的内容巨大，在查询时进行全表扫描耗费的资源非常多。那其实这个情况下，我们可以按照日期对数据表进行分区，不同日期的数据存放在不同的分区，在查询时只要指定分区字段的值就可以直接从该分区查找。

下面从用shell命令操作分区表和从hdfs文件系统查看分区表相结合的方式加深对分区表的认识。

第一，创建分区表并将本地文件中的数据加载到分区表中。

要注意的是：首先，创建分区表的时候，要通过关键字 partitioned by （name string）声明该表是分区表，并且是按照字段name进行分区，name值一致的所有记录存放在一个分区中，分区属性name的类型是string类型。当然，可以依据多个列进行分区，即对某个分区的数据按照某些列继续分区。

其次，向分区表导入数据的时候，要通过关键字partition（name=“jack”）显示声明数据要导入到表的哪个分区，这里表示要将数据导入到分区为name=jack的分区。

再次，这里要重点强调，所谓分区，这是将满足某些条件的记录打包，做个记号，在查询时提高效率，相当于按文件夹对文件进行分类，文件夹名可类比分区字段。这个分区字段形式上存在于数据表中，在查询时会显示到客户端上，但并不真正在存储在数据表文件中，是所谓伪列。所以，千万不要以为是对属性表中真正存在的列按照属性值的异同进行分区。比如上面的分区依据的列name并不真正的存在于数据表中，是我们为了方便管理添加的一个伪列，这个列的值也是我们人为规定的，不是从数据表中读取之后根据值的不同将其分区。我们并不能按照某个数据表中真实存在的列，如userid来分区