发布网友 发布时间:2022-04-23 06:28
共1个回答
热心网友 时间:2022-04-13 16:02
recer个数的设定极大影响执行效率 1. hive.exec.recers.bytes.per.recer(默认为1000^3) 2. hive.exec.recers.max(默认为999) 计算recer数的公式很简单: N=min(参数2,总输入数据量/参数1) 通常情况下,有必要手动指定recer个数。考虑到map阶段的输出数据量通常会比输入有大幅减少,因此即使不设定recer个数,重设参数2还是必要的。依据Hadoop的经验,可以将参数2设定为0.95*(集群中TaskTracker个数)。 正确的rece任务的 个数应该是 0.95或者1.75 ×(节点数 ×mapred.tasktracker.tasks.maximum参数值)