spark中,dataset和dataframe的性能比较?

发布网友发布时间：2024-10-01 16:52

共1个回答

热心网友时间：2024-11-08 05:18

在探讨 Spark 中 Dataset 和 DataFrame 的性能比较时，发现了几个关键问题影响基准测试结果。首先，构造 DataFrame 时显式使用 Row，这实际上导致了对象创建数量的显著增加。相比之下，构造 Dataset 时对象数量仅为 DataFrame 的四分之一，这是因为 Dataset 内部的 Int 类型未被自动箱化（auto-boxing）。其次，基准测试中使用了 show() 方法，这默认仅展示前20行数据。这样，排序代码实际上等同于对 DataFrame 进行排序并限制输出20行，Spark 自动优化为计算 top-K 来实现这一目标。最后，生成的数据量均在 driver 端产生，导致序列化开销巨大，尤其当数据量达到数千万级别时更为显著。

通过改进生成数据的方式，可以大幅减少序列化开销。将 DataFrame 的生成改为懒惰计算，避免一次性生成大量对象，从而减少序列化时间。同时，Dataset 的生成也可以通过将数据生成移到 executor 端来降低序列化成本。这种改进后，Dataset 的性能与 DataFrame 相比，差距会显著减小，甚至在某些情况下可能会表现得更好。

值得注意的是，Dataset 在类型安全方面的额外开销，以及内部 Scala closure 的序列化操作，都可能影响其性能。然而，基准测试的复杂性以及测试用例的简单性，可能使得这些成本在测试结果中不明显。此外，DataFrame 实际上就是 Dataset[Row]，因此在转换过程中也会产生额外开销。

对于真实的性能比较，可以将基准测试的输出方式从 show() 更改为 foreach { _ => }，这样可以更准确地衡量对所有数据进行排序的性能。然而，基准测试的实现仍需改进，以减少由 JVM 的 JIT 编译器等因素带来的影响。对于严肃的基准测试，建议使用 JMH 等工具进行。