编译器本身是如何进行测试的？2

发布网友发布时间：2023-10-11 11:34

共2个回答

热心网友时间：2024-12-01 09:12

编译器最重要的性质就是保证语义的正确。比如，从高级语言翻译到机器指令之后，指令必须正确的表达原来程序的意思。所以一般编译器测试都包含一些源程序，用来覆盖可能出现的各种情况。基本的原则是：原来程序的结果 = 编译后机器指令运行的结果。机器指令运行的结果很容易知道，运行一下就知道了。可是原来程序的结果你怎么知道呢？
为了解决这个“原来程序语义”的问题，最好是写一个解释器，准确无误的表达原来的代码的语义。所以我们的要求就是：
高级语言解释器（源程序） = 机器执行（机器代码）
由于处理器其实就是一个用来执行机器代码的解释器，这里有一个很美好的对称关系：
interp1(L1) = interp2(L2)
另外还有一个问题，就是编译器一般需要经过多个转化步骤（叫做 pass）才能最后编译为机器指令。比如，
L2 = pass1(source)
L3 = pass2(L2)
L4 = pass3(L3)
Ln = passN(Ln-1)
machine_code = codegen(Ln)
由于源程序经过了很多步骤猜得到最后的机器指令，如果你使用上面的公式，就会出现以下一些情况：
1. 知道结果错了，但是却不知道到底是哪一个 pass 错了。
2. 结果没有错，但是中间却有 pass 实际上是错的。但是由于之前的 pass 把输入程序的一些结构给“优化”掉了，所以错的那个 pass 其实没能得到触发错误的那个数据结构。所以测试没能发现错误。如果以后前面的那个 pass 被修改，错误就会暴露出来。这是非常难以发现的潜伏的危险。
为了防止这些情况出现，一些编译器（比如 Chez Scheme 和 Kent Dybvig 的课程编译器）使用了对每一个 pass 进行测试的做法。具体的方法就是为每一个中间语言都写一个解释器，把这语言的语义完全的表示出来。这样我们就需要检查一组等式：
L2 = pass1(source)
高级语言编译器（源程序） = interp2(L2) // 测试 pass1 的正确性
L3 = pass2(L2)
interp2(L2) = interp3(L3) // 测试 pass2 的正确性
这样一来我们就能独立的判断每一个 pass 的正确性了。
这些是基本的语义测试原理。另外除了语义，可能还有一些“表面”一些的测试，它们看代码本身，而不只看它的语义。比如尾递归优化的测试应该确保输出程序的尾递归得到正确的处理，等等。这些是语义测试检查不到的，因为尾递归没有正确处理的程序大部分也能输出正确的结果。
普通的单元测试方法也可以用来测试一些编译器里的辅助函数，但那些不是编译器特有的，所以就不讲了。
另外，就像所有测试的局限性一样，你没法枚举所有可能出现的输入，所以以上的测试方法其实也不能保证编译器的完全正确。

热心网友时间：2024-12-01 09:12

编辑完一段代码后编译器会自动生成运行程序，通过程序的运行来测试代码是否正常。
编译器：将“一种语言（通常为高级语言）”翻译为“另一种语言（通常为低级语言）”的程序。一个现代编译器的主要工作流程：源代码 (source code) → 预处理器 (preprocessor) → 编译器 (compiler) → 目标代码 (object code) → 链接器(Linker) → 可执行程序 (executables)。