边界检查

边界检查程序设计中是指在使用某变量前,检查该变量的值是否处在指定的范围之内。最常见的是数组的下标检查,防止下标超出数组范围,覆盖、运行其他堆叠位址数据。

若是变数超过范围,而边界检查没检查到发,有可能是程序出现异常并终止运行,但也可能出现其他现象。

由于每次都进行边界检查非常耗时,而且有些代码确定不会出现越界问题,所以这个操作并不总是需要被执行。一些现代编译器中有称为选择性边界检查的技术,可以略去一些常见的不需要的边界检查,从而提高程序的性能。

各编程语言的应用情况

在目前常见的编程语言中,强制进行边界检查的有C#AdaHaskellJavaJavaScriptLispPHPPythonRubyVisual Basic。其中C#同时支持“unsafe块”(不安全代码块),即一段暂时关闭边界检查、启用指针以提高效率的代码块。这个功能常被用于加速一小段不可能出现越界问题的代码的执行速度,而不至于破坏整个程序的安全性。除了这些语言,D语言OCaml也支持自动边界检查,但是允许用户通过编译器的一个开关选项来选择是否启用该功能。

 
差一错误,又称“栅栏错误”:一个栅栏被一些柱子分割成10段,柱子的根数应该是11根,而不是10根。

然而,有一些编程语言(比如C语言)为了提高速度,从来都不会自动进行边界检查,这经常导致差一错误(见右图)和缓冲区溢出的发生。许多程序员认为这些语言为了速度所付出的代价太大了。在1980年图灵奖讲座上,东尼·霍尔讲述了他设计包含边界检查的ALGOL 60语言时的经历[1]

范围检查

范围检查经常被用于确保某个数字处在一个特定的范围之内。通常在访问数组的时候会进行该检查,因为当数组下标越界的时候,数据会被写入其它变量的空间,甚至会覆盖压栈的寄存器数值。这样一来,程序可能会崩溃,或者是导致一些安全漏洞的产生(见缓冲区溢出)。在Java中,Java虚拟机将在尝试访问数组中的元素的时候,自动的进行数组边界检查,并且在下标越界的时候引发异常[2]

范围检查的另一个常见用途是在两种数据类型相互转换的时候。在构建在.NET Framework上的语言中,超出范围的强制转换将引发InvalidCastException类型的异常。[3]

比如将一个32位有符号整数类型的变量强制转换到一个16位有符号整数类型的变量之前,会检查这个变量的值是否在-32768~+32767之间(16位有符号整数可以表示的整数范围),而不是诸如32768之类的无法表示的数字。

数组下标检查

数组下标检查是指在程序中,所有数组下标的表达式的结果在真正被用来访问某一个特定的元素之前,先把它的值和定义数组时给出的数组上界和下界进行比较。如果一个下标超出了预期的范围时,那么就引发一个错误来阻止进一步的访问。(例如:.NET Framework中的IndexOutOfRangeException[4]和ArgumentOutOfRangeException[5]类型异常

比如在访问一个下标范围是0~9的数组前检查下标是否也在0~9内,而不是如25之类的越过数组结尾的下标。

除了软件实现的下标检查之外,VAX架构的电脑拥有一条INDEX汇编指令,可以用来检查数组的下标是否越界,可以至多提供6个任意VAX编址的地址。B6500和一些相似的伯勒斯电脑则以硬件进行边界检查,无论是采用什么语言撰写的程序。[6]

数据验证

在数据集合数据质量范畴中,边界检查表示检查一个并不总是错误的数据。比如,一个成年人的身高应该处在0到3米之间、利用率应该在0到1之间等。

参见

参考

  1. ^ The Emperor’s Old Clothes”, The 1980 ACM Turing Award Lecture, CACM volume 24 number 2, February 1981, pp 75–83.
  2. ^ 存档副本. [2011-11-10]. (原始内容存档于2011-11-20). 
  3. ^ 存档副本. [2011-11-10]. (原始内容存档于2016-03-28). 
  4. ^ 存档副本. [2011-11-10]. (原始内容存档于2017-01-15). 
  5. ^ http://msdn.microsoft.com/library/zh-cn/system.collections.arraylist.item.aspx
  6. ^ Adar Nir, Grosman Rotem. VAX-11 Assembler and Simulator. Technion, Israel Institute of Technology.: p.42. [2011-11-10]. (原始内容 (pdf)存档于2020-02-22) (英语). A subscript range trap is an exception indicating that the last instruction was an INDEX instruction with the subscript operand is lower than the low operand orgreater than the high operand.