曲線擬合

曲線擬合(英語:curve fitting),簡稱擬合,俗稱拉曲線,是一種構建一個函数曲線,使之最佳地吻合現有數據點英语data points的過程[1],該過程可能附加若干條件限制。[2][3]通俗地說,科学工程问题通过诸如采样实验等方法获得了若干离散的数据点。根据这些数据,我们往往希望得到一个连续的函数(也就是曲线)或者更加密集的离散方程与已知数据相吻合,该过程就叫做“拟合”,而得到的曲线方程就称为“拟合函数”。曲线拟合又译为:曲線配適曲線貼合曲線適插法,均有助理解其选择曲线方程(解析函数)来“模拟吻合”观测数据的过程。

用迭代过程、非对称峰值模型来拟合有噪声的曲线(高斯牛顿法英语Gauss–Newton algorithm,阻尼因数α)。
上:原始数据和模型
下:归一化误差平方和的演变

曲線擬合中可以使用插值[4][5](需要精確吻合某數據時)或平滑[6][7](構造一個平滑的函數曲線,近似符合數據點)。迴歸分析是與擬合密切相關的一個話題[8][9],它更關注的是統計推斷,例如一條擬合到有隨機誤差的一組觀測數據的曲線有多大的不確定性。擬合曲線可以用作數據視覺化的一種輔助手段,[10][11]以表示數據缺失的函數區間的取值,[12]也可概括兩個或多個變量之間的關係。[13]外推extrapolation)指的是使用曲線來擬合觀察數據取值範圍以外的取值,[14]往往因採取的構建函數的方式不同而有較大的不确定性[15]

將函數擬合至數據點

最常見的是擬合成函數 y=f(x) 的形式。

 
用各種多項式來擬合數據點,黑色點為用正弦函數生成的「原始」數據。紅線為一次多項式,綠線為二次,橙線為三次,藍線為四次

將直線或多項式曲線擬合至數據點

一次多项式方程 笛卡尔平面上是一條直線,而這條直線的斜率a。因為任何兩點可以決定一條直線,因此總能找到次數不多於1的多項式來串起任何兩個x值相異的點。

如果把多次式的次數增加到2:

 

那麼只要給定x值各異的3點,總會有次數不多於2的多項式可以把它們串起。

如果把多次式的次數再增加到3:

 

那麼只要給定x值各異的4點,總會有次數不多於3的多項式可以把它們串起。

更準確而言,這條多項式能夠符合任何4個限制。限制可以是一點(x, y)角度曲率(即密切圆英语osculating circle半徑的倒數1/R)。角度和曲率的限制通常用在曲線的終端,此時稱為終端條件 。兩條不同多項式擬合曲線的轉換處通常會用到相同的終端條件,以確保樣條spline)平滑交接。也可以增加如曲率变化率等高阶约束。例如,在高速公路立体交叉点苜蓿葉型的设计中,可以理解为汽车沿着苜蓿葉立交运动时作用在汽车上的力的变化率(加加速度),并依此设定合理的限速。

一次多项式也可以拟合一个单点和一个角度的限制;三次多项式也可以拟合两点、一个角度约束以及一个曲率约束。许多其它类型的约束组合也同样可以用低阶或者高阶多项式来拟合。

在有超过n+1个约束(n是多项式的阶次)的情况下,多项式拟合可能仍然能满足所有约束。满足所有约束的精确拟合不一定能够得到(但是有可能得到,例如一次多项式拟合中的三点共线)。通常,我们需要使用一些方法来评价拟合的好坏。最小平方法就是用来评价偏离的一种常用的方法。

虽然提高多项式的次数可能可以获得精确拟合,但有时我们仍会采用近似拟合,其原因有下:

  • 存在精确的拟合并也不意味着能很容易地得到这个拟合。根据使用的算法不同,可能遇到发散的情形,要么无法得到精确拟合,要么需要太长的计算时间才能获得精确拟合。不管哪种情况,最终都会以得到近似拟合而结束。
  • 通常人們會希望得到一个近似的拟合以抹平数据点的随机波动,而不是为了“精确”拟合数据而扭曲拟合曲线。
  • 龙格现象:高次多项式往往有高度波动的特性。如果通过两点A和B作一条曲线,可以期望该曲线也大概会通过AB中点附近的某处。但是对于高次多项式,情况就不是如此了,高次多项式曲线往往可能有绝对值很大的幅值。对于低次多项式,曲线波动不大,因此能通过中点附近(对于一次多项式,能保证肯定通过中点)。

將其他函數擬合至數據點

 
小麥產量和土壤鹽度之間的關係[16]

其他類型的曲線在特定條件下也可使用,諸如三角函数(如正弦餘弦函數)。

在光譜學中,數據可以使用高斯柯西福格特等相關函數來擬合。

在生物學、生態學、人口學、傳染病學等學科中,生物個體數增長、傳染病擴散等數據可以用逻辑斯谛函数(一种S型函數)來擬合。

在農業中,倒S型函數被用於描述作物產量和生長因子之間的關係。右方藍色的圖表是將農田中的測量數據進行S形回歸得出的。可以看出作物產量在土壤鹽度增加時先緩慢降低,之後降得更快,最終又趨於緩和。

代數擬合與幾何擬合

在数据的代数分析中,“拟合”通常意味着试图找到使点的垂直(y轴)方向偏移最小的曲线(例如普通最小二乘法)。然而,对于图形和图像应用,几何拟合可以提供最佳的视觉拟合;它通常试图使到曲线的正交距离最少(例如整体最小二乘法英语total least squares),或以其他方式将点和曲线之间两个轴的方向上的偏移都考虑在内。由于往往需要非线性和/或迭代运算,尽管几何拟合的结果有更美观和几何上更准确的优势,但实际上较少使用。[17][18][19]

將平面曲線擬合至數據點

软件

很多统计软件包英语List of statistical packages,例如R语言,以及数值分析软件英语List of numerical-analysis software,例如gnuplotGNU科学库MLAB英语MLABMapleMATLAB、TK Solver 6.0、ScilabMathematicaGNU OctaveSciPy,都可以用命令行进行不同情景下的曲线拟合。

参见

参考文献

  1. ^ S.S. Halli, K.V. Rao. 1992. Advanced Techniques of Population Analysis. ISBN 0306439972 Page 165 (cf. ... functions are fulfilled if we have a good to moderate fit for the observed data.)
  2. ^ The Signal and the Noise: Why So Many Predictions Fail-but Some Don't. By Nate Silver
  3. ^ Data Preparation for Data Mining: Text. By Dorian Pyle.
  4. ^ Numerical Methods in Engineering with MATLAB®. By Jaan Kiusalaas. Page 24.
  5. ^ Numerical Methods in Engineering with Python 3页面存档备份,存于互联网档案馆). By Jaan Kiusalaas. Page 21.
  6. ^ Numerical Methods of Curve Fitting页面存档备份,存于互联网档案馆). By P. G. Guest, Philip George Guest. Page 349.
  7. ^ See also: Mollifier
  8. ^ Fitting Models to Biological Data Using Linear and Nonlinear Regression页面存档备份,存于互联网档案馆). By Harvey Motulsky, Arthur Christopoulos.
  9. ^ Regression Analysis页面存档备份,存于互联网档案馆) By Rudolf J. Freund, William J. Wilson, Ping Sa. Page 269.
  10. ^ Visual Informatics. Edited by Halimah Badioze Zaman, Peter Robinson, Maria Petrou, Patrick Olivier, Heiko Schröder. Page 689.
  11. ^ Numerical Methods for Nonlinear Engineering Models页面存档备份,存于互联网档案馆). By John R. Hauser. Page 227.
  12. ^ Methods of Experimental Physics: Spectroscopy, Volume 13, Part 1. By Claire Marton. Page 150.
  13. ^ Encyclopedia of Research Design, Volume 1. Edited by Neil J. Salkind. Page 266.
  14. ^ Community Analysis and Planning Techniques页面存档备份,存于互联网档案馆). By Richard E. Klosterman. Page 1.
  15. ^ An Introduction to Risk and Uncertainty in the Evaluation of Environmental Investments. DIANE Publishing. Pg 69页面存档备份,存于互联网档案馆
  16. ^ Calculator for sigmoid regression. [2022-06-08]. (原始内容存档于2021-04-18). 
  17. ^ Ahn, Sung-Joon, Geometric Fitting of Parametric Curves and Surfaces (PDF), Journal of Information Processing Systems, December 2008, 4 (4): 153–158, doi:10.3745/JIPS.2008.4.4.153, (原始内容 (PDF)存档于2014-03-13) 
  18. ^ Chernov, N.; Ma, H., Least squares fitting of quadratic curves and surfaces, Yoshida, Sota R. (编), Computer Vision, Nova Science Publishers: 285–302, 2011, ISBN 9781612093994 
  19. ^ Liu, Yang; Wang, Wenping, A Revisit to Least Squares Orthogonal Distance Fitting of Parametric Curves and Surfaces, Chen, F.; Juttler, B. (编), Advances in Geometric Modeling and Processing, Lecture Notes in Computer Science 4975: 384–397, 2008, CiteSeerX 10.1.1.306.6085 , ISBN 978-3-540-79245-1, doi:10.1007/978-3-540-79246-8_29 

外部連結