馬哈拉諾比斯距離

此條目沒有列出任何參考或來源。 (2020年4月26日)
維基百科所有的內容都應該可供查證。請協助補充可靠來源以改善這篇條目。無法查證的內容可能會因為異議提出而被移除。

馬哈拉諾比斯距離（Mahalanobis distance）是由印度統計學家普拉桑塔·錢德拉·馬哈拉諾比斯（英語：Prasanta Chandra Mahalanobis）提出的，表示數據的共變異數距離。它是一種有效的計算兩個未知樣本集的相似度的方法。與歐氏距離不同的是它考慮到各種特性之間的聯繫（例如：一條關於身高的資訊會帶來一條關於體重的資訊，因為兩者是有關聯的）並且是尺度無關的（scale-invariant），即獨立於測量尺度。對於一個均值為 $\mu =(\mu _{1},\mu _{2},\mu _{3},\dots ,\mu _{p})^{T}$ ，共變異數矩陣為 $\Sigma$ 的多變量向量 $x=(x_{1},x_{2},x_{3},\dots ,x_{p})^{T}$ ，其馬氏距離為

D_{M}({\vec {x}})={\sqrt {({\vec {x}}-{\vec {\mu }})^{T}\Sigma ^{-1}({\vec {x}}-{\vec {\mu }})}}

馬哈拉諾比斯距離也可以定義為兩個服從同一分布並且其共變異數矩陣為 $\Sigma$ 的隨機變數 ${\vec {x}}$ 與 ${\vec {y}}$ 的差異程度：

d({\vec {x}},{\vec {y}})={\sqrt {({\vec {x}}-{\vec {y}})^{T}\Sigma ^{-1}({\vec {x}}-{\vec {y}})}}

如果共變異數矩陣為單位矩陣，馬哈拉諾比斯距離就簡化為歐氏距離；如果共變異數矩陣為對角陣，其也可稱為正規化的歐氏距離。

d({\vec {x}},{\vec {y}})={\sqrt {\sum _{i=1}^{p}{(x_{i}-y_{i})^{2} \over \sigma _{i}^{2}}}}

其中 $\sigma _{i}$ 是 $x_{i}$ 的標準差。

意義

馬哈拉諾比斯距離是基於樣本分布的一種距離。物理意義就是在規範化的主成分空間中的歐氏距離。所謂規範化的主成分空間就是利用主成分分析對一些數據進行主成分分解。再對所有主成分分解軸做歸一化，形成新的坐標軸。由這些坐標軸張成的空間就是規範化的主成分空間。

換句話說，主成分分析就是把橢球分布的樣本改變到另一個空間裡，使其成為球狀分布。而馬哈拉諾比斯距離就是在樣本呈球狀分布的空間裡面所求得的歐式距離。

當然，上面的解釋只是對橢球分布而言，對一般分布，只能消除分布的二階相關性，而不能消除高階相關性。

這是一篇與統計學相關的小作品。您可以透過編輯或修訂擴充其內容。

取自「https://zh.wikipedia.org/w/index.php?title=马哈拉诺比斯距离&oldid=76982747」