馬哈拉諾比斯距離(Mahalanobis distance)是由印度統計學家普拉桑塔·錢德拉·馬哈拉諾比斯提出的,表示數據的共變異數距離。它是一種有效的計算兩個未知樣本集的相似度的方法。與歐氏距離不同的是它考慮到各種特性之間的聯繫(例如:一條關於身高的資訊會帶來一條關於體重的資訊,因為兩者是有關聯的)並且是尺度無關的(scale-invariant),即獨立於測量尺度。
對於一個均值為
,共變異數矩陣為
的多變量向量
,其馬氏距離為
![{\displaystyle D_{M}({\vec {x}})={\sqrt {({\vec {x}}-{\vec {\mu }})^{T}\Sigma ^{-1}({\vec {x}}-{\vec {\mu }})}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/38421dc81576e5d8a401ee5d12ba1a331787dd48)
馬哈拉諾比斯距離也可以定義為兩個服從同一分布並且其共變異數矩陣為
的隨機變數
與
的差異程度:
![{\displaystyle d({\vec {x}},{\vec {y}})={\sqrt {({\vec {x}}-{\vec {y}})^{T}\Sigma ^{-1}({\vec {x}}-{\vec {y}})}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/38dface6bea53c53014a9f5fa032bedf5d626f43)
如果共變異數矩陣為單位矩陣,馬哈拉諾比斯距離就簡化為歐氏距離;如果共變異數矩陣為對角陣,其也可稱為正規化的歐氏距離。
![{\displaystyle d({\vec {x}},{\vec {y}})={\sqrt {\sum _{i=1}^{p}{(x_{i}-y_{i})^{2} \over \sigma _{i}^{2}}}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/52779fa6dab701b41b5815b67de8424203ddb671)
其中
是
的標準差。
意義
馬哈拉諾比斯距離是基於樣本分布的一種距離。物理意義就是在規範化的主成分空間中的歐氏距離。所謂規範化的主成分空間就是利用主成分分析對一些數據進行主成分分解。再對所有主成分分解軸做歸一化,形成新的坐標軸。由這些坐標軸張成的空間就是規範化的主成分空間。
換句話說,主成分分析就是把橢球分布的樣本改變到另一個空間裡,使其成為球狀分布。而馬哈拉諾比斯距離就是在樣本呈球狀分布的空間裡面所求得的歐式距離。
當然,上面的解釋只是對橢球分布而言,對一般分布,只能消除分布的二階相關性,而不能消除高階相關性。