先驗演算法

電腦科學以及資料探勘領域中, 先驗演算法(Apriori Algorithm)[1]關聯規則學習的經典演算法之一。先驗演算法的設計目的是為了處理包含交易資訊內容的資料庫(例如,顧客購買的商品清單,或者網頁常訪清單。)而其他的演算法則是設計用來尋找無交易資訊(如Winepi演算法和Minepi演算法)或無時間標記(如DNA定序)的資料之間的聯絡規則。

關聯式規則中,一般對於給定的專案集合(例如,零售交易集合,每個集合都列出的單個商品的購買資訊),演算法通常嘗試在專案集合中找出至少有C個相同的子集。先驗演算法採用由下而上的處理方法,即頻繁子集每次只擴充一個對象(該步驟被稱為候選集產生),並且候選集由資料進行檢驗。當不再產生符合條件的擴充對象時,演算法終止。

先驗演算法採用廣度優先搜尋演算法進行搜尋並採用結構來對候選專案集進行高效計數。它通過長度為的候選專案集來產生長度為的候選專案集,然後從中刪除包含不常見子模式的候選項。根據向下封閉性引理,該候選專案集包含所有長度為的頻繁專案集。之後,就可以通過掃描交易資料庫來決定候選專案集中的頻繁專案集。

雖然先驗演算法具有顯著的歷史地位,但是其中的一些低效與權衡弊端也進而引致了許多其他的演算法的產生。候選集產生過程生成了大量的子集(先驗演算法在每次對資料庫進行掃描之前總是嘗試載入儘可能多的候選集)。並且自底而上的子集瀏覽過程(本質上為寬度優先的子集格遍歷)也直到遍歷完所有 個可能的子集之後才尋找任意最大子集S。

例子

一個大型超級市場根據最小存貨單位(SKU)來追蹤每件物品的銷售資料。從而也可以得知哪些物品通常被同時購買。通過採用先驗演算法來從這些銷售資料中建立頻繁購買商品組合的清單是一個效率適中的方法。假設交易資料庫包含以下子集{1,2,3,4},{1,2},{2,3,4},{2,3},{1,2,4},{3,4},{2,4}。每個標號表示一種商品,如「奶油」或「麵包」。先驗演算法首先要分別計算單個商品的購買頻率。下表解釋了先驗演算法得出的單個商品購買頻率。

商品編號 購買次數
1 3
2 6
3 4
4 5

然後我們可以定義一個最少購買次數來定義所謂的「頻繁」。在這個例子中,我們定義最少的購買次數為3。因此,所有的購買都為頻繁購買。接下來,就要生成頻繁購買商品的組合及購買頻率。先驗演算法通過修改結構中的所有可能子集來進行這一步驟。然後我們僅重新選擇頻繁購買的商品組合:

商品編號 購買次數
{1,2} 3
{2,3} 3
{2,4} 4
{3,4} 3

並且生成一個包含3件商品的頻繁組合列表(通過將頻繁購買商品組合與頻繁購買的單件商品聯絡起來得出)。在上述例子中,不存在包含3件商品組合的頻繁組合。最常見的3件商品組合為{1,2,4}和{2,3,4},但是他們的購買次數為2,低於我們設定的最低購買次數。

演算法的局限

因此Apriori演算法中的一些低效與權衡弊端也進而引致了許多其他的演算法的產生,例如FP-growth演算法。候選集產生過程生成了大量的子集(先驗演算法在每次對資料庫進行掃描之前總是嘗試載入儘可能多的候選集)。並且自底而上的子集瀏覽過程(本質上為寬度優先的子集格遍歷)也直到遍歷完所有   個可能的子集之後才尋找任意最大子集S。

參考資料

  1. ^ Rakesh Agrawal and Ramakrishnan Srikant. Fast algorithms for mining association rules in large databases頁面存檔備份,存於網際網路檔案館). Proceedings of the 20th International Conference on Very Large Data Bases, VLDB, pages 487-499, Santiago, Chile, September 1994.