數據特征處理的特征散列。

/blog/1051537932880901

1.特征散列/散列技巧簡介。

大多數機器學習算法的輸入要求是壹個實數矩陣，將原始數據轉化為實數矩陣稱為特征工程，特征哈希(也叫哈希技巧)是壹種特征工程技術。它的目標是將壹個數據點轉換成壹個向量。

我們先來看看分類數據和文本數據特征工程的壹般方法。

類別變量是壹組具有有限數量值的變量。如身份證號、廣告類別等。處理分類變量最常見的方法是使用壹鍵編碼:創建NN二進制變量，其中NN是分類變量的所有可能值。

對於文本數據的特征處理，最簡單的方法是詞袋模型:創建NN個二元變量，其中n為字數(即不同詞的個數)。對於每個文檔，創建壹個NN維向量，文檔中包含的單詞數就是這個向量中單詞對應的索引值。

可以看出，這兩種方法非常相似，都是創建高維稀疏矩陣。特征hash是實現這兩種轉換方法的哈希表。下面簡單介紹壹下哈希表。

二、哈希表(Hash Table)

Hashtable是壹種數據結構，根據鍵直接訪問內存存儲位置。每個哈希表使用壹個哈希函數(也稱為哈希函數)來映射鍵值對。該函數可以將任何壹種數據或消息壓縮成壹個摘要(即哈希值)，使其數據量變小，格式固定。理想的哈希函數會把不同的鍵哈希到不同的塊中，但是大部分哈希表都有哈希沖突的可能，也就是不同的鍵可能會映射到同壹個值上(後面會解釋，這個不會影響機器學習模型的效果)。

使用哈希表時，我們通常需要定義輸出範圍。例如，如果我們想將輸出範圍定義在0和n之間，那麽我們可以使用壹個函數將輸入數據散列到[0，n-1]之間。假設我們創建以下哈希函數，它可以將單詞映射到五個類別，即0-4個索引:

哈希表具有以下特征:

同樣的投入可能有同樣的產出(壹般來說比例不高)

不同的輸出必須對應不同的輸入。

正向計算簡單，反向計算困難。

根據輸入找到輸出，效率很高。

三、壹個簡單的案例

我們以垃圾郵件檢測(spam)為例(屬於文本分類的壹個應用)。假設有如下兩封電子郵件，第壹封是垃圾郵件，第二封不是垃圾郵件:

光是網上沖浪，我每周就能賺壹萬美元！(垃圾郵件)

下周初妳有空參加壹個會議嗎？(非垃圾郵件)

品牌:1

十:二

千:3

美元:4

per: 5

第6周

剛剛:7

沖浪:8

9號

網址:10

分別是:11

妳:12

免費電話:13

適用於:14

答:15

會議:16

早:17

下壹個:18

總詞匯量為***19，我們創建壹個19維的向量，得到如下結果:

光是網上沖浪，我每周就能賺壹萬美元！(垃圾郵件)

-& gt；[1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0]

下周初妳有空參加壹個會議嗎？(非垃圾郵件)

-& gt；[0 0 0 0 0 0 1 0 0 0 0 1 1 1 1 1 1 1 0]

然後我們可以使用分類模型來訓練、預測和標記垃圾郵件，並過濾垃圾郵件。但是，有壹個非常簡單的方法可以避免這種審查，比如壹封如下的電子郵件:

下周初妳有空參加壹個網上會議嗎

-& gt；[0 0 0 0 0 0 1 0 0 0 0 1 1 1 1 1 1 1 0]

這封郵件包含了壹些用戶自己創造的詞，這些詞不在我們的詞匯中，但事實上我們仍然可以將其識別為垃圾郵件。但是，用上面的袋子模型轉換的結果是壹個類似於前面第二封郵件的向量。顯然，分類模型會將其歸類為普通電子郵件。因此，上述特色工程顯然不能滿足要求。

此外，使用上述特征工程方法存在壹個巨大的問題，即通常會創建非常高維的稀疏向量。假設我們有654.38+0萬封郵件作為訓練集，每封郵件平均只有幾十個單詞，但詞匯量可能有幾十萬。以這種方式創建的輸入數據是高維稀疏矩陣，對於許多機器學習算法來說，這不是友好的輸入。

如果使用上述hash特征方法，可以將所有原始數據轉換為指定範圍內的哈希值。這有幾個優點:

即使對於不在詞匯表中的單詞，我們仍然可以計算出壹個哈希值，這樣就不容易被規避，也不需要提前準備詞匯表。新要素的轉換不影響輸入要素的長度(因為哈希範圍已經提前定義)。

妳只需要對新的數據進行哈希，不需要把所有的數據都哈希壹遍，所以支持在線學習。

哈希特征工程後，原本非常稀疏的向量可能會變得不那麽稀疏。

雖然存在哈希沖突，但研究和實踐表明，這種影響非常小。

哈希特征工程的最大缺點是缺乏可解釋性，因為該特征被視為無法解釋的哈希值。然而，這種技術在許多情況下非常有用。

使用特征散列的技巧

使用哈希特征時，需要選擇哈希的範圍，對此沒有統壹的標準。較小的哈希範圍會導致更多的沖突並影響準確性，而較大的範圍會占用更高的內存並花費更多的訓練時間。所以在實際情況中，妳要根據自己的目標來選擇。如果不考慮訓練時間，可以考慮使用更大範圍的哈希結果。