當前位置:成語大全網 - 成語詞典 - 如何在壹周內做壹款拼音輸入法

如何在壹周內做壹款拼音輸入法

本文講解了如何在壹周時間內,從零開始,壹步步做壹個拼音輸入法。

思路是這樣的,首先,需要壹個詞庫,這個詞庫包含單字的和詞組的,其次,需要進行壹場串字母的切割算法(bdu切分為b、du),最後需要壹個檢索和排序算法,來應對類似首字母檢索(sz對應深圳)和部分字母檢索(shenz對應深圳)等各種情況。下面介紹我是怎麽從零開始做壹款拼音輸入法的。

單字的詞庫,由於有漢字詞典,所以比較簡單,這裏用的是網上壹個開源的詞庫文件:

數目為3萬多,但是裏面包含了許多基本不會用到的偏僻字:

具體的排除偏僻字的方法後面會介紹。

詞組的詞庫,由於做輸入法的出發點,是為了搜索地圖裏面的POI點服務的,所以優先考慮地理詞,壹開始想到的是用 搜狗細胞詞庫 上面的所有城市的精選地理信息:

解析方法參考: Java-解析搜狗輸入法分類詞庫scel文件

但是這樣的方式,後來在使用中,發現其雖然包含了非常多的地理信息,但是對於輸入法來說,並不好用,原因在於,用戶其實是更習慣於用常用字來檢索的,例如:用戶輸入“baidu”,是想要打出“百度”這樣的常用字,而不是像“柏渡”這樣類似的地理詞。

基於此,後面的詞組詞庫是用的搜狗以前版本的核心詞庫,解析方法參考:

Java-解析搜狗輸入法核心詞庫sgim_core.bin文件 。

有點麻煩的是,搜狗的詞庫只有漢字,並沒有對應的拼音,所以這裏用pinyin4j來做轉換,轉換方法參考: Java-漢字轉拼音 。

數目為42萬多,但是裏面同樣也包含了很多的偏僻詞組,排除方法後面會介紹。

由於是輸入法,排序規則顯然是越常用的排越前面,但是由於用到的詞庫並沒有詞頻,所以必須想辦法通過機器去自動生成詞頻,以便進行常用性排序。

對於這壹點,在經過思考以後,決定采用百度搜索引擎來進行數據搜集。在百度搜索引擎搜索每個詞組時,可以看到有多少個相關的結果,我們有理由相信,越多的相關結果,意味著被檢索的次數也多,也就越常用。

下面是對於"kebi"對應的“科比”和“可鄙”在百度搜索引擎的結果數對比:

可以看到,"科比"的搜索相關結果更多,顯然也更常用。

基於這壹策略,通過對詞庫中的單字和詞組進行百度指數(結果數/萬)的爬蟲搜集,這裏涉及到跟百度反爬蟲部門的鬥智鬥勇,包括不定時切IP等,不過最終還是成功把45萬詞條的數據爬取下來了,部分結果如下:

完成以後,根據百度指數,設置壹個閾值(這裏是100),小於100的就判斷為生僻字和詞組,將其從詞庫中刪除,最終只保留了33萬條詞條。

由於我們的輸入法的使用場景主要在於地圖的搜索POI點,所以,我們如果能判斷壹個詞組是否是地理詞,將其排在更前面,則體驗上會更好。基於我們在排序中的思路,考慮從百度檢索結果中看能不能進壹步挖掘價值。

下面是搜索兩個地理詞,“深圳”和"南山"在百度搜索引擎的結果:

可以看出,地理詞在檢索結果中,很可能會出現“地圖”和“旅遊攻略”字眼,我們可以以此為依據,來判斷壹個詞為地理詞。依舊通過爬蟲,新壹輪的鬥智鬥勇後,成功地識別出來了地理詞。

下面是識別出來的首字母為”ns“的地理詞列表:

從結果來看,顯然這策略也並不是完美的,會出現壹些詞的誤判,例如“那啥”,但是從最終效果來看,還是非常好的。

對於用戶已經選擇過的詞,我們應該在用戶再次輸入的時候出現在最前面。因此,我們在詞庫中加入壹個“click”字段,用於記錄該詞的被選擇次數,次數越多的,更高優先級展示給用戶。

通過上述步驟解決了,詞庫的建立,詞組的常用性排序,地理詞的識別以及記錄用戶選擇次數後,我們就搭建起了壹個完整可用的詞庫。

在此基礎上,我們需要在用戶輸入壹串字母的時候,對其進行切割,例如,baidu切割成bai和du,szhen切割成s和zhen。對於這壹點,這裏用到的是壹個基於拼音語法規則的正則表達式:

這個正則表達式可以正確地分割出長串的字母為單個的拼音,例如分割:

但是,在測試中,發現其分割有缺陷,例如,對於分割"hn",直接分割成了“hn”,而正確的分割是"h n",所以,針對這種情況,做了容錯處理,後面會介紹。

切割完成後,我們需要將其從詞庫中檢索出來對應的詞語。

以“szhen”舉例,切割完成後,是"s"和“zhen”,首先,我們可以確認其首字母為"sz",其次,我們可以確定,全拼音的匹配正則表達式為:

其中,“%”表示零個或多個字母。

利用Sqlite的LIKE來進行全拼音正則匹配,並對地理詞和用戶選擇詞進行優先排序,最後根據百度指數進行排序,查詢語句為:

這裏,由於交互上的需求,用戶選擇過的詞排在最前面,後面固定出現三個地理詞,再後面的詞,根據百度指數進行排序。對於上文提到的“hn”分割錯誤導致的異常,這裏需要將其當成是純首字母檢索處理。

為了查看最終的交互效果,我們隨機取幾個字符串,來看看匹配結果與搜狗輸入法進行對比:

可以看到,在常用詞上,兩者出現的詞基本重合,而本文的輸入法,在地理詞上,體驗要更好。

最後放上加上界面開發的成果圖: