當前位置:成語大全網 - 成語詞典 - 如何實現兩個聲音相似度匹配算法

如何實現兩個聲音相似度匹配算法

作為自然語言理解的壹項基礎工作,詞語語義相似度度量壹直是研究的重點。語義相似度度量本身是壹個中間任務,它是大多數自然語言處理任務中壹個必不可少的中間層次,在自然語言處理中有著廣泛的應用,如詞義消歧、信息檢索以及機器翻譯等。 本文的核心內容是漢語詞語語義相似度算法研究以及如何將其應用於跨語言信息檢索(Cross-Language Information Retrieval, CLIR)領域。首先對語義相似度度量算法進行綜述,然後重點描述基於HowNet的語義相似度度量算法,提出根據知識詞典描述語言(Knowledge Dictionary Mark-up Language, KDML)的結構特性將詞語語義相似度分為三部分進行計算,每部分采用最大匹配的算法,同時加入義原深度信息以區別對待不同信息含量的義原。較以往同類算法,其計算結果具有區分度,更加符合人的主觀感覺。 本文嘗試將所建立的漢語語義相似度度量模式應用於跨語言信息檢索系統。跨語言信息檢索結合傳統文本信息檢索技術和機器翻譯技術,在多方面涉及到語義問題,是語義相似度良好的切入點。兩者的結合主要體現在兩方面:(1)將語義相似度度量應用於查詢翻譯,利用語義相似度對查詢關鍵詞進行消歧翻譯,提高翻譯質量;(2)將語義相似度應用於查詢擴展,使擴展內容與原查詢具有更高相關性,以提高檢索的召回率和準確率。 本文提出相對客觀的評價標準,如為單獨衡量詞義消歧的性能,而使用第三屆詞義消歧系統評價會議(The 3rd Evaluating Word Sense Disambiguation Systems, SENSEVAL-3)語料進行測試;為衡量應用語義相似度於跨語言檢索後的性能,又使用第九屆文本檢索會議(The 9th Text Retrieval Conference, TREC-9) CLIR評價任務的查詢集、語料庫和結果集進行評估。這使得我們的實驗結果相對公正客觀,具有壹定可比性。本文對原有英漢跨語言信息檢索系統進行壹定程度的改進,使得各種相關算法都可方便地在系統中進行集成,成為壹個研究跨語言信息檢索的實驗平臺,其系統的設計思想充分體現模塊化和擴展性。 綜上,本文通過綜合分析主流的語義相似度算法,而提出壹種新的基於HowNet的漢語語義相似度算法,並給出其在英漢跨語言信息檢索中的嘗試性應用,希望能給相關領域的研究者有所借鑒。