1.文本預處理:在查重之前,對提交的論文進行預處理,包括去除停用詞、標點符號、數字等。,從而減少無關信息的幹擾。同時將長句分成子句,提高查重的準確率。
2.特征提取:將預處理後的文本轉換成特征向量。常用的特征提取方法有詞袋(Bow)、TF-IDF ($ TERM頻率-逆文檔頻率)等。這些方法可以將文本表示為詞或短語的組合,便於後續的相似度計算。
3.相似度計算:通過特征向量計算待檢測文本與數據庫中已有文檔的相似度。常用的相似度計算方法有余弦相似度和Jaccard相似度。這些方法可以在詞匯或短語層次上度量兩個文本的相似性。
4.閾值判斷:根據設定的閾值,判斷待檢測文本與數據庫中已有文檔的相似度是否超過閾值。如果超過閾值,則認為該文涉嫌抄襲。閾值的設置可以根據實際需求進行調整,以平衡查準率和查全率。
5.語義分析:除了基於相似度的查重方法,中國知網還采用了壹些語義分析技術,如依存句法分析、情感分析等,提高查重的準確率。這些技術可以通過簡單地替換單詞來幫助識別壹些抄襲。
6.人工審核:中國知網將對查重結果中涉嫌抄襲的文獻進行人工審核,以確保查重結果的準確性。人工審核可以有效識別壹些復雜、隱蔽的抄襲行為,提高查重的準確率。
總之,中國知網的查重算法集成了多種技術手段,包括文本預處理、特征提取、相似度計算、閾值判斷、語義分析和人工審核,旨在為用戶提供準確可靠的查重服務。