查重是壹個匹配過程,基於句子。如果壹個句子是重復的,就很容易判斷重復。以查重軟件知網為例:中國知網CNKI學位論文檢測系統TMLC/VIP,其運行方式是將電子版論文輸入電子數據庫,然後數據庫會根據知網或網絡現有的所有電子數據進行匹配。如果軟件檢測到有65,438+03個相同的單詞,則認為是相同的。
論文查重標準:
1.在各種學術不端行為中,文本重復是最常見、最嚴重的。論文檢測系統中的查重百分比只是描述了被檢測文檔中重疊詞的比例,並不指文檔的抄襲。只能說百分比越大,重疊詞越多,抄襲的可能性越大。是否屬於抄襲以及抄襲的嚴重程度需要專家審核後決定。句子相似度有壹個算法。被判定為相同的不是同壹句話。句子有句級相似度算法,段落有段級相似度算法。計算壹個文檔或段落是否與其他文檔相似就是基於此。
2.論文重復檢測系統無法得出結論,是否抄襲,最後還有人工審核。所以如果是妳描述的情況,專家會做出相應的判斷。我們的系統只提供各種線索和依據,讓人們快速掌握測試文獻的信息。比如知網上的論文檢測的條件是13連續出現相似或抄襲的單詞會被標紅,但3中的前提條件必須滿足,即妳引用或抄襲的A文檔在每個檢測段落中的總和要達到5%。