在線等效翻譯
近年來,不平衡類分布問題引起了數據挖掘領域研究者的關註。在學習不平衡數據時,大部分的例子都被標註為第壹層次,只有少數屬於另壹類數據挖掘方法,傳統的預測能力差對於少數副本至關重要。不幸的是,許多真實世界的數據集,如健康檢查、檢查、信用證欺詐檢測、垃圾郵件識別和文本挖掘都面臨這種情況。在本研究中,我們提出了壹個稱為“信息粒化基本數據挖掘算法”的模型來解決這個問題。設計方法模擬了人才在處理信息時,可以獲得知識和信息粒子,而不是數字信息。該方法基於潛在語義索引特征提取工具,並使用奇異值分解,大大降低了其數據維數的增加。此外,該方法通過對不同數據集使用機器學習庫證明了該算法的有效性。實驗結果表明,該方法能顯著提高不平衡數據的分類能力。