當前位置:成語大全網 - 古籍善本 - 國內外數據挖掘的研究現狀

國內外數據挖掘的研究現狀

隨著網絡和數據庫技術的飛速發展以及數據庫管理系統的廣泛應用人們積累了越來越多的數據。數據挖掘是從大量的實際應用數據中提取隱藏的信息和知識。它運用了數據庫、人工智能、數理統計等多項技術,是壹種深度數據分析方法。

關鍵詞:數據挖掘;知識;分析;營銷;財務投資

隨著網絡和數據庫技術的飛速發展以及數據庫管理系統的廣泛應用,人們積累了越來越多的數據。於是,數據挖掘技術應運而生。下面,本文對數據技術及其應用做壹個簡單的介紹。

壹,數據挖掘的定義

數據挖掘是從大量不完整、有噪聲、模糊和隨機的實際應用數據中提取隱藏的、未知的但潛在有用的信息和知識的過程。它是壹種新興的商業信息處理技術,其主要特點是對商業數據庫中的大量商業數據進行提取、轉換、分析和建模,提取關鍵數據輔助商業決策。簡而言之,數據挖掘實際上是壹種深度的數據分析方法。從這個角度來看,數據挖掘也可以描述為根據企業設定的業務目標,對大量企業數據進行探索和分析,揭示隱藏的、未知的或已驗證的規律,並進壹步建模的壹種先進有效的方法。

第二,數據挖掘技術

數據挖掘技術是數據庫技術長期研究和發展的結果,數據倉庫技術的發展與數據挖掘密切相關。在大多數情況下,數據挖掘首先要將數據從數據倉庫中取出,放到數據挖掘庫或數據集市中,因為數據倉庫會對數據進行清理,解決數據不壹致的問題,這將給數據挖掘帶來很多好處。此外,數據挖掘還利用了人工智能(AI)和統計分析的進步,這兩者都致力於模式發現和預測。數據庫、人工智能和數理統計是數據挖掘技術的三大支柱。由於數據挖掘中發現的知識不同,使用的技術也不同。

1.廣義的知識。指範疇特征的壹般描述知識。根據數據的微觀特征,發現其代表性、普遍性、高層次的概念、中觀和宏觀層次的知識反映了相似事物的相似性,是對數據的概括、提煉和抽象。發現廣義知識的方法和技術有很多,如數據立方體和面向信息的約簡。數據立方體的基本思想是實現壹些常用的高成本聚集函數的計算,如計數、求和、平均、最大值等。,並將這些實現視圖存儲在多維數據庫中。面向屬性的約簡是用類SQL語言表達數據挖掘查詢,收集數據庫中的相關數據集,然後對相關數據集應用壹系列數據提升技術進行數據提升,包括屬性刪除、概念樹提升、屬性閾值控制、計數等聚合函數傳播。

2.相關知識。它反映了壹個事件與其他事件之間的依賴性或相關性的知識。如果兩個或多個屬性之間存在關聯,則可以根據其他屬性值預測其中壹個屬性的屬性值。最著名的關聯規則

然後是Apriori算法和FP-growth算法。關聯規則的發現可分為兩步:第壹步叠代識別所有頻繁項集,頻繁項集的支持度不低於用戶設定的最小值;第二步,從頻繁項集中構造可信度不低於用戶設定的最低值的規則。識別或發現所有頻繁項集是關聯規則發現算法的核心,也是計算量最大的部分。

3.分類知識。它反映了同類事物的特征知識和不同事物之間的不同特征知識。分類方法包括決策樹、樸素貝葉斯、神經網絡、遺傳算法、粗糙集方法、模糊集方法、線性回歸和K-means除法。最典型的分類方法是決策樹。它是由案例集構造的決策樹,是壹種有指導意義的學習方法。

該方法首先根據訓練子集形成決策樹。如果該樹不能給所有對象壹個正確的分類,則選擇壹些例外並將其添加到訓練子集中,並且重復該過程,直到形成正確的決策集。最後的結果是壹棵樹,它的葉子節點是類名,中間的節點是有分支的歧義,對應著壹些可能的歧義值。

4.預測知識。根據時間序列數據,從歷史和當前數據推斷未來數據,也可以看作是以時間為關鍵屬性的相關知識。目前,時間序列預測方法包括經典統計方法、神經網絡和機器學習。在1968中,BoX和Jenkins提出了壹套完善的時間序列建模理論和分析方法。這些經典的數學方法通過建立隨機模型來預測時間序列。由於大量的時間序列是非平穩的,它們的特征參數和數據分布是隨時間變化的。因此,僅僅通過訓練壹些歷史數據,建立單壹的神經網絡預測模型,是無法完成準確預測任務的。因此,人們提出了基於統計和準確性的再訓練方法。當現有預測模型不再適用於當前數據時,對模型進行重新訓練,獲得新的權重參數,建立新的模型。

5.有偏見的知識。它是對差異和極端特例的描述,揭示事物偏離常態的異常現象,如標準類之外的特例和數據聚類之外的離群值。所有這些知識都可以在不同的概念層面找到,並隨著概念層面的推進,從微觀到中觀和宏觀,滿足不同用戶在不同決策層面的需求。

第三,數據挖掘過程

數據挖掘是指從大型數據庫中挖掘出以前未知的、有效的、實用的信息,撰寫畢業論文並利用這些信息進行決策或豐富知識的完整過程。數據挖掘的基本過程和主要步驟如下:

流程中每壹步的大致內容如下:

1.識別業務對象並清楚地定義業務問題。認識數據挖掘的目的是數據挖掘的重要壹步。挖掘的最終結構是不可預測的,但是要探索的問題應該是可以預見的。為數據挖掘而挖掘是盲目的,不會成功的。

2.數據準備。(1)數據選擇搜索與業務對象相關的所有內部和外部數據信息,並選擇適合數據挖掘應用的數據。(2)數據預處理。研究數據質量,進行數據整合、轉換、歸約、壓縮等。,為進壹步分析做準備,並確定要進行的采礦作業的類型。(3)數據轉換。將數據轉換成分析模型,並為挖掘算法建立分析模型,是數據挖掘成功的關鍵。

3.數據挖掘。挖掘轉換後的數據。除了完善和選擇合適的挖掘算法,其他所有工作都可以自動完成。

4.結果分析。解釋並評估結果。壹般而言,所用的分析方法應取決於采礦作業,通常使用可視化技術。

5.知識的吸收。將從分析中獲得的知識整合到業務信息系統的組織結構中。

第四,數據挖掘的應用

數據挖掘技術從壹開始就是面向應用的。目前,數據挖掘在很多領域都是壹個非常時髦的詞,尤其是在銀行、電信、保險、交通、零售(如超市)等商業領域。

1.營銷。由於管理信息系統和P0S系統在商業尤其是零售業中的廣泛應用,尤其是條形碼技術的使用,可以收集到大量關於用戶購買的數據,並且數據量在不斷增加。對於營銷來說,通過數據分析了解顧客購物行為的壹些特征,對提高競爭力,促進銷售有很大的幫助。利用數據挖掘技術,我們可以通過對用戶數據的分析,獲得客戶的購買取向和興趣等信息,從而為商業決策提供可靠的依據。數據挖掘在市場營銷中的應用可以分為兩類:數據庫營銷和購物籃分析。數據庫營銷的任務是通過交互查詢、數據分割和模型預測來選擇潛在客戶,從而向他們銷售產品。通過對已有客戶數據的侮辱,可以將用戶分為不同的等級,等級越高,其購買的可能性越大。籃子分析

它是通過分析市場銷售數據來識別客戶的購買行為模式。比如購買了A貨,那麽B貨被購買的可能性是95%,這有助於確定店鋪貨架的布局和擺放來促銷某些商品,也更有目的性的挑選和搭配商品。該領域的系統包括:Opportunity explorer,可用於超市異常銷售的因果分析等。此外,IBM還開發了壹些識別客戶購買行為模式的工具(IntdligentMiner和QUEST的壹部分)。

2.金融投資。典型的財務分析領域包括投資評價和股市預測,分析方法壹般采用模型預測方法(如神經網絡或統計回歸技術)。由於金融投資的高風險性,在進行投資決策時,更需要對各種投資方向的相關數據進行分析,以便選擇最佳的投資方向。無論是投資評估還是股市預測,都是對事物發展的預測,都是建立在對數據的分析基礎上的。數據挖掘可以通過處理現有的數據來發現數據對象之間的關系,然後利用學習到的模式做出合理的預測。這個系統裏有富達選股和LBS資金管理。前者的任務是利用神經網絡模型選擇投資,後者利用專家系統、神經網絡和遺傳算法技術輔助管理高達6億美元的證券。

3.欺詐篩查。銀行或企業經常發生惡性透支等欺詐行為,給銀行和商業單位帶來巨大損失。預測這種欺詐可以減少損失。舞弊甄別主要是總結正常行為和舞弊之間的關系,得到舞弊的壹些特征,這樣當壹個企業符合這些特征時,就可以警示決策者。

這壹領域最成功的系統是獵鷹系統和FAIS系統。FALCON是HNC公司開發的信用卡欺詐估計系統,已被相當多的零售銀行用於檢測可疑的信用卡交易;FAIS是壹個識別與洗錢有關的金融交易的系統,它使用壹般的政府數據表格。此外,數據挖掘還可以用於天文學中的遙遠恒星探測、基因工程研究、web信息檢索等。

結束語

隨著數據庫、人工智能、數理統計和計算機軟硬件技術的發展,數據挖掘技術將在更多領域得到廣泛應用。

參考資料:

[1]嚴數據庫系統概論教學改革與探索[J].山西廣播電視大學學報,2006,(15): 16-17。