關鍵詞:數據挖掘;知識;分析;營銷;財務投資
隨著網絡和數據庫技術的飛速發展以及數據庫管理系統的廣泛應用,人們積累了越來越多的數據。於是,數據挖掘技術應運而生。下面,本文對數據技術及其應用做壹個簡單的介紹。
壹,數據挖掘的定義
數據挖掘是從大量不完整、有噪聲、模糊和隨機的實際應用數據中提取隱藏的、未知的但潛在有用的信息和知識的過程。它是壹種新興的商業信息處理技術,其主要特點是對商業數據庫中的大量商業數據進行提取、轉換、分析和建模,提取關鍵數據輔助商業決策。簡而言之,數據挖掘實際上是壹種深度的數據分析方法。從這個角度來看,數據挖掘也可以描述為根據企業設定的業務目標,對大量企業數據進行探索和分析,揭示隱藏的、未知的或已驗證的規律,並進壹步建模的壹種先進有效的方法。
第二,數據挖掘技術
數據挖掘技術是數據庫技術長期研究和發展的結果,數據倉庫技術的發展與數據挖掘密切相關。在大多數情況下,數據挖掘首先要將數據從數據倉庫中取出,放到數據挖掘庫或數據集市中,因為數據倉庫會對數據進行清理,解決數據不壹致的問題,這將給數據挖掘帶來很多好處。此外,數據挖掘還利用了人工智能(AI)和統計分析的進步,這兩者都致力於模式發現和預測。數據庫、人工智能和數理統計是數據挖掘技術的三大支柱。由於數據挖掘中發現的知識不同,使用的技術也不同。
1.廣義的知識。指範疇特征的壹般描述知識。根據數據的微觀特征,發現其代表性、普遍性、高層次的概念、中觀和宏觀層次的知識反映了相似事物的相似性,是對數據的概括、提煉和抽象。發現廣義知識的方法和技術有很多,如數據立方體和面向信息的約簡。數據立方體的基本思想是實現壹些常用的高成本聚集函數的計算,如計數、求和、平均、最大值等。,並將這些實現視圖存儲在多維數據庫中。面向屬性的約簡是用類SQL語言表達數據挖掘查詢,收集數據庫中的相關數據集,然後對相關數據集應用壹系列數據提升技術進行數據提升,包括屬性刪除、概念樹提升、屬性閾值控制、計數等聚合函數傳播。
2.相關知識。它反映了壹個事件與其他事件之間的依賴性或相關性的知識。如果兩個或多個屬性之間存在關聯,則可以根據其他屬性值預測其中壹個屬性的屬性值。最著名的關聯規則
然後是Apriori算法和FP-growth算法。關聯規則的發現可分為兩步:第壹步叠代識別所有頻繁項集,頻繁項集的支持度不低於用戶設定的最小值;第二步,從頻繁項集中構造可信度不低於用戶設定的最低值的規則。識別或發現所有頻繁項集是關聯規則發現算法的核心,也是計算量最大的部分。
3.分類知識。它反映了同類事物的特征知識和不同事物之間的不同特征知識。分類方法包括決策樹、樸素貝葉斯、神經網絡、遺傳算法、粗糙集方法、模糊集方法、線性回歸和K-means除法。最典型的分類方法是決策樹。它是由案例集構造的決策樹,是壹種有指導意義的學習方法。
該方法首先根據訓練子集形成決策樹。如果該樹不能給所有對象壹個正確的分類,則選擇壹些例外並將其添加到訓練子集中,並且重復該過程,直到形成正確的決策集。最後的結果是壹棵樹,它的葉子節點是類名,中間的節點是有分支的歧義,對應著壹些可能的歧義值。
4.預測知識。根據時間序列數據,從歷史和當前數據推斷未來數據,也可以看作是以時間為關鍵屬性的相關知識。目前,時間序列預測方法包括經典統計方法、神經網絡和機器學習。在1968中,BoX和Jenkins提出了壹套完善的時間序列建模理論和分析方法。這些經典的數學方法通過建立隨機模型來預測時間序列。由於大量的時間序列是非平穩的,它們的特征參數和數據分布是隨時間變化的。因此,僅僅通過訓練壹些歷史數據,建立單壹的神經網絡預測模型,是無法完成準確預測任務的。因此,人們提出了基於統計和準確性的再訓練方法。當現有預測模型不再適用於當前數據時,對模型進行重新訓練,獲得新的權重參數,建立新的模型。
5.有偏見的知識。它是對差異和極端特例的描述,揭示事物偏離常態的異常現象,如標準類之外的特例和數據聚類之外的離群值。所有這些知識都可以在不同的概念層面找到,並隨著概念層面的推進,從微觀到中觀和宏觀,滿足不同用戶在不同決策層面的需求。
第三,數據挖掘過程
數據挖掘是指從大型數據庫中挖掘出以前未知的、有效的、實用的信息,撰寫畢業論文並利用這些信息進行決策或豐富知識的完整過程。數據挖掘的基本過程和主要步驟如下:
流程中每壹步的大致內容如下:
1.識別業務對象並清楚地定義業務問題。認識數據挖掘的目的是數據挖掘的重要壹步。挖掘的最終結構是不可預測的,但是要探索的問題應該是可以預見的。為數據挖掘而挖掘是盲目的,不會成功的。
2.數據準備。(1)數據選擇搜索與業務對象相關的所有內部和外部數據信息,並選擇適合數據挖掘應用的數據。(2)數據預處理。研究數據質量,進行數據整合、轉換、歸約、壓縮等。,為進壹步分析做準備,並確定要進行的采礦作業的類型。(3)數據轉換。將數據轉換成分析模型,並為挖掘算法建立分析模型,是數據挖掘成功的關鍵。
3.數據挖掘。挖掘轉換後的數據。除了完善和選擇合適的挖掘算法,其他所有工作都可以自動完成。
4.結果分析。解釋並評估結果。壹般而言,所用的分析方法應取決於采礦作業,通常使用可視化技術。
5.知識的吸收。將從分析中獲得的知識整合到業務信息系統的組織結構中。
第四,數據挖掘的應用
數據挖掘技術從壹開始就是面向應用的。目前,數據挖掘在很多領域都是壹個非常時髦的詞,尤其是在銀行、電信、保險、交通、零售(如超市)等商業領域。
1.營銷。由於管理信息系統和P0S系統在商業尤其是零售業中的廣泛應用,尤其是條形碼技術的使用,可以收集到大量關於用戶購買的數據,並且數據量在不斷增加。對於營銷來說,通過數據分析了解顧客購物行為的壹些特征,對提高競爭力,促進銷售有很大的幫助。利用數據挖掘技術,我們可以通過對用戶數據的分析,獲得客戶的購買取向和興趣等信息,從而為商業決策提供可靠的依據。數據挖掘在市場營銷中的應用可以分為兩類:數據庫營銷和購物籃分析。數據庫營銷的任務是通過交互查詢、數據分割和模型預測來選擇潛在客戶,從而向他們銷售產品。通過對已有客戶數據的侮辱,可以將用戶分為不同的等級,等級越高,其購買的可能性越大。籃子分析
它是通過分析市場銷售數據來識別客戶的購買行為模式。比如購買了A貨,那麽B貨被購買的可能性是95%,這有助於確定店鋪貨架的布局和擺放來促銷某些商品,也更有目的性的挑選和搭配商品。該領域的系統包括:Opportunity explorer,可用於超市異常銷售的因果分析等。此外,IBM還開發了壹些識別客戶購買行為模式的工具(IntdligentMiner和QUEST的壹部分)。
2.金融投資。典型的財務分析領域包括投資評價和股市預測,分析方法壹般采用模型預測方法(如神經網絡或統計回歸技術)。由於金融投資的高風險性,在進行投資決策時,更需要對各種投資方向的相關數據進行分析,以便選擇最佳的投資方向。無論是投資評估還是股市預測,都是對事物發展的預測,都是建立在對數據的分析基礎上的。數據挖掘可以通過處理現有的數據來發現數據對象之間的關系,然後利用學習到的模式做出合理的預測。這個系統裏有富達選股和LBS資金管理。前者的任務是利用神經網絡模型選擇投資,後者利用專家系統、神經網絡和遺傳算法技術輔助管理高達6億美元的證券。
3.欺詐篩查。銀行或企業經常發生惡性透支等欺詐行為,給銀行和商業單位帶來巨大損失。預測這種欺詐可以減少損失。舞弊甄別主要是總結正常行為和舞弊之間的關系,得到舞弊的壹些特征,這樣當壹個企業符合這些特征時,就可以警示決策者。
這壹領域最成功的系統是獵鷹系統和FAIS系統。FALCON是HNC公司開發的信用卡欺詐估計系統,已被相當多的零售銀行用於檢測可疑的信用卡交易;FAIS是壹個識別與洗錢有關的金融交易的系統,它使用壹般的政府數據表格。此外,數據挖掘還可以用於天文學中的遙遠恒星探測、基因工程研究、web信息檢索等。
結束語
隨著數據庫、人工智能、數理統計和計算機軟硬件技術的發展,數據挖掘技術將在更多領域得到廣泛應用。
參考資料:
[1]嚴數據庫系統概論教學改革與探索[J].山西廣播電視大學學報,2006,(15): 16-17。