當前位置:成語大全網 - 新華字典 - Python數據分析

Python數據分析

首先導入壹些必要的數據處理包和可視化的包,讀文檔數據並通過前幾行查看數據字段。

對於我的數據來說,由於數據量比較大,因此對於缺失值可以直接做刪除處理。

得到最終的數據,並提取需要的列作為特征。

對類別數據進行統計:

類別型字段包括location、cpc_class、pa_country、pa_state、pa_city、assignee六個字段,其中:

單變量統計描述是數據分析中最簡單的形式,其中被分析的數據只包含壹個變量,不處理原因或關系。單變量分析的主要目的是通過對數據的統計描述了解當前數據的基本情況,並找出數據的分布模型。

單變量數據統計描述從集中趨勢上看,指標有:均值,中位數,分位數,眾數;從離散程度上看,指標有:極差、四分位數、方差、標準差、協方差、變異系數,從分布上看,有偏度,峰度等。需要考慮的還有極大值,極小值(數值型變量)和頻數,構成比(分類或等級變量)。

對於數值型數據,首先希望了解壹下數據取值範圍的分布,因此可以用統計圖直觀展示數據分布特征,如:柱狀圖、正方圖、箱式圖、頻率多邊形和餅狀圖。

按照發布的時間先後作為橫坐標,數值範圍的分布情況如圖所示.

還可以根據最終分類的結果查看這些數值數據在不同類別上的分布統計。

箱線圖可以更直觀的查看異常值的分布情況。

異常值指數據中的離群點,此處定義超出上下四分位數差值的1.5倍的範圍為異常值,查看異常值的位置。

參考:

python數據分析之數據分布 - yancheng111 - 博客園

python數據統計分析 -

科爾莫戈羅夫檢驗(Kolmogorov-Smirnov test),檢驗樣本數據是否服從某壹分布,僅適用於連續分布的檢驗。下例中用它檢驗正態分布。

在使用k-s檢驗該數據是否服從正態分布,提出假設:x從正態分布。最終返回的結果,p-value=0.9260909172362317,比指定的顯著水平(壹般為5%)大,則我們不能拒絕假設:x服從正態分布。這並不是說x服從正態分布壹定是正確的,而是說沒有充分的證據證明x不服從正態分布。因此我們的假設被接受,認為x服從正態分布。如果p-value小於我們指定的顯著性水平,則我們可以肯定的拒絕提出的假設,認為x肯定不服從正態分布,這個拒絕是絕對正確的。

衡量兩個變量的相關性至少有以下三個方法:

皮爾森相關系數(Pearson correlation coefficient) 是反應倆變量之間線性相關程度的統計量,用它來分析正態分布的兩個連續型變量之間的相關性。常用於分析自變量之間,以及自變量和因變量之間的相關性。

返回結果的第壹個值為相關系數表示線性相關程度,其取值範圍在[-1,1],絕對值越接近1,說明兩個變量的相關性越強,絕對值越接近0說明兩個變量的相關性越差。當兩個變量完全不相關時相關系數為0。第二個值為p-value,統計學上,壹般當p-value<0.05時,可以認為兩變量存在相關性。

斯皮爾曼等級相關系數(Spearman’s correlation coefficient for ranked data ) ,它主要用於評價順序變量間的線性相關關系,在計算過程中,只考慮變量值的順序(rank, 秩或稱等級),而不考慮變量值的大小。常用於計算類型變量的相關性。

返回結果的第壹個值為相關系數表示線性相關程度,本例中correlation趨近於1表示正相關。第二個值為p-value,p-value越小,表示相關程度越顯著。

kendall :

也可以直接對整體數據進行相關性分析,壹般來說,相關系數取值和相關強度的關系是:0.8-1.0 極強 0.6-0.8 強 0.4-0.6 中等 0.2-0.4 弱 0.0-0.2 極弱。