描述性統計的含義——“描述性統計是對信息集合的特征進行定量描述或概括的匯總統計。”
描述統計是壹種匯總統計,用於定量描述或概括信息集的特征。
推斷統計:根據數據形式建立數學模型,說明其隨機性和不確定性,從而推斷出研究中的步驟和矩陣。
本文主要介紹描述性統計,描述性統計可分為集中趨勢和離散趨勢。
壹.集中趨勢的衡量
可以代表總體的某壹特征,表明所研究對象在壹定時空條件下的* * *同質性和大體水平。
1.方式
定性數據,表示壹組數據中出現頻率最高的數字。
優點:不受極值影響;當數據有明顯的集中趨勢時,具有代表性;
缺點:缺乏獨特性。
2.分位點
又稱分位數,是指將壹個隨機變量的概率分布範圍分成若幹個相等的數值點,如中位數(即二分法)、四分位數和百分位數。
2.1中位數
定量數據,表示數值大小在中間的值(奇偶校驗區別對待)。
優點:不受極值影響;缺點:不夠敏感。
2.2四分位數
第壹個四分位數(Q1),也稱為“小四分位數”,等於樣本中按降序排列的所有值的第25個百分位數。
第二個四分位數(Q2),也稱為中位數,等於樣本中所有值的第50個百分位數(按降序排列)。
第三個四分位數(Q3),也稱為“較大的四分位數”,等於樣本中按降序排列的所有值的第75個百分位數。
第三個四分位數與第壹個四分位數之間的差距也稱為四分位數距離。
3.平均
3.1算術平均值:
優點:充分利用所有數據,適用性強;缺點:易受極端價值觀影響。
3.2加權平均:根據重量比例計算平均值。
3.3幾何平均
Python實現:
第二,離散趨勢(離差的度量)
1.很窮
壹組數值數據中的最大值和最小值之差max(x)-min(x)反映了數值樣本的數據範圍。
2.方差和標準差
方差用於衡量數據分散的程度。常見的有總體方差和樣本方差,計算方法相似。標準差是方差的平方根。
3.平均差異
是數據集中每個數據值與其算術平均值之間的偏差絕對值的算術平均值。
4.分數差
值越小,數據越集中,值越大,數據越離散。常用的四分位數離差為:四分位數離差=(第三個四分位數-第壹個四分位數)/2。
5.異質比率
異形比越大,異形排列的頻率占總頻率的比例越大,模態的代表性越差;異方差比越小,非奇異陣列的頻率占總頻率的比例越小,模式的代表性越好。
6.離散系數
離散系數,也稱為變異系數,用CV(變異系數)表示。變異系數:標準偏差與平均值的比率。離散系數越小,數據的離散程度越小。
Python實現:
第三,分布格局
1.偏斜度。
偏斜系數也叫偏差系數。偏斜系數通過平均值和中值之差與標準偏差之比來衡量偏差程度。偏態系數用SK表示:偏態系數小於0,因為平均值在眾數的左邊,也叫負偏差。偏度系數大於0,是因為均值在眾數的右邊,是右偏分布,也叫正偏。
偏態系數基於眾數、中位數和平均數的各自屬性,通過比較眾數或中位數與平均數來衡量偏態。
2.峰度系數(峰度)
峭度系數是壹個用來反映頻率分布曲線頂部陡度或平坦度的指標,用來衡量離群數據的離群程度。峰度系數越大,數據集中的極值越多。正態分布下,峭度系數為3。& gt峰度系數為3表示觀察量更集中,比正態分布有更短的尾部;& lt峭度系數為3說明觀測沒有那麽集中,比正態分布有更長的尾部,類似於矩形均勻分布。峰度系數的標準差用於判斷分布的正態性。峰度系數與其標準誤差的比值用於檢驗正態性。如果這個比值的絕對值大於2,則常態將被拒絕。