當前位置:成語大全網 - 書法字典 - 如何在Python中實現這五種強大的概率分布?

如何在Python中實現這五種強大的概率分布?

r編程語言已經成為統計分析中事實上的標準。但是在本文中,我將告訴您用Python實現統計概念是多麽容易。我想用Python實現壹些離散和連續的概率分布。雖然我不會討論這些分布的數學細節,但是我會通過鏈接給妳壹些學習這些統計概念的好材料。在討論這些概率分布之前,我想簡單講壹下什麽是隨機變量。隨機變量是實驗結果的量化。

例如,表示擲硬幣結果的隨機變量可以表示為

計算機編程語言

1

2

X = {1如果正面朝上,

如果反面朝上}

隨機變量是采用壹組可能值(離散或連續)並服從某種隨機性的變量。隨機變量的每壹個可能值都與壹個概率相關聯。隨機變量的所有可能值和與之相關的概率稱為概率分布。

我鼓勵您仔細研究scipy.stats模塊。

概率分布有兩種類型:離散概率分布和連續概率分布。

離散概率分布也叫概率質量函數。離散概率分布的例子有伯努利分布、二項式分布、泊松分布和幾何分布。

連續概率分布,也稱為概率密度函數,是具有連續值的函數(例如,實線上的值)。正態分布、指數分布、貝塔分布都屬於連續概率分布。

如果想了解更多關於離散和連續隨機變量的知識,可以看可汗學院關於概率分布的視頻。

二項分布

服從二項式分布的隨機變量x代表n次獨立的是/否試驗中成功試驗的次數,其中每次試驗的成功概率為p。

E(X) =?np,Var(X) =?np(1?p)

如果想了解各個函數的原理,可以使用IPython筆記本中的幫助文件命令。?E(X)代表分布的期望值或平均值。

鍵入stats.binom?了解更多關於binom的信息。

二項分布的壹個例子:壹個硬幣拋10次,正好正面朝上兩次的概率是多少?

假設在這個實驗中正面朝上的概率是0.3,這意味著平均來說,我們可以預期硬幣正面朝上三次。我把拋硬幣的所有可能結果定義為k = np.arange(0,11):妳可能觀察到0正面朝上,1正面朝上,10正面朝上。我用stats.binom.pmf計算每個觀測值的概率質量函數。它返回壹個包含11個元素的列表,這些元素表示與每個觀察相關聯的概率值。

您可以使用。rvs函數模擬壹個二項式隨機變量,其中參數size指定了您想要模擬它的次數。我讓Python返回10000個參數為n和p的二項隨機變量,我會輸出這些隨機變量的平均值和標準差,然後畫出所有隨機變量的直方圖。

泊松分布

服從泊松分布的隨機變量X,用速率參數)λ表示壹個事件在固定時間間隔內發生的次數。參數λ告訴您事件發生的速率。隨機變量x的均值和方差為λ。

E(X) =?λ,Var(X) =?λ

泊松分布的例子:給定某個路口的事故率為壹天2次,請問這裏壹天發生4次事故的概率是多少?

讓我們考慮壹下這個平均每天發生兩起事故的例子。泊松分布的實現有點類似於二項分布,在二項分布中我們需要指定比率參數。泊松分布的輸出是壹系列數字,包括0次,1次,2次直到10次的概率。我用結果生成了下面的圖片。

如妳所見,事故數量的峰值接近平均值。平均而言,您可以預期事件的數量為λ。嘗試λ和n的不同值,看看分布的形狀如何變化。

現在我將模擬1000個服從泊松分布的隨機變量。

正態分布

正態分布是壹個連續分布,它的函數可以取在實線上的任何地方。正態分布由兩個參數描述:分布的均值μ和方差σ2?。

E(X) =?μ,Var(X) =?σ2

正態分布的值可以從負無窮大到正無窮大。妳可以註意到,我用stats.norm.pdf得到正態分布的概率密度函數。

貝塔分布(貝塔分布)

貝塔分布是壹個值在?[0, 1]?它由兩個形態參數α和β的值來表征。

β分布的形狀取決於α和β的值。β分布廣泛應用於貝葉斯分析中。

當您將參數α和β設置為1時,該分布也稱為均勻分布。嘗試不同的α和β值,看看分布的形狀如何變化。

指數分布

指數分布是壹種連續的概率分布,用來表示獨立隨機事件的時間間隔。比如乘客進入機場的時間間隔,呼叫客服中心的時間間隔,中文維基百科新條目出現的時間間隔。

我將參數λ設置為0.5,將x的取值範圍設置為$[0,15]$。

然後,我模擬了1000個指數分布下的隨機變量。比例參數代表λ的倒數。在函數np.std中,參數ddof等於標準偏差除以$n-1$。

結論(結論)

概率分布就像蓋房子的藍圖,隨機變量是實驗事件的總結。建議妳去聽哈佛大學數據科學課程的講座。Joe Blitzstein教授給出了壹個總結,其中包含了所有妳需要知道的關於統計模型和分布的知識。