當前位置:成語大全網 - 新華字典 - 1.6 全概率公式與Bayes公式

1.6 全概率公式與Bayes公式

例:壹所學校裏面有 60% 的男生,40% 的女生。男生總是穿長褲,女生則壹半穿長褲壹半穿裙子。有了這些信息之後我們可以容易地計算“隨機選取壹個學生,他(她)穿長褲的概率和穿裙子的概率是多大”,這個就是前面說的“正向概率”的計算。然而,假設妳走在校園中,迎面走來壹個穿長褲的學生(很不幸的是妳高度近似,妳只看得見他(她)穿的是否長褲,而無法確定他(她)的性別),妳能夠推斷出他(她)是男生的概率是多大嗎?

例:設女性患某種疾病的概率為 ,男性患該病的概率為 ,已知全國的男女比例為 ,求任何壹人患該病的概率。

分析:記事件 為患該疾病,事件 為女性患該病,事件 為男性患該病,則

定理:設 為樣本空間,若事件 滿足

則稱 為樣本空間 的壹個 分劃 ,進而可得

也即

該公式稱為 全概率公式 (Law of Total Probability)

例:袋中有 只紅球 只白球,先從袋中任取壹球,記下顏色後放回,同時向袋中放入同顏色的球 只,然後再從袋中取出壹球。求第二次取到白球的概率。

解:記 ,顯然 是 的壹個分劃,由全概率公式有

思考:若第2次向袋中放入同顏色的球 只,結果如何?

答:結果不變

例:有10個袋,其中甲袋二個,每袋中有紅球、白球各2個;乙袋三個,每袋中有紅球3個、白球2個;丙袋五個,每袋中有紅球2個、白球3個.從十個袋中任取壹袋,再從袋中任取壹球,求取到白球的概率.

解:記 分別表示取到甲、乙、丙袋, 表示取到白球。由全概率公式

問:如果將三個袋中的球混合在壹起,然後任取壹球,問取到白球的概率是否壹樣?

答:不同!全概率公式是概率的加權平均。

例:甲、乙兩坦克的首發命中率均為0.8,經修正後的第二發命中率均為0.9, 敵目標被壹發炮彈擊中而被擊毀的概率為0.2,被兩發炮彈擊中而擊毀的概率為0.5,被三發炮彈擊中必定被擊毀. 在戰鬥中,甲、乙兩坦克分別向敵同壹目標發射了兩發炮彈,求敵目標被擊毀的概率.

解:設 表示目標被擊毀, 表示目標被 發炮彈擊中, 。

由全概率公式

設 為樣本空間的壹個分劃,且

則由乘法公式

結合全概率公式 ,可以得到

該公式稱為 Bayes公式

Bayes公式體現了壹種“因”和“果”的聯系,很多時候不僅可以由因推果,也可以由果推因。

例( 吸毒檢測 ):假設壹個常規的檢測結果的敏感度與可靠度均為 ,即吸毒者每次檢測呈陽性(+)的概率為 。而不吸毒者每次檢測呈陰性(-)的概率為 。從檢測結果的概率來看,檢測結果是比較準確的,但是Bayes定理卻可以揭示壹個潛在的問題。假設某公司對全體雇員進行吸毒檢測,已知 的雇員吸毒。請問每位檢測結果呈陽性的雇員吸毒的概率有多高?

分析:令 為雇員吸毒事件, 為雇員不吸毒事件, 為檢測呈陽性事件。可得

根據上述描述,我們可以計算某人檢測呈陽性時確實吸毒的條件概率 :

結論:盡管吸毒檢測的準確率高達99%,但Bayes定理告訴我們:如果某人檢測呈陽性,其吸毒的概率只有大約33%,不吸毒的可能性比較大。假陽性高,則檢測的結果不可靠。

類似的情況:

例:某工廠的壹、二、三車間都生產同壹產品,產量分別占總產量的15%,80%,5%三個車間的次品率分別為2%,1%,3%.現從匯總起來的產品中任取壹個,經檢查是次品,判斷該次品是哪個車間生產的可能性較大?

分析:這是“因—果”分析問題,故應用Bayes公式

解:記 表示取得次品, 表示取到的產品是 車間生產的, ,由全概率公式

再由Bayes公式

可見該次品是第二車間生產的可能性較大。

以上的分析過程也被稱為 Bayes推斷 。

Bayes推斷

假定 為導致試驗結果的“原因”,稱 為 先驗概率 。

若試驗產生事件 ,則要探討事件發生的“原因”,稱 為 後驗概率 ,稱 為 原因概率

例:假定 為各種疾病,應用統計方法可確定患病的概率(先驗概率)

應用醫學知識確定每種疾病下指標 (例如體溫、脈搏、血象等)出現的概率(原因概率),應用Bayes公式,可以計算出該指標意味著某種疾病的概率(後驗概率)

這正是大數據在醫療系統中應用的原理。

課後思考題:習題壹:20,21,22,23,24

參見 數學之美番外篇:平凡而又神奇的貝葉斯方法

例( 拼寫糾正

首先,我們的問題是我們看到用戶輸入了壹個不在字典中的單詞,我們需要去猜測:“這個家夥到底真正想輸入的單詞是什麽呢?”用剛才我們形式化的語言來敘述就是,我們需要求:

這個概率,並找出那個使得這個概率最大的猜測單詞。

顯然,我們的猜測未必是唯壹的。比如用戶輸入: thew ,那麽他到底是想輸入 the ,還是想輸入 thaw ?到底哪個猜測可能性更大呢?幸運的是我們可以用Bayes公式來直接算出它們各自的概率,我們不妨將我們的多個猜測記為 ( 代表 hypothesis),它們都屬於壹個有限且離散的猜測空間 (單詞總***就那麽多而已),將用戶實際輸入的單詞記為 ( 代表 Data ,即觀測數據),於是 可以抽象地記為: ,類似地,對於我們的猜測2,則是 。不妨統壹記為:

運用壹次Bayes公式,我們得到:

對於不同的具體猜測 , 都是壹樣的,所以在比較 和 的時候我們可以忽略這個常數。即我們只需要知道:

這個式子的抽象含義是:對於給定觀測數據,壹個猜測是好是壞,取決於“這個猜測本身獨立的可能性大小(先驗概率,Prior )”和“這個猜測生成我們觀測到的數據的可能性大小”(似然,Likelihood )的乘積。具體到我們的那個 thew 例子上,含義就是,用戶實際是想輸入 the 的可能性大小取決於 the 本身在詞匯表中被使用的可能性(頻繁程度)大小(先驗概率)和 想打 the 卻打成 thew 的可能性大小(似然)的乘積。

下面的事情就很簡單了,對於我們猜測為可能的每個單詞計算壹下 這個值,然後取最大的,得到的就是最靠譜的猜測。

類似的方法可以用來處理 自然語言的二義性問題 ,例如

到底是 The girl saw-with-a-telescope the boy 這壹語法結構,還是 The girl saw the-boy-with-a-telescope 呢?兩種語法結構的常見程度都差不多(妳可能會覺得後壹種語法結構的常見程度較低,這是事後偏見,妳只需想想 The girl saw the boy with a book 就知道了。當然,實際上從大規模語料統計結果來看後壹種語法結構的確稍稍不常見壹丁點,但是絕對不足以解釋我們對第壹種結構的強烈傾向)。那麽到底為什麽呢?

比價合理的解釋是:如果語法結構是 The girl saw the-boy-with-a-telecope 的話,怎麽那個男孩偏偏手裏拿的就是望遠鏡——壹個可以被用來 saw-with 的東東捏?這也忒小概率了吧。他咋就不會拿本書呢?拿什麽都好。怎麽偏偏就拿了望遠鏡?所以唯壹的解釋是,這個“巧合”背後肯定有它的必然性,這個必然性就是,如果我們將語法結構解釋為 The girl saw-with-a-telescope the boy 的話,就跟數據完美吻合了——既然那個女孩是用某個東西去看這個男孩的,那麽這個東西是壹個望遠鏡就完全可以解釋了(不再是小概率事件了)。

還有 中文分詞 的問題,比如

給定壹個句子(字串),如:

如何對這個句子進行分詞(詞串)才是最靠譜的。例如:

這兩個分詞,到底哪個更靠譜呢?

顯然這個思想還可以推廣到 機器翻譯 的領域,甚至是 圖像識別 垃圾郵件過濾