? 香蕉av777xxx色综合一区,网曝吃瓜黑料在线网站首页

亚洲 a v无 码免 费 成 人 a v,性欧美videofree高清精品,新国产三级在线观看播放,少妇人妻偷人精品一区二区,天干天干天啪啪夜爽爽av

無(wú)所不在的概率分布鐘型曲線 | 張?zhí)烊貙?/h3>
2017/06/23
導(dǎo)讀
小球從釘板落下的游戲,都玩過(guò)吧?

?小球從釘板落下的游戲,都玩過(guò)吧?圖片來(lái)自flickr


撰文 | 張?zhí)烊?(美國(guó)德州大學(xué)奧斯汀分校理論物理博士)

責(zé)編 | 呂浩然


  • 概率論專欄

2017-03-16 上帝教人擲骰子——“神童”帕斯卡與概率論

2017-03-31  似是而非的答案:概率論悖論

2017-04-18  別相信直覺(jué):概率論幫助偵破“財(cái)務(wù)造假”

2017-05-15  賭徒謬誤:賭博與大數(shù)定律


  


上一篇中,通過(guò)賭徒謬誤介紹了概率論中的大數(shù)定律。大數(shù)定律說(shuō)的是當(dāng)隨機(jī)事件重復(fù)多次時(shí)頻率的穩(wěn)定性,隨著試驗(yàn)次數(shù)的增加,事件發(fā)生的頻率趨近于預(yù)期的“概率”。但大數(shù)定律并未涉及概率分布問(wèn)題,所以本文就來(lái)說(shuō)說(shuō)概率分布。首先,用如下例子來(lái)說(shuō)明“概率分布”是什么意思。 


高爾頓釘板試驗(yàn)


弗朗西斯·高爾頓(Sir Francis Galton,1822-1911)是英國(guó)著名的統(tǒng)計(jì)學(xué)家、心理學(xué)家和遺傳學(xué)家。他是達(dá)爾文的表弟,雖然不像達(dá)爾文那樣聲名顯赫,但也并非無(wú)名之輩。不僅如此,高爾頓幼年是神童,長(zhǎng)大是才子,九十年的人生可謂豐富多彩,是個(gè)名副其實(shí)的博學(xué)家。其涉獵范圍廣泛,研究水平頗深,縱觀科學(xué)史,在其同時(shí)代科學(xué)家中,能望其項(xiàng)背之人寥寥可數(shù)【1】。


在達(dá)爾文發(fā)表了《物種起源》之后,高爾頓也將研究方向轉(zhuǎn)向生物及遺傳學(xué),他第一個(gè)對(duì)同卵雙胞胎進(jìn)行研究,論證了指紋的永久性和獨(dú)特性;他從遺傳的角度研究人類智力并提出“優(yōu)生學(xué)”,也是第一個(gè)強(qiáng)調(diào)把統(tǒng)計(jì)學(xué)方法應(yīng)用到生物學(xué)中去的人;他還設(shè)計(jì)了一個(gè)釘板實(shí)驗(yàn),希望從統(tǒng)計(jì)的觀點(diǎn)來(lái)解釋遺傳現(xiàn)象。


?圖1:高爾頓釘板實(shí)驗(yàn)


如圖1中所示,木板上訂了數(shù)排(n排)等距排列的釘子,下一排的每個(gè)釘子恰好在上一排兩個(gè)相鄰釘子中間,從入口中處放入若干直徑略小于釘子間距的小球,小球在下落的過(guò)程中碰到任何釘子后,都將以1/2的概率滾向左邊,也以 1/2的概率滾向右邊。如此反復(fù)地繼續(xù)下去,直到小球下落到底板的格子里為止。試驗(yàn)表明,只要小球足夠多,它們?cè)诘装宥殉傻男螤顚⒔朴谝粋€(gè)鐘形的高斯曲線(圖1左下黑色曲線)。


為什么這兒出現(xiàn)了一個(gè)鐘形曲線呢?這與古典概率論中最重要的“中心極限定理”有關(guān)。


中心極限定理


事實(shí)上,中心極限定理不是一個(gè)定理,而是一組定理,分別適用于不同的條件。但基本可以用一句話來(lái)概括它們:大量相互獨(dú)立的隨機(jī)變量,其求和后的平均值以正態(tài)分布(即鐘形曲線)為極限。


以上所述的高爾頓釘板實(shí)驗(yàn)顯示的“鐘形曲線”便可以用中心極限定理來(lái)解釋。

考慮釘板中的某一個(gè)小球下落的過(guò)程:小球在下落過(guò)程中碰到n個(gè)釘子上,每次都等效于一次“拋硬幣”類型的隨機(jī)變量。也就是說(shuō),一個(gè)小球從頂部到底部的過(guò)程,等效于n次拋硬幣之和。n個(gè)釘子中的每一個(gè)釘子,將小球以同等的概率彈向左邊或右邊,小球最后到達(dá)的位置,是這n個(gè)“左/右”隨機(jī)變量相加后的平均位置。不難看出,這個(gè)平均值落在中心處的概率最大(即小球聚集最多),但也可能向左或向右偏離1格、2格……偏離越大,小球的數(shù)目越少,不同位置的小球數(shù)便形成了一個(gè)“分布”,中心極限定理則是從數(shù)學(xué)上證明了,這個(gè)分布的極限是正態(tài)分布。


中心極限定理最早由法國(guó)數(shù)學(xué)家棣莫弗(de Moivre, 1667-1754)在1718年左右發(fā)現(xiàn)。他為解決朋友提出的一個(gè)賭博問(wèn)題而去認(rèn)真研究二項(xiàng)分布(每次試驗(yàn)只有“是/非”兩種可能的結(jié)果,且兩種結(jié)果發(fā)生與否互相對(duì)立)。他發(fā)現(xiàn):當(dāng)實(shí)驗(yàn)次數(shù)增大時(shí),二項(xiàng)分布(成功概率p=0.5)趨近于一個(gè)看起來(lái)呈鐘形的曲線。后來(lái),著名法國(guó)數(shù)學(xué)家拉普拉斯對(duì)此作了更詳細(xì)的研究,并證明了p不等于0.5時(shí)二項(xiàng)分布的極限也是高斯分布。之后,人們將此稱為棣莫弗-拉普拉斯中心極限定理【2】


再后來(lái),中心極限定理的條件逐漸從二項(xiàng)分布推廣到獨(dú)立同分布隨機(jī)序列(指隨機(jī)過(guò)程中,任何時(shí)刻的取值都為隨機(jī)變量,如果這些隨機(jī)變量服從同一分布,且互相獨(dú)立,那么這些隨機(jī)變量就是獨(dú)立同分布),以及不同分布的隨機(jī)序列。因此,中心極限定理不是只有一個(gè)定理,而是成為研究某種條件下獨(dú)立隨機(jī)變量之和的極限分布為正態(tài)分布的一系列命題的統(tǒng)稱。 


不得不承認(rèn)中心極限定理的奇妙。在一定條件下,各種隨意形狀概率分布生成的隨機(jī)變量,它們加在一起的總效應(yīng),是符合正態(tài)分布的。這點(diǎn)在統(tǒng)計(jì)學(xué)實(shí)驗(yàn)中特別有用,因?yàn)閷?shí)際上的隨機(jī)生物過(guò)程或物理過(guò)程,都不是只由一個(gè)單獨(dú)的原因產(chǎn)生的,它們受到各種各樣隨機(jī)因素的影響。然而,中心極限定理告訴我們:無(wú)論引起過(guò)程的各種效應(yīng)的基本分布是什么樣的,當(dāng)實(shí)驗(yàn)次數(shù) n 充分大時(shí),所有這些隨機(jī)分量之和近似是一個(gè)正態(tài)分布的隨機(jī)變量(圖2)。


在實(shí)際問(wèn)題中,常常需要考慮許多隨機(jī)因素所產(chǎn)生的總影響。例如,許多因素決定了人的身高:營(yíng)養(yǎng)、遺傳、環(huán)境、族裔、性別等等,這些因素的綜合效果,使得人的身高基本滿足正態(tài)分布。另外,在物理實(shí)驗(yàn)中,免不了有誤差,而誤差形成的原因五花八門,各種各樣。如果能夠分別弄清楚產(chǎn)生誤差的每種單一原因,誤差的分布曲線可能不是高斯的。但是,當(dāng)所有的誤差加在一起時(shí),實(shí)驗(yàn)者通常得到一個(gè)正態(tài)分布。


?圖2:中心極限定理


為了更為直觀地理解大數(shù)定律和中心極限定理,在圖3中,將拋硬幣所得的結(jié)果用數(shù)值表示(正面=1,反面=-1)。如此賦值以后,大數(shù)定律指的是:拋丟硬幣多次(n趨近無(wú)限大)后,結(jié)果的平均值將趨近于0,即正反面出現(xiàn)次數(shù)相等,其數(shù)值相加而互相抵消了;中心極限定理則除了考慮平均值(等于零)之外,還考慮結(jié)果的分布情形:如圖3b所示,如果只拋1次,出現(xiàn)正面(1)和反面(-1)的概率相等,對(duì)應(yīng)于公平硬幣的等概率分布,平均值為0。當(dāng)投擲次數(shù)n增加,平均值的極限值仍然保持為0,但點(diǎn)數(shù)和之分布情形變化了,n趨近無(wú)限時(shí),分布趨于正態(tài)分布,這是中心極限定理的內(nèi)容。


?圖3:大數(shù)定律和中心極限定理


大量的統(tǒng)計(jì)實(shí)驗(yàn)結(jié)果告訴我們:鐘形曲線隨處可見(jiàn)。我們的世界似乎被代表正態(tài)分布的“鐘形”包圍著,很多事物都是服從正態(tài)分布:人的高度、雪花的尺寸、測(cè)量誤差、燈泡的壽命、IQ分?jǐn)?shù)、面包的重量、學(xué)生的考試分?jǐn)?shù)等等。十九世紀(jì)的著名數(shù)學(xué)家龐加萊(Jules Henri Poincaré,1854-1912)曾經(jīng)說(shuō)過(guò)【3】:“每個(gè)人都相信正態(tài)法則,實(shí)驗(yàn)家認(rèn)為這是一個(gè)數(shù)學(xué)定理,數(shù)學(xué)家認(rèn)為這是一個(gè)實(shí)驗(yàn)事實(shí)?!贝笞匀辉煳锏拿烂钌?yuàn)W,鬼斧神工,往往使人難以理解。鐘形分布曲線無(wú)處不在,其奧秘便是來(lái)自于中心極限定理。


中心極限定理從理論上證明了,對(duì)于大量獨(dú)立隨機(jī)變量來(lái)說(shuō),不論其中各個(gè)隨機(jī)變量的分布函數(shù)是什么形狀,也不論它們是已知還是未知,當(dāng)獨(dú)立隨機(jī)變量的個(gè)數(shù)充分大時(shí),它們的和的分布函數(shù)都可以用正態(tài)分布來(lái)近似。這使得正態(tài)分布既成為統(tǒng)計(jì)理論的重要基礎(chǔ),又是實(shí)際應(yīng)用的強(qiáng)大工具。


就理論而言,正態(tài)分布有不少優(yōu)越性:1. 兩個(gè)正態(tài)分布的乘積仍然是正態(tài)分布;2. 兩個(gè)正態(tài)分布的和是正態(tài)分布;3. 正態(tài)分布的傅立葉變換仍然是正態(tài)分布。正態(tài)分布只需要兩個(gè)參數(shù)μσ就完全決定了分布的性質(zhì)(見(jiàn)圖2)。這點(diǎn)給實(shí)際計(jì)算帶來(lái)許多方便之處,再一次體現(xiàn)了中心極限定理的威力。


中心極限定理的應(yīng)用


正態(tài)分布在應(yīng)用上非常有效,下面便舉兩個(gè)簡(jiǎn)單例子予以說(shuō)明。


例1:小王到某保險(xiǎn)公司應(yīng)聘,經(jīng)理給他出了一道考題:如果讓你設(shè)計(jì)一項(xiàng)人壽保險(xiǎn),假設(shè)客戶的數(shù)目有1萬(wàn)左右,被保險(xiǎn)人每年交200元保費(fèi),保險(xiǎn)的賠償金額為5萬(wàn)元,估計(jì)當(dāng)?shù)匾荒甑乃劳雎?span style="color: rgb(136, 136, 136);">(自然+意外)為0.25%左右,那么,你會(huì)如何計(jì)算公司的獲利情況?


小王在經(jīng)理面前緊張地估算了一下:從1萬(wàn)個(gè)客戶得到的保費(fèi)是200萬(wàn),然后1萬(wàn)人乘以死亡率,可能有25人死亡,賠償金額為25×5萬(wàn),等于125萬(wàn)。所以,公司可能的收益應(yīng)該是200萬(wàn)減去125萬(wàn),等于75萬(wàn)左右。這是小王的答案。


經(jīng)理面露滿意的笑容,但又繼續(xù)問(wèn):75萬(wàn)只是一個(gè)大概可能的數(shù)目,如果要你大略地估計(jì)一下,公司一年內(nèi)從這個(gè)項(xiàng)目得到的總收益為50-100萬(wàn)元的概率是多少,或者需要估計(jì)公司虧本的概率,你怎么算呢?


?圖4:正態(tài)分布用于估計(jì)人壽保險(xiǎn)


這下難倒了小王:要真正計(jì)算概率需要用到分布,這是什么分布?。啃⊥跄X袋里突然冒出了“中心極限定理”,1萬(wàn)個(gè)客戶的數(shù)目足夠大了,可以用正態(tài)分布:首先需要計(jì)算平均值μ和方差σ。人壽保險(xiǎn)近似于一個(gè)像拋硬幣的“二項(xiàng)分布”問(wèn)題:受保人死亡,保險(xiǎn)公司賠償,反之則不賠償。只不過(guò),這兒死亡的概率比較小,p=0.25%。用正態(tài)分布來(lái)近似的話,只要知道了期望和方差,概率便不難計(jì)算。小王回想起正態(tài)分布的簡(jiǎn)單圖像以及幾個(gè)關(guān)鍵數(shù)值(見(jiàn)圖4),算出均值μ=E(X)=np=10000*0.25%=25,方差σ2=Var(X)=np(1-p)=25 ,由此得到σ=5。


然后,要計(jì)算公司賺50-100萬(wàn)元的概率,從圖4可知,也就是死亡人數(shù)在20到30之間的概率,剛好就是從μ-σ )μ+σ )之間的面積,大約68.2%左右。至于公司何種情況下會(huì)虧本呢?直觀而言,如果死亡的人數(shù)多于40,公司便虧本了,概率到底是多少呢?同樣可用圖4進(jìn)行估計(jì),40和25之間相差15,等于3σ,因而得到概率大約等于0.1%,所以,保險(xiǎn)公司虧本的概率幾乎為零。


例2:圖5a是美國(guó)2010年1,547,990個(gè)SAT考試成績(jī)的原始數(shù)據(jù),其中有1,313,812個(gè)分?jǐn)?shù)在1850之下,有74,165個(gè)成績(jī)是在2050以上。由此我們從原始數(shù)據(jù)可以算出:分?jǐn)?shù)在1850之下的百分比是0.849,分?jǐn)?shù)在2050之上的百分比是0.0479。


?圖5:SAT成績(jī)


另一方面,原始的結(jié)果可以用一個(gè)平均分?jǐn)?shù)μ=1509,標(biāo)準(zhǔn)方差的平方根σ=312的正態(tài)曲線來(lái)近似。因此,我們也可以從正態(tài)分布曲線來(lái)計(jì)算分?jǐn)?shù)低于1850及高于2050的百分比,它們分別對(duì)應(yīng)于圖5b和圖5c中陰影部分的面積。根據(jù)高斯積分求出兩個(gè)圖中的面積分別為0.8621和0.0418。對(duì)照從原始數(shù)據(jù)的計(jì)算結(jié)果0.849和0.0479,相差非常小。


由此可以看出,中心極限定理在現(xiàn)實(shí)生活中的應(yīng)用非常廣泛。大數(shù)定律和中心極限定理,都是基于多次實(shí)驗(yàn)結(jié)果的古典概率觀點(diǎn),屬于頻率學(xué)派。下一篇中將介紹概率論中極端的兩大派別:頻率學(xué)派和貝葉斯學(xué)派。


參考文獻(xiàn):

【1】"Sir Francis Galton F.R.S: 1822-1911". galton.org. Retrieved 9 January 2017.

【2】維基百科:中心極限定理

https://zh.wikipedia.org/wiki/%E4%B8%AD%E5%BF%83%E6%9E%81%E9%99%90%E5%AE%9A%E7%90%86

【3】Gabriel Lippmann (French physicist ,16 Aug 1845 - 13 Jul 1921), Conversation with Henri Poincaré. In Henri Poincaré, Calcul ds Probabilités (1896), 171


制版編輯:呂浩然

參與討論
0 條評(píng)論
評(píng)論
暫無(wú)評(píng)論內(nèi)容