孙宇的技术专栏 大数据/机器学习

概率基础

2014-12-12

阅读:


概率

假设一个桶中有 7 个石头,三个灰色,四个黑色。从桶中取出一个石头,是灰色的概率则是 3/7[P(gray)];黑色的是 4/7[P(black)]

如果这 7 个石头分布在两个桶中。A桶中两灰,两黑;B桶中一灰两黑。单独计算某一个桶中某颜色的概率比较简单,如:A桶中灰色的颜色:P(gray|A)"|" 的意思是给定某条件,读作 given。

条件概率

P(A | B) = P(AB) / P(B)

要计算两个桶中某颜色的概率,就稍微麻烦一些。它的计算公式是:

P(gray| B) = P(gray and B)/P(B)

解释为:B桶中取出灰色的概率 = 又是灰色且正好在B桶中的概率 除以 正好在B桶中的概率。

验证:
B 桶中取出灰色的概率:
P(gray | B) = 1/3

是灰色且在 B 桶中的概率:
P(gray and B) = 1/7

在 B 桶中的概率:
P(B) = 3/7

P(gray and B)/P(B) = (1/7) / (3/7) = 1/3 

说明公式正确。

全概率公式

P(A) = P(A | B<sub>1</sub>)P(B<sub>1</sub>) + P(A | B<sub>2</sub>)P(B<sub>2</sub>) + ... + P(A | B<sub>i</sub>)P(B<sub>i</sub>) = ∑P(A | B<sub>i</sub>)/P(B<sub>i</sub>)

取出灰色的概率:P(gray) = P(gray | A) P(A) + P(gray | B) P(B)
解释为:灰色的概率是在A桶中灰色的概率除以在A桶中的概率 加上在 B 桶中灰色的概率除以在B桶中的概率。如果有 N 个桶,则扩展到 N。即上面的全概率公式。

验证:
取出灰色的概率是 3/7 

A 桶中取出灰色的概率:
P(gray | A) = 1/2

在 A 桶中的概率:
P(A) = 4/7

A 桶中取出灰色的概率:
P(gray | B) = 1/3

在 B 桶中的概率:
P(B) = 3/7

P(gray) = 1/2 * 4/7 + 1/3 * 3/7 = 3/7

可以看出,公式正确。

贝叶斯公式

P(B<sub>i</sub> | A) = P(A | B<sub>i</sub>) * P(B<sub>i</sub>) / ∑P(A | B<sub>j</sub>) * P(B<sub>j</sub>)

推导:

根据条件概率公式,变形:

P(B<sub>i</sub> | A) = P(B<sub>i</sub>A) / P(A) 

根据全概率公式,将 P(A)的公式代入得到:
P(B<sub>i</sub> | A) = P(AB<sub>i</sub>) / ∑P(A | Bi)/P(Bi) 

而根据概率公式,P(AB<sub>i</sub>) = P(A | B<sub>i</sub>)P(B<sub>i</sub>)
再次将值代入公式,得到:

P(B<sub>i</sub> | A) = P(A | B<sub>i</sub>)P(B<sub>i</sub>) / ∑P(A | Bi)/P(Bi) 

示例:已知 p(x|c),要求 p(c|x)
p(c|x) = p(x|c)p(c) / p(x)

验证:
p(black |B) = p(B|black)p(black) / p(B)

在 B 桶中,黑色的概率:
p(black |B) = 2/3

在 B 桶中的概率:
p(B) = 3/7

黑色的概率:
p(black) = 4/7

黑色,且在 B 桶中的概率:
p(B |black) = 1/2

由此看来等式正确。

公式又可以简化为: p(c | x) = p(x | c)p(c) / p(x)

案例

8 支步枪中有 5 支校准过,3支未校准。一名射手,用校准过的枪射击,中靶概率为 0.8;用未校准的射击中靶概率为 0.3;现在从 8 支枪中随机取一支射击,结果中靶。求该枪是已经校准的机率。

将校准过的概率标识为 A, 未校准的标识为 B。中靶标识为 D, 未中标识为 N。则有:

P(D | A) = 0.8
P(D | B) = 0.3
P(A) = 5 / 8
P(B) = 3 / 8

现在要求: P(A | D)

根据公式,可得到:

P(A | D) = P(D | A) * P(A) / ∑P( D | A<sub>i</sub>) * P(A<sub>i</sub>) = P(D | A) * P(A) / (P(D | A) * P(A) + P(D | B) * P(B)) = 0.8 * 5/8 / (0.8 * 5/8 + 0.3 * 3/8) = 0.8163

分布律_期望_方差

对于离散型随机变量x,定义一个概率函数叫f(x),它给出了随机变量取每一个值的概率。这个函数就是分布律。

比如扔硬币,我们想知道字朝上的概率。假设字朝上用 1 表示,朝下用 0 表示。那就是找出一个函数 f(x) 求 f(1)。

期望(或均值)是试验中每次可能结果的概率乘以其结果的总和。它反映随机变量平均取值的大小。用数学公式描述就是:E(x) = ∑xp 。p 是概率,也就是概率分布率函数;x 是值。

案例

甲乙两个人赌博,他们两人获胜的机率相等,比赛规则是先胜三局者为赢家,赢家可以获得100法郎的奖励。当比赛进行到第四局的时候,甲胜了两局,乙胜了一局,这时由于某些原因中止了比赛,那么如何分配这100法郎才比较公平?

用概率论的知识,不难得知,甲获胜的可能性大,甲赢了第四局,或输掉了第四局却赢了第五局,概率为 1/2+(1/2) * (1/2)=3/4。分析乙获胜的可能性,乙赢了第四局和第五局,概率为(1/2) * (1/2)=1/4。因此由此引出了甲的期望所得值为100*3/4=75法郎,乙的期望所得值为25法郎。这个故事里出现了“期望”这个词,数学期望由此而来。

方差在概率论用来度量随机变量和其数学期望(即均值)之间的偏离程度。 方差在统计中是每个样本值与全体样本值的平均数之差的平方值的平均数。 它们两者的公式不一样,通常我们都是指概率论中的。公式是:

D(x)=E{ [ x - E(x) ]2 } = E(x2) - [ E(x) ]2

案例

现在有一个运营活动,一等奖 1000 元,二等奖 500 元,三等奖 100 元。每抽一次需要 10 元。 两套抽奖概率方案,如下:

一等奖二等奖三等奖未中奖
方案一中奖机率5%10%20%65%
方案二中奖机率10%10%10%70%

分别计算两种方案的期望: 方案一: E(x) = (-990 * 5%)+(-490 * 10%)+(-90 * 20%)+(10 * 65%) = -110 也就是说,A方案能够期望每次抽奖运营方亏损110元。

方案二: E(x) = (-990 * 10%)+(-490 * 10%)+(-90 * 10%)+(10 * 70%) = -150

这样我们就能控制中奖的比例来保证盈利了。

期望值衡量概率的平均值,可是抽奖本来就是很激动人心的事情,哪怕明知道会赔钱,人们还乐此不疲,为什么?因为风险,因为以小搏大。方差就是这种风险的度量,方差越大,随机变量的结果越不稳定。

D(x)=E{ [ x - E(x) ]2 }

方案一:D(x) = 5% * (-990+110)2 + 10% * (-490+110)2 + 20% * (-90+110)2 + 65% * (10 + 110)2 = 62600

均方差为 √ 62600 = 250.19, 表示每一次抽奖,实际收益与期望收益 -100 相差 250.19。

方案二:D(x) = 10% * (-990+110)2 + 10% * (-490+110)2 + 10% * (-90+110)2 + 70% * (10 + 110)2 = 96000

均方差是 309.84。可以看出,无论是盈利还是风险,都比方案一要差。

概率分布

概率分布用以表述随机变量取值的概率规律。为了使用的方便,根据随机变量所属类型的不同,概率分布取不同的表现形式。

事件的概率表示了一次试验某一个结果发生的可能性大小。若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即必须知道随机试验的概率分布(probability distribution)。

0-1分布/贝努利分布/两点分布 一个只有两个可能结果的试验,比如正面或反面,成功或失败,有缺陷或没有缺陷,病人康复或未康复。为方便起见,记这两个可能的结果为0和1。

假设结果为 1 的概率为 p,那么为 0 的概率就是 1-p。

概率函数(分布律)可以表示为:

P(x;p) = px * (1-p)1-x

其中,x 的值是 0 或 1。

验证: P(1;p) = p1 * (1-p)1-1 = p

P(0;p) = p0 * (1-p)1-1 = 1-p

说明公式正确。

这时候我们可以计算两点分布的期望和方差:

期望: E(x) = 1 * p + 0 * (1-p) = p

E(x2) = 12 * p + 02 * (1-p) = p

方差: D(x) = E(x2) - [E(x)]2 = p - p2 = p(1-p)

二项分布 二点分布是指一次事件发生时的情况,结果只有 1 和 0 两个点。如果事件发生多次,那么结果就会出现多个 1 和多个 0,相当于有两项。所以,多次两点分布就叫二项分布。

两点分布的概率是指一次试验,事情发生概率。也就是结果为 1 时的概率。如果有 N 次试验,第一次是 1,第二次是 0,第三次是 0… 第 N 次是 1。

那么,二项分布的概率就是指出现我们试验结果这种情况的概率。也就是出现第一次是1,第二次是 0 ,第三次是0,第N次是1 这种情况的概率。因为每一次试验结果都有可能是 0 或 1,所以可能第一次试验是0,第二次是1。

二项分布的概率分布率函数是:P(k) = Cknpk * (1-p)n-k


上一篇 朴素贝叶斯

下一篇 Redis主从/集群

评论

文章