Bayes Rule

Cancer Test

有一种癌症在人群中的发病率是1%。

P(C) = 0.01

对这个癌症的检测：

如果你患有这个癌症，有90%的几率检测结果是positive。这也被称作test的sensitivity。
如果你不患有这个癌症，有90%的几率检测结果是negative。这也被称作test的specificity。

问题：如果你做了检测，结果是positive，那门你患有这个癌症的可能性有多大？

要回答这个问题，我们首先看在总的人群中，有1％的人患有这个癌症，99%的人没有。我们还知道，对患有癌症人的test的准确率是90%。也就是说患有癌症，并被准确测试出来的概率是1% × 90%，也就是0.009，或者说0.9%。

99%的没患病的人中，会有10%的人的检测结果是positive，在总人群中的概率是99% × 10%，9.9%。

也就是说有100% - 9.9% - 0.9% ＝ 89.2%的人，既没有患癌症，检测结果也是negative。

0.9% ＋ 9.9% 是检测呈positive人的

Bayes Rule 总的来说就是 incorporate some evidence from a test into your Pior Pobability to arrive at a posterior Pobability.

用Cancer的例子来说

Pior:  	P(C) = 0.01     = 1%
        	P(Pos|C) = 0.9  = 90%
        	P(ℸC) = 0.99
        	P(Neg|ℸC) = 0.9
        	P(Pos|ℸC) = 0.1
joint:      P(C, Pos) = P(C) • P(Pos|C) = 0.01*0.9 = 0.009
            P(ℸC, Pos) = P(ℸC)• P(Pos|ℸC) = 0.99 * 0.1 = 0.099
Normalize:  P(Pos) = P(C, Pos) + P(ℸC, Pos) = 0.009 + 0.099 = 0.108
posterior:  P(C|Pos) = P(C, Pos)/P(Pos) = 0.009/0.108 = 0.0833
            P(ℸC|Pos) = P(ℸC, Pos)/P(Pos) = 0.099/0.108 = 0.9167

1000个人，其中10个人有C，其中9人（C ＋ Pos），1人（C ＋ Neg）

990人无C，其中99人（－C＋Pos）。

得出的概率是9／（99+9）＝0.08333

总结一下

Text Learning - Naive Bayes

现在假设有2个人，Chris和Sara。

Chris邮件中，Love 10%，Deal 80%，Life 10%。

P(Love | Chris) = 0.1
P(Deal | Chris) = 0.8
P(Life | Chris) = 0.1

Sara邮件中，Love 50%，Deal 20%，Life 30%。

P(Chris) = 0.5

P(Sara) = 0.5

如果一封邮件的内容是 “Life deal”，这封邮件是Chris的的概率是：

P(Chris | email is “life deal”) = 0.1 * 0.8 * 0.5 = 0.04

是Sara的概率是：

0.3 * 0.2 * 0.5 = 0.03

P(Chris | “Life deal”) = 0.04/(0.03+0.04) = 0.57

P(Sara | “Life deal”) = 0.03/(0.03+0.04) = 0.43

如果邮件内容是”life life deal”，是Chris的概率就变成了

0.1 * 0.1 * 0.8 * 0.5 = 0.004

是Sara的概率是：

0.3 * 0.3 * 0.2 * 0.5 = 0.009