読者です 読者をやめる 読者になる 読者になる

理系男子の独り善がり

仕事や生活に役立ちそうな(実際に役立つかは別として)数学・物理ネタをつらつらと書いていこうと思ってます.

条件付き確率~なにがややこしいのか?~

前回の続きになります.定義・初級編・上級編という流れで書いていきます.

※2016/01/26 一部修正をしています.

定義

2つの事象A,Bについて,事象Aがすでに起こっているとしたときに事象Bが起こる確率を「Aが起こったときのBの条件付き確率」といいP_A(B)またはP(B|A)と表す.

Aが起きたという条件の下で,Bが起きる確率ということになります.ベン図で書く「限り」,この定義はわかりやすいです.式で書くと,以下のようになります.
 \displaystyle{ P_A(B) = \frac{P(A \cap B)}{P(A)} }

ややこしいというか,ピンとこないひとつの要因は「(確率)÷(確率)」の形になっているからではないかと感じています.そこで,全体集合の要素の数:n(U)を用いると,
 \displaystyle{ P_A(B) = \frac{ n(A \cap B) }{ n(A) } }

と書き換えることもできます.

f:id:miwotukusi:20160125183046p:plain


初級編とはいっても

せっかくなので,先日のセンター試験の問題で考えてみます.問題自体は誘導形式で確率を求めるようになっていたので,このような求め方をすることはないのですが,それぞれの場合の数を考えてみると,図のようになります.

f:id:miwotukusi:20160125184629p:plain

前回のネタでも触れていましたが,時系列をさかのぼって考えなければならないところもややこしさの一つです.

上級編

例題としてよく取り上げられる「病気の検査」の問題です.

問題

ある病気:Vについて,その罹患率とVを検知する検査:Tの精度に関する以下の情報がある.

  1. 罹患率(人全体を母集団としたときの割合)は,r%である.(r%の人が罹患している)
  2. Vにかかっている人が検査:Tを受けたとき,罹患している(陽性)と判定される確率は p%である.
  3. Vにかかっていない人が検査:Tを受けたとき,罹患している(陽性)と判定される確率は q%である.

Aさんが検査:Tを受けたところ,「陽性」という結果が出ました.Aさんが本当にVにかかっている確率は?


あえて,文字だらけにしてみました(笑).
「なにが分母で,なにが分子か」がわかりにくい問題です.言い換えれば,冒頭で描いたようなベン図が描きにくい問題になっています.そこで,人全体の要素の数,すなわち人口を N人とおいて*1,話を進めてみます.

情報1.を書き換えると以下のようになります.
人全体において,罹患している人は r/100 \cdot N人,罹患していない人は (1-r/100) \cdot N人である.

情報2.は,以下のように書き換えられます.
人全体で罹患している人:r/100 \cdot N人が検査:Tを受けたとき,その p%である  p/100 \cdot r/100 \cdot N  \equiv P 人が陽性と判定される.

同様に,情報3.は
人全体で罹患していない人:(1-r/100) \cdot N人が検査:Tを受けたとき,その q%である  q/100 \cdot (1-r/100) \cdot N  \equiv Q 人が陽性と判定される.
と書き換えられます.

さて,Aさんは「陽性」と判定されているので,P+Q人の中に含まれていることになります.これが「ある条件」です.あとは,Aさんが P人の中に含まれているかどうかが問題となるので,
 \displaystyle{ \frac{P}{P+Q} = \frac{ p/100 \cdot r/100 \cdot N }{ p/100 \cdot r/100 \cdot N + q/100 \cdot (1-r/100) \cdot N} = \frac{ pr}{ pr + q(100-r)} }

が求める確率になります.
定義に則って求めるのも悪くないですし,それができればベストだと思います.わたしのような感覚人間にとっては,遠回りではありますが,「単位(個数)」を考える方がわかりやすいときもあると思います.

f:id:miwotukusi:20160126014208p:plain

問題によっては,陽性の確率と陰性の確率が入れ替わっている場合もあるので,あてはめるときには注意してください.

へびの足(2016/01/27追記)

上級編の答えとなる確率の式を変形すると,
 \displaystyle{ \frac{ pr}{ pr + q(100-r)} = \frac{1}{ \displaystyle{ 1+ \frac{q}{p} \cdot \left( \frac{100}{r} - 1 \right)} } } (ただし, p \neq 0, \ r \neq 0)

となります.分母が小さくなると,全体の値は大きくなるので,

  • pが大きくなる.または,qが小さくなる.すなわち,「かかっている」「かかっていない」に対するTの精度が高くなる.
  • rが大きくなる.すなわち,罹患している人の割合が多くなる.

と,「陽性」と診断された人が実際にかかっている確率も高くなります.

*1:たとえば,10万人あたりの罹患率がわかっているのであれば、N=100,000とすればよい.全人口である必要はない.