そもそも『確率』ってなんだろう?ー確率の定義

LINEで送る
Pocket

統計学と確率のお話。

 

イントロ ~素朴な疑問~

 

あれは高校生の時だっただろうか、当時、授業で二項分布について学んでいた時のことだ。

「問.コインを4回投げたとき、2回表が出る確率は?」

 

例題を解いていたその時、私にある1つの疑問が浮かんできた。

「いったい、コインを無限回投げたらどうなるんだろう?」

気になったので、小さい数字から試してみることにした。

①コインを2回投げて1回表が出る確率は?

これは1/2だろう。

 

②コインを4回投げて2回表が出る確率は?
 $${ _{ 4 }{ C }_{ 2 } }\left( \frac { 1 }{ { 2 }^{ 2 } } \right) \left( \frac { 1 }{ { 2 }^{ 2 } } \right) =\frac { 3 }{ 8 }$$

 

③コインを6回投げて3回表が出る確率は?
$${ _{ 6 }{ C }_{ 3 } }\left( \frac { 1 }{ { 2 }^{ 3 } } \right) \left( \frac { 1 }{ { 2 }^{ 3 } } \right) =\frac { 5 }{ 16 }$$

 

このように、コインをN回投げてそのN/2回表が出る確率は、Nを大きくすればするほど小さくなり、0に近づく。

全く何も不思議なことはないのであるが、当時の私にとっては直観に反するものだった。

 

さて、以上は私が初めて「統計って、確率ってそもそもなんなんだ?」という問を建てた瞬間であり、それまで暗記偏重だった”お勉強”から内発的に”学問”をした瞬間であったように思う。

それから大学に入って以降は数理統計とは距離を置き、会計の勉強にいそしんでいたのである。

しかし、社会に出て統計的手法を学び、どうやら機械学習の分野が熱いらしいと小耳にはさみ、それらを深く理解するためには数学や統計学の知識が必要であると知って最近は教科書を開くようになった。

 

また前置きが長くなってしまった。

これから数回に分けて統計学の基礎的な知識についての記事を書いていこうと思う。

第1回目のテーマは、「確率の定義」だ。

 

 

ラプラスによる定義

 

一体「確率」とは何であろうか。

 

私が中学生の時、その定義は「事象Aの起こった回数/試行回数N」のような形で学んだ気がする。

たしかに間違いではないのだが、それでは先ほどのコインはどう説明するのだろう。

コインをたくさんN回投げて、その2/N回表が出るなんてことはありえないので、コインの確率は1/2とは言えないのではないか。

 

さて、一言に「確率の定義」といっても様々なものが存在し、その1つ1つは時代を代表する数学者たちによって「都合のいいように作られてきた定義」である。

それを以下で紹介する。

 

まずは「ラプラスの定義(古典的確率)」、これは非常に明瞭であり、高校で習う確率がこれだ。

 

「根源事象が全部でN個あり、それらは等しく起こりやすいとする。事象Aの根源事象がR個あるときその確率は、

P(A)=R/N

で定義される。」

 

よって、コインの表が出る確率は

①コインは表と裏の2つしかなく、それ以外はなく、いずれかが起きる確率は1である

②表か裏の出る確率は0以上である

③表が出れば裏は出ない

④コインは公平であるから表と裏の出る確率は等しい

 

コインの表が出る確率をP(Head)、裏が出る確率をP(Tail)とすると、

P(H)+P(T)=1・・・①③

P(H)=P(T)・・・④

 

以上より

P(H)+P(H)=1

2P(H)=1

P(H)=1/2

と定義される。

 

さて、ここで疑い深い人は、「はたして④は正しいのか」と疑問に思うであろう。

古典的確率では全ての根源事象が起こる確率が”同等に確からしい”のを前提とするが、これに対して疑問を持つのも当然である。

 

 

頻度による確率の定義

 

そこで、もっと実践的に定義しようじゃないかということで、確率の頻度説が登場する。

コインを10000回投げ、その表と裏の回数を数えてみよう。

その結果、H=5098回、T=4902回であった。

この結果では、コインの表が出る確率はP(H)=0.5098となる。

 

さらに試行回数を増やしていく。

コインを投げる回数をN、表が出る回数をnとしたとき、

N→∞

n/N

をP(H)の定義とする。

 

しかしながら、この確率の定義も不十分である。

仮にNを1000兆回行っても、無限に試行した終息を確認することはできないからである。

 

以上の様に、ラプラスの定義では”同程度に確からしい”という点、頻度主義では”極限への収束”という点において完全ではない。

 

 

公理主義的定義

 

コルモゴロフによって提唱され、以下3つの条件を満たすものは全て確率とみなしましょうという考え方である。

 

①すべての事象Aに対して、0≦P(A)≦1

②P(Ω)=1

③排反事象A1、A2、A3に対して、

P(A1∪A2∪A3・・・)=P(A1)+P(A2)+P(A3)・・・

以上を満たすものは確率であると考えられる。

 

以上、駆け足ではあるが3つの確率の定義を紹介した。

このように確立には様々な定義があるが、ぶっちゃけそれほど厳密に”確率の定義を必要とする場面”というのはなかなかない。

 

ただ、多くの数学者が「確率とはいったい何なのであろうか」という問を建て、試行錯誤してきた歴史をざっと知ることはできたのではなかろうか。

 

次回は有名なベイズについて紹介しようかなと思う。

 

この記事は以下の書籍を参考に作成しました。

『統計学入門(東京大学出版会)』

 

LINEで送る
Pocket

Leave a Reply

Your email address will not be published.