正規分布の性質

投稿者: | 2021年8月8日

確率分布にはいくつか種類がありますが、最も我々と関りがあるのは正規分布です。

正規分布にはある独特の性質があります。ここではそのような性質について取り上げます。「なぜそのような性質があるのか」というところまで説明できればよいのですが、難しいので省略します。

1 離散型と連続型

1.1 的当ての例

標的にボールを当てる場合考えてみましょう。

標的には同心円が描かれています。隣合う同心円の間の領域には内側から順に1、2…のように数字が割り当てられています。これを\(m\)とします。投擲後、「どの円とどの円の間に入ったか」を判定します。

この結果をグラフにします。

横軸は\(m\)、縦軸はプレイヤーが投げたボールがそれぞれの領域に当たる確率です。

下の図のような結果になったとしましょう。

次に円を取り払います。

横軸は中心からの距離(\(r\))で表すことにします。定規で測ればある桁で丸めることにより\(r\)の桁数は有限になります。しかしここでは丸めない値であるとします。つまり桁は無限に続きます。

次のようなグラフになるはずです。

この場合、縦軸は何を示しているのでしょう。

例えば\(r\)が0.100のとき確率は約0.15のようです。しかし \(r\)が0.101のときも確率は約0.15です。これらを足していくとあっという間に確率が1を超えます。

つまり、縦軸は単にある特定の\(r\)における確率を示しているわけではありません。では何でしょう。

確率密度です。確率を求めたければ、求めたい\(r\)の区間を決めて積分をします。グラフ上ではその領域の面積になります。

1.2 離散型と連続型

まず、以下の用語について確認ください。

・確率変数
出現しうる値を含む変数。前者の例の場合、\(m\)、後者の場合\(r\)。グラフでは横軸。

・確率分布

確率変数の各値に対応する確率。

さて、前項の二つの例の違いについて考えてみましょう。

前者の確率変数はとびとびの値です。1と2はありますがその間の値はありません。このような値の取り方を離散型(離散的)とよびます。

一方、後者の確率変数が取りうる値は無限にあります。0.100の場合もあれば0.101の場合もあります。その間にも無限に存在します。このような値の取り方を連続型(連続的)とよびます。

確率変数、確率分布、分布を示す関数は離散型と連続型により以下のように使い分けられます。

・離散型確率変数
離散的な値をとる確率変数。

・連続型確率変数

連続的な値をとる確率変数。

・離散確率分布

確率変数が離散型である場合の確率分布。

・連続確率分布

確率変数が連続型である場合の確率分布。

・確率質量関数

離散確率分布を示す関数。

・確率密度関数

連続確率分布を示す関数。

2 正規分布

2.1 期待値

期待値の定義です。離散型確率変数の場合と連続型確率変数の場合に分けて説明します。

・離散型確率変数の場合

確率変数を\(X\)、\(X\)が取りうる値を\(x_i\)、\(x_i\)の確率を\(p_i\)とすると期待値は以下です。

$$E(X)=\displaystyle \sum ^{\infty} _{k = 1}x_i p_i$$

・連続型確率変数の場合

確率変数を\(X\)、 確率密度関数を\(f(x)\)とすると、期待値は以下です。

$$E(X)=\displaystyle \int ^{\infty} _{\infty}x f(x) dx$$

2.2 分散

分散の定義です。

・離散型確率変数の場合

確率変数を\(X\)、\(X\)が取りうる値を\(x_i\)、\(x_i\)の確率を\(p_i\)、期待値を\(E(X) = \mu\)とすると分散は以下です。

$$V(X)=\displaystyle \sum ^{\infty} _{k = 1}(x_i – \mu)^2 p_i$$

・連続型確率変数の場合

確率変数を\(X\)、 確率密度関数を\(f(x)\)、期待値を \(E(X) = \mu\) とすると、期待値は以下です。

$$V(X)=\displaystyle \int ^{\infty} _{\infty}(x – \mu) ^2 f(x) dx$$

2.3 母集団と標本1

統計学には母集団と標本という概念があります。これらの違いを確認しておきましょう。

母集団とは対象となる物や事象全ての数値や特性のことです。

標本は母集団より抽出した集団のことです。

一つの母集団に対し標本は一つとは限らず複数存在する場合もあります。

(例1)日本の成人男性の身長について調査する場合

この場合、母集団は日本の成人男性のそれぞれの身長です。

しかし全員について調べることはできません。そこで無作為に1000人を抽出し調べることにしたとします。この1000人のそれぞれの身長が標本です。

(例2)サイコロ

サイコロを振って出た目は母集団、標本どちらかに当てはまるでしょうか。

サイコロを振って出た目は標本といえます。複数回振った場合はそれぞれが標本の要素です。では母集団は何でしょう。

サイコロの1から6が母集団です。しかし振るごとに母集団が変わるのではないでしょうか。この場合は母集団に1から6の数が均等かつ無限にあるとすれば抽出することの影響は考える必要がありません。

このように母集団は必ず有限というわけではなく、無限の場合もあります。

2.4 母集団と標本2

母集団と標本という2種類の集団があるのであれば、統計学によって求めるものは何なのでしょう。

特に何と決まっているわけではありませんが、必ず既知と未知の値や分布があり、既知の条件より未知の値や分布を推定します。

前項の例1について考えてみましょう。

母集団は日本の成人男性のそれぞれの身長です。しかし全員の数値を得ることはできません。そこで無作為に抽出しました。これが標本です。

標本の数値は調査により全て得られました。当然標本と母集団の分布は一致するとは限りません。しかしこの結果より日本の成人男性の分布を推定することはできそうです。

つまり、この場合は既知の標本より未知の母集団を推定することが目的です。

2.5 正規分布

正規分布は以下で定義されます。

$$f(x)=\frac{1}{\sqrt {2\pi \sigma^2} } \exp \left(-\frac{(x – \mu)^2}{2\sigma^2} \right)$$

\(f(x)\)は確率密度関数、\(\mu\)は平均、\(\sigma\)は標準偏差です。また、\(\sigma^2\)を分散とよびます。

グラフにすると以下のようになります。通常、横軸は線形として表します。

主な性質は以下です。

・ \(f(x)\)は\(\mu\)と\(\sigma\)のみによって決まる。
・グラフ上、\(f(x)\)は\(\mu\)を中心として左右対称である。
・中央値(メディアン)と最頻値(モード)は\(\mu\)と一致する。
・ \(\mu\)によってグラフ上、左右に平行移動するが形状は変わらない。
・\(\sigma\)が小さくなるとグラフ上では山が高くなり中央に寄る(下の図の青が\(\sigma\)大、赤が\(\sigma\)小)。ただし横軸のスケールを変えることによって\(\sigma\)がどのような値であっても形状を一致させることができる。
・ \(\sigma\) は\(x\)と同じ次元になる。例えば\(x\)を長さとした場合、 \(\sigma\) も長さ。 \(x\) の単位が\(m\)であれば\(\sigma\)の単位も\(m\)。\(\sigma^2\)は\(m^2\)。

2.5 \(\sigma\)との確率の関係

前項で、\(\sigma\) によってグラフの形状が変わるが横軸のスケールを変えることによってどのような場合でも形状を合わせることができると述べました。

\(\sigma\) が異なる正規分布のグラフ上の形状を合わせるにはどうすればよいでしょう。

\(x\)から\(\mu\)を引いた値を\(\sigma\)の比で表せばよいのです。 つまり\(Z = \displaystyle \frac{(x-\mu)}{\sigma}\)を横軸とします。

これによって重要な性質が導かれます。横軸のある区間の確率(面積で表されます)は\(\mu\)と\(\sigma\)に関わらず決まった値になります。

品質管理において「3\(\sigma\)」などを指標として使うのは確率を\(\sigma\)と係数で表すことができるからでしょう。

3 中心極限定理

3.1 例1

4個のサイコロを同時に回振って出た数の平均を求める場合を考えます。

左から順に以下の目が出ました。

1回目 4, 2, 3, 5,

2回目 1, 3, 2, 6

3回目 3, 2, 5, 1

それぞれの平均を求めると以下になります。

3.50, 3.00, 2.75

サイコロの数を\(n\)とします。この場合は4です。

サイコロを振る回数を増やし、各平均値の出現回数に追加していきます。この分布は何になるでしょう。

正規分布に近くなります。

\(n\)を大きくするとさらに分布は正規分布に近づきます。グラフにすると平均の約3.5を中心とした山なりの形になります。

さらに面白いのはそれぞれの目の出現確率が一様でなくても成立することです。例えば、サイコロの形状がいびつなために1と6の確率が他より高く3と4の確率が他より低かったとします。しかし、やはりその平均の分布は正規分布にしたがいます。

このように多くの場合、母集団が正規分布であるかないかに関わらず、無作為に抽出した標本の和を正規化した値は標本の大きさが大きくなるほど正規分布に近づきます。これを中心極限定理とよびます。

この場合の正規化とは得られた値を比較しやすくするために、相対値を保ったまま一定の倍率を掛けることです。サイコロの例では平均値を求めているので試行回の逆数を掛けていることになります。

3.2 例2

中心極限定理をプログラムで確かめてみます。

このプログラムではサイコロを複数回振りその平均値を求めています。 「n」 はその回数で、平均値を求めるときの分母でもあります。

上のグラフは横軸が平均値、縦軸が出現頻度です。出現頻度は和が一定になるよう正規化しています。

下のグラフはサイコロの各目の出現確率の設定です。初期状態では一様になっていますが設定により「1と6の確率が高い場合」「3と4の確率が高い場合」を選べるようになっています。

母集団は下のグラフ、標本は各平均値の集まりです。

「n」を押すと平均を求めるための回数を変えられます。

「母集団」を押すと母集団の分布を変えられます。

時間経過とともにサイコロを振る回数が増えます。それに伴い平均値は3.5に近づいていきます。

大数の法則によるものですが、シミュレーションでは\(n\)を大きくした状態がこれに相当します。分布が中央に寄り\(\sigma^2\)、 \(\sigma\) が小さくなります。

4 まとめと補足

4.1 まとめ

・正規分布は以下で表すことができます。

$$f(x)=\frac{1}{\sqrt {2\pi \sigma^2} } \exp \left(-\frac{(x - \mu)^2}{2\sigma^2} \right)$$

\(\mu\)は平均、\(\sigma\)は標準偏差です。また、\(\sigma^2\)を分散とよびます。

・ \(Z = \displaystyle \frac{(x-\mu)}{\sigma}\) を横軸としたグラフは\(\sigma\)、\(\mu\)に関わらず同じ形状になります。したがって、ある2つの\(x\)によって決まる領域の確率は\(Z\)を求めることによって得られます。

・任意の母集団から \(n\)個の標本を抽出すると、その平均は正規分布に近似します。

4.2 なぜ身の回りの多くの現象は正規分布にしたがう?

自然科学や社会科学における多くの現象が正規分布を示します。

例えば動物の体重、工業製品の寸法、試験の成績などは正規分布に似た分布になることがあります。

なぜ正規分布になるのでしょう。

一部の事象については中央極限定理によって説明できるでしょう。

例えばある製品の寸法の個体ごとのばらつきは工作機械、材質、作業者の操作などのばらつきの影響を受けるとします。それぞれのばらつきが累積されるとすれば正規分布になるはずです。

動物の体重も、遺伝、餌、運動などのばらつきの要素が重なることによって正規分布になるという見解があるようです。

しかしほとんどの事象については明確な根拠があるわけではありません。偶然正規分布に近似できるというだけなのかもしれません。それでも正規分布の性質を利用できることに大きな利点があるので、正規分布とみなすことが多いのでしょう。