計数値分布の母数に関する検定
第7章第4節で述べたように、ある確率Pで発生する事象がn回の試行の中で観測される回数をxとすると、x/nは、ある条件の下では近似的に正規分布
に従うとみなすことができる。この性質を利用すれば、今までと同じように、二項分布の母数に関する検定を行うことができる。
n回試行したとき、ある事象がx回発生したことが観測できたとする。この時、帰無仮説P=P0のもとでは、

は近似的に標準正規分布に従う。検定の方法は、通常のu検定と同じである。
どちらも二項分布に従う二つの母集団においてそれぞれn1、n2回の試行を行ったとき、ある事象がそれぞれx1、x2回観測されたとする。この時、帰無仮説P1=P2=Pのもとでは、

は近似的に標準正規分布に従う。なお、Pは未知であるから、
を用いて推定した値を利用する。検定の方法は、通常のu検定と同じである。
第7章第4節で述べたように、ある単位で平均λ回発生する事象が、n単位の中で実際に観測される回数をx回とすると、x/nは、ある条件の下では近似的に正規分布
に従うとみなすことができる。この性質を利用すれば、今までと同じように、ポアソン分布の母数に関する検定を行うことができる。
n単位の中である事象がx回発生したことが観測できたとする。この時、帰無仮説λ=λ0のもとでは、

は近似的に標準正規分布に従う。検定の方法は、通常のu検定と同じである。
どちらもポアソン分布に従う二つの母集団においてそれぞれn1、n2単位の中で、ある事象がそれぞれx1、x2回観測されたとする。この時、帰無仮説λ1=λ2=λのもとでは、

は近似的に標準正規分布に従う。なお、λは未知であるから、
を用いて推定した値を利用する。検定の方法は、通常のu検定と同じである。
データから作成した度数分布表が得られているとき、その度数分布に対応する確率分布が、何らかの特定の分布(たとえば、正規分布、ポアソン分布、など)であると見なしてかまわないかどうかを調べたい、という場合に、本節で紹介する適合度の検定が良く利用される。以下の例で考えてみる。
ある企業で、1年間にわたって従業員の遅刻回数を調べ、曜日ごとにまとめたところ、
表 14 従業員の遅刻回数
|
月 |
火 |
水 |
木 |
金 |
合計 |
|
20 |
14 |
7 |
6 |
8 |
55 |
というデータが得られた。曜日によって遅刻回数に違いがあるかどうかを調べたい。曜日によって違いがあるかどうかを調べたいのであるから、帰無仮説としては「遅刻回数の分布は曜日について一様である(一様分布に従う)」、対立仮説としては「遅刻回数の分布は曜日について一様分布ではない」ということになる。このように帰無仮説を設定すると、それぞれの曜日ごとの「期待発生回数(期待度数)」を計算することができる。この場合は曜日によって等しいのだから、55÷5=11である。この時、

は近似的に、自由度φ=k−p−1のχ2分布に従う。kは度数分布表の級の数、上の場合は5である。pは期待度数を計算するために、データから推定した母数の数である。この場合は推定した母数の数は0である。ここで、もし帰無仮説が成立していないとき、すなわちある特定の分布にしたがっていないときには、χ02の値は大き目の値を取ることが知られている。
今回のデータに当てはめて計算すると、

となる。
棄却域はχ02≧χ2(φ、α)で、今回の場合はα=0.05とすると、χ02≧χ2(4、0.05)=9.49となる。したがって、検定の結果、帰無仮説は棄却される。すなわち、遅刻の発生回数は曜日に関して一様ではない。曜日によって違いがある、ということが分かる。
まとめると、次のようになる。
手順1 仮説の設定
帰無仮説:母集団が、ある特定の分布に従う
対立仮説:母集団は、ある特定の分布には従っていない
手順2 有意水準と棄却域を設定する
有意水準αを設定する。通常はα=0.05を採用することが多い。
棄却域:χ02≧χ2(k−p−1、α)
棄却域が、上側検定の棄却域になっていることに注意せよ
手順3 期待度数を計算する
必要に応じて、データから、想定した分布の母数の点推定値を計算し、それぞれの級における期待度数を計算する。
手順4 検定統計量を計算する

手順5 判定を行う
この検定も他のさまざまな検定と同じように、帰無仮説が棄却されれば、たとえば「正規分布にしたがっていない」とか「ポアソン分布にしたがっていない」という結論を出すことができる。しかしながら、帰無仮説が棄却されない場合、「正規分布にしたがっている」というような積極的な結論を出すことはできず、「正規分布にしたがっていないとは言えない」という、消極的なものの言い方になることに注意せよ。
本節で紹介する検定は、理論的には、複数の母集団が同じ分布に従っているかどうかを検定する「適合度の検定」である。しかしながら、データが分割表という形式で与えられることから、広く「分割表の検定」として知られている。
たとえば、次のようなデータが得られているとする。
表 15 ある講義のレポートの成績
|
A |
B |
C |
合計 |
|
|
A1クラス |
13 |
31 |
6 |
50 |
|
A2クラス |
27 |
15 |
8 |
50 |
|
B1クラス |
29 |
16 |
5 |
50 |
|
B2クラス |
20 |
19 |
11 |
50 |
|
合計 |
89 |
81 |
30 |
200 |
ある講義で学生にレポートを提出させ、A、B、Cの3段階で成績をつけたところ、人数が上の表のようになった。この時、クラスごとで「レポートの出来」に違いがあるだろうか。ここで、母集団が4つある(クラスごと)と考える。レポートの出来に違いがあるかどうかということは、それぞれの母集団に対して、A、B、Cの出現確率が等しいかどうかを知りたい、ということに他ならない。
表 16 分割表の構造
|
B1 |
B2 |
… |
Bb |
合計 |
|
|
A1 |
x11 |
x12 |
… |
x1b |
T1・ |
|
A2 |
x21 |
x22 |
… |
x2b |
T2・ |
|
… |
|||||
|
Aa |
xa1 |
xa2 |
… |
xab |
Ta・ |
|
合計 |
T・1 |
T・2 |
… |
T・b |
T |
同じ問題をもう少し一般的に書いたのが表 16である。A1からAaまで、全部でa個の母集団があり、それぞれに対して、B1からBbまで、全部でb種類の分類(級)が考えられる。それぞれの母集団ごとの合計個数はTi・と表記し、それぞれの分類ごとの合計個数をT・jと表記する。また、総合計はTと表記する。母集団iにおける分類jの観測度数を、xijと表記する。この時、すべての母集団について、ある分類の発生する確率が等しいとすると、たとえば、Bjの発生確率は、
であるから、i番目の母集団で分類jが観測される個数の期待値は、
となる。この時、帰無仮説のもとでは、

は自由度φ=(a−1)(b−1)のχ2分布に近似的に従う。あとは、第5節で述べた適合度検定と同じように行えば良い。この分割表の検定の場合、
帰無仮説:すべての母集団Aiにおいて、分類Bjが発生する確率は等しい。
対立仮説:すべての発生確率が等しいわけではない(異なる発生確率を持つ母集団が含まれる)。
という仮説になる。また、基本的には適合度検定を行っているので、上側検定を行うことになる。
表 15のデータで実際に検定を行ってみると、
手順1 仮説の設定
帰無仮説:クラスごとで、レポートの成績がA、B、Cになる確率は等しい
対立仮説:レポートの成績がA、B、Cになる確率は、すべてのクラスで等しいわけではない
手順2 有意水準と棄却域を設定する
α=0.05
棄却域:χ02≧χ2((a-1)(b-1)、α)=χ2(6、0.05)=12.59
手順3 期待度数及び検定統計量を計算する

手順4 判定を行う
帰無仮説は棄却される。したがって、クラスごとでA、B、Cになる確率は異なるといえる。すなわち、クラスごとでレポートの出来具合に違いがある。
となる。