カイ二乗検定とは?その流れと注意点

仮にあなたが学校の先生だとしましょう。そこであなたは「新しい指導法を導入したが、指導法(A)と指導法(B)で質問をする生徒の数に差があるのかを確かめたい」といったことを考えたとします。このような状況で、人数や回数などの値に差があるのかを主観に頼らず、統計的に確かめるために便利なのがカイ二乗検定です。

カイ二乗検定を行う際の前提条件

データの種類がカテゴリカルデータであるかを確認する:

カイ二乗検定はあるカテゴリーに対応する人数や回数といった、カテゴリカルデータを扱う分析手法です。カイ二乗検定はノンパラメトリックな分析手法の一つで、分析対象とするデータは正規分布に従っている必要はありません。しかし、分析対象とするデータが「質問の有無(あり、なし)」や「賛成の是非(賛成、反対)」といった特定のカテゴリーを表している必要があります。 これ以外のデータを扱う際には違う分析手法を検討することをお勧めします。

データの種類が累積頻度であるかを確認する:

カイ二乗検定は回数や人数といった累積頻度を扱う分析手法です。上の例を使えば、指導法(A)と指導法(B)における「質問をした生徒数」と「質問をしていない生徒数」の頻度を検討することになります。そこで次のようなデータが得られたと仮定しましょう。

指導法ごとの頻度表
  質問あり 質問なし
指導法(A) 5 15
指導法(B) 15 5

ここでは指導法(A)での質問ありの生徒の数を「一人、二人、三人、…」と数えたものです。よって、指導法(A)での質問ありの生徒の数を4.5人であるということには意味がありません。もしも「質問あり」と「質問なし」に「ずっと寝ている」というような中間値を設定したいのであれば新しいカテゴリーを設定する必要があります。
また、上の例では指導法ごとに生徒を分類しました。この生徒の比率を比べたい際には別の検定手法を用いる必要があります。なぜなら、上のデータの行ごとの比率を求めると指導法(A)では0.25と0.75、指導法(B)では0.75と0.25という数値が得られます。既に述べたように、このデータはカイ二乗検定には不適切です。カイ二乗検定はあくまでカテゴリー毎の頻度を扱うもので、「指導法(A)では質問をした生徒が0.25人いました」という主張には意味がありません。

期待値を確認する:

カイ二乗検定量を求めるためには各データ毎の期待値を求める必要があります。この期待値は行の合計と列の合計を掛け合わせた値を全体の数で割って求めることができます。これを上のデータで求めると、全てのデータの期待値は全て10になります。 このようにして求めらた期待値が5を上回る場合は問題なくカイ二乗検定を行うことができます。しかし、これが5を下回る場合は (i) さらに多くのデータをとる、あるいは (ii) フィッシャーの正確性検定を使用します。フィッシャーの正確性検定の詳細はフィッシャーの正確性検定をご覧ください。

自由度を確認する:

一般的に、自由度が1の場合は「本当は差がないのに、差があるという主張をする」という第1種の誤りをおこる危険性が高くなります。よって、上にあげたような2 × 2の頻度表の分析を行うさいにはイエーツの補正と呼ばれる補正をかけるか、上にあげたフィッシャーの正確性検定を利用することをお勧めします。フィッシャーの正確性検定の詳細はフィッシャーの正確性検定をご覧ください。

カイ二乗検定の流れ

カイ二乗検定の流れは次のようになります。

  1. データの種類の確認:
    1. データがカテゴリカルデータであるかを確認する
    2. データの種類が累積頻度であるかを確認する
  2. 期待値を確認する
  3. カイ二乗検定を行う

カイ二乗検定量の求め方

この流れに従い、無事にカイ二乗検定を行うことができたと仮定しましょう。カイ二乗検定量は「実測値と期待値の差を二乗し、期待値で割ったものの和」として定義されます。こうして得られたカイ二乗検定量が統計的に有意なものであるかを確認するには、与えられた自由度を使ってカイ二乗分布と呼ばれる確率分布を参照する必要があります。
上のデータでカイ二乗検定を行うとχ2 = 8.1, 自由度 = 1, p 値 = 0.004427という結果が得られます。p < 0.05水準で有意な結果となりましたが、この段階では全体のどこかに差があるということしかわかりません。全体のどこに差があるのかを確かめるには残差分析を行う必要があります。

残差分析の求め方

カイ二乗検定において、残差とは実測値と期待値の差のことを指します。この残差を調べることで、どのカテゴリーにおいて差が生じているのかを確認することができます。標準残差は観測値と期待値の差を期待値で割ることで求めることができます。しかし、この標準残差は値が大きいセルの影響を受けやすいため、列の合計と行の合計を用いて値を調整した調整済み標準化残差が用いられます、調整済み標準残差は、その絶対値が1.96以上であればp<0.05水準で有意、2.56以上であればp<0.01水準で有意、3.29以上であればp<0.001水準で有意であると言われています。

 

CHRONOGISTを使えば簡単にカイ二乗が可能です

CHRONOGISTはアカデミック向けのWebアプリケーションです。残差分析などを含めたカイ二乗検定もワンクリックで一瞬で終わります。 登録は無料です。