【統計】t検定を学ぼう(過去問解説付き) byさたっち
☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆☆
皆さんは「t検定」と聞いて、ピンと来ますか?
統計学の用語で、経営情報システムに出題されたこともありましたが、昨年はなんと運営管理でt検定の計算をする問題が出題されました。
昨年の問題の中では捨て問候補筆頭とも言える問題ですが、今後そうではなくなる可能性があると睨んでおります。
試験まであと3ヶ月、そして勉強時間が確保しやすいGW、、、統計の問題にトライしてみませんか?
なぜ捨て問を学ぶのか?
皆さんは中小企業診断士の勉強をするに当たり、こう聞いたことがありませんか?
「捨て問は早めに見切りをつけるべし」
t検定の計算問題は令和4年度 運営管理 第5問で出題されましたが、14代目道場メンバーの内、令和4年度の1次試験を受験した人に聞いたところ、8人中6人が捨てたと回答しました。
これまでt検定の計算問題は(さたっちの記憶では)出題されておりませんでしたので、この問題は捨て問だったと言えると思います。
ではなぜ、そんな捨て問を解説するのか?
それは、これからの経営では統計学が必須であり、中小企業診断士にも統計学の理解が求められていると、個人的に感じ取ったためです。
実際、昨年の一次試験では統計学に関する問題が5問出題されております。
(令和4年度 運営管理 第5問、第40問、経営情報システム 第3問、第23問、第24問)(さたっち調べ)
例年1~2問の出題であったことを鑑みると、これから統計学の知識が問われる問題が増えてくるのではないかと予想しております。
ではなぜ、これからの経営では統計学が必須なのか?
それは昨今話題のDXやAI(機械学習)と統計学は密接に関わっているためです。
私の本業は技術職であるため、機械学習も勉強しているのですが、プログラミングの知識と同じくらい統計学についても理解しないと使いこなせないものとなっております。
そして、昨年のt検定の計算は、知らない方が見れば面食らうものですが、統計学を知っている人からすればそんなに難しくない問題です。実際、14代目道場メンバーの内、2人(私とひろし)は根拠を持って解答することが出来ております。
統計学は勉強し始めるとキリがありませんが、本日は、令和4年度の運営管理 第5問を根拠を持って計算できるレベルを目標に定めて、t検定を解説したいと思います。
最後に当該問題も解説しますので、そちらだけ見たい方はこちらでジャンプして下さい。
対象者
- 数学がある程度得意な方
- 平均値、標準偏差、標準正規分布など基礎的な統計用語を理解している方
目標レベル
- 令和4年度運営管理第5問が根拠付きで解答できる
(偉そうなことを言っていますが、対象読者は全受験生の1%くらいかな、と思って書いています。無理そうだと思ったら、今日の記事はしまっちゃいましょう。)
統計活用 小話
活用シーンをイメージして貰うため、架空の製造業の事例でご説明します。
(株)一発合格道場では、製造部門を持ち、スナック菓子「トロオドン スナック」が人気商品です。
トロオドンスナックは北海道産のじゃがいもを使用したポテトチップスで、大容量の100gで価格が安いことが商品の魅力です。
Sさんはトロオドンスナックの製造部門を担当しております。そんなある日、こんな電話がかかってきました。
~Trrrr~
ちょっと!
ウチ、トロオドンスナックの大ファンで毎日3袋購入してるんやけど、
最近量が少ないなーと思って家のはかりで測ってみたら、
99g、101g、98gやってんけど!
あんたんところ、どんな商売しとるん?
(毎日3袋ってすげーな)
大変申し訳ございません!すぐ設備に問題がないか調査します!
さて、Sさんはポテトチップスの充填機※が故障していないかどうかを調べることになりました。
※ポテチの袋に、ポテトチップスを自動で計量して入れる機械だよ!
手始めに、直近の9袋のポテトチップスを開封し、その重量を測ってみました。
すると、その重量は
101、99、102、99、101、99、98、97、98
でした。
平均値が99.3g、標準偏差が1.56g
少ないような気もするし、ばらつきの範囲内のような気もするし、
どっちなんだろうか?
S君!そういう時はt検定を使ってみるといいよ!
t検定って何ですか?
解説してみるから読んでおくれ!
t検定とは?
※初学者向けに厳密な数学的・統計的な正しさを割愛して記載しております。その点をご了承下さい。
t検定とは、2つの平均値の差が偶然によるものではないかどうかを検証するための統計的手法の一つです。
例えば、ある薬を飲むことが成績向上につながるかどうかを検証する場合、あるグループは薬を飲み、もう一方のグループは飲まないで成績を比較することがあります。この場合、t検定は薬を飲むグループと飲まないグループの平均成績に差があるかどうかを検証するために使用されます。
t検定は、標本の平均値、標準偏差、標本数などの統計量を用いて、検定統計量tを計算します。そして、t値が有意水準と比較して大きければ、2つの平均値には有意な差があると判断されます。
t検定には、①2つの群間を比較する2群のt検定と、②同一の群を時間や条件などの異なる状況で比較する対応のあるt検定の2種類があります。上記の薬の例の場合、あるグループが薬を飲み、もう一方のグループは飲まないで比較する場合が①群間比較、同じ人で薬を飲ませた前後で成績を比較するのであれば②標本内比較です。
t検定は、比較する群の数が2つであること、正規分布に従うデータに限定されることなど、条件があるため、注意して使用する必要があります。また、t検定はサンプルサイズが大きくなると正規分布に近づくため、大規模なデータセットでの使用が望ましいとされています。
ChatGPTより一部改変
今回の場合は②だね!
今回のケースの場合、標本の平均値は99.3、標準偏差は1.56、標本数は9となります。
そして、検定統計量tは公式に従って計算します。
母平均とは、充填機が正常に作動した時の充填量なので、100gです。
ですので、検定統計量tを計算すると、以下のようになります。
では続いて、有意水準という言葉についてです。
まず、統計の世界では・絶対起こる、・絶対起きないということはありません。何%くらいの確率で発生するという考え方をします。有意水準というのは、〇%以下と計算された時に有意差がある(つまり、2つの平均値の差に意味がある)というための水準です。この水準は計算者が独自に設定します。一般的には5%か1%が使われることが多いです。今回のケースでは5%の有意水準でやってみます。
今回の検定では「充填機のポテトチップスの充填量が100gである」という仮説が正しいかどうかを計算で検証しています。この仮説が5%以下の確率でしか正しくないのであれば、この仮説は正しくないと判断する、つまり「充填量は100gではない」と判断することになります。
では、その5%の確率をどうやって計算で判断するか?そこでt分布というものを用います。
t分布とは正規分布に似ている分布ですが、標本数により形が若干異なります。
t分布の形は自由度という指標により決定します。(図中のνは自由度を示します。)
自由度は 標本数ー1 で計算できますので、覚えていれば難しくないです。(今回のケースでは、9-1=8で、自由度は8です。)
では自由度8のt分布を描画して、今回のケースを検証していくことにします。
雑ですが、私がexcelベタ打ちで作った自由度8のt分布の図が以下の通りです。
縦軸は確率密度関数と呼ばれるものです。この曲線と横軸で囲われた領域は積分すると1になります。
今回、有意水準を5%と設定しているので、右側から面積が0.025(=2.5%)、左側から面積が0.025(=2.5%)となる領域を塗りつぶします。
※図中では左右ですが、上側・下側と表現します。(統計用語としてご認識ください。)
この赤い塗りつぶしの領域にいることが計算できた場合、5%以下の珍しい事象が発生しているので、「充填機のポテトチップスの充填量が100gである」という仮説が棄却され、「充填機は故障している」と判断されます。
上側の面積が0.025(2.5%)となる統計検定量はt分布表という統計の表にまとめられており、これを上側2.5%点と言います。試験の際には一覧表が与えられます。
ではどうやって赤い領域にいるかどうかを計算するのか?それが統計検定量です。
統計検定量を計算し、グラフの横軸の対応する点を探し、赤い領域に入っていないかどうかで判定ができます。
検定統計量tの公式を再掲します。
分子の平均値の差が大きいほど、検定統計量の絶対値が大きくなることがわかります。絶対値が大きければ、グラフ上の赤い領域に入りやすくなります。
つまり、平均値の差が大きければ大きいほど、機械が故障している可能性が高いという感覚的に理解しやすい話につながるわけですね。
では、今回のトロオドンスナックはどうなのか?検定統計量の計算式を再掲します。
検定統計量は-1.2792と出ましたので、グラフ内に挿入してみます。
こうやって見ると、有意水準の5%(下側2.5%の水準)には達していないことがわかります。
実際の計算ではグラフまで描画する必要はなく、数値計算だけで判定できます。
下側2.5%点の検定統計量が-2.306なので、
下側2.5%点の検定統計量(-2.306)<トロオドンスナックの検定統計量(-1.279)
であるため、「充填機のポテトチップスの充填量が100gである」という仮説は否定はできないという結論になります。
(実務上は充填機に異常はないと判断します。)
本当に問題ないのか?(おまけ話)
設備に異常はなさそう
ってのはええねんけど、
それでも100g入っていないのは、
なんか納得いかんなぁ。
おばちゃんの言うことは、ごもっともです。
いくら設備に異常がないからと言って、お客様の手元に来る1袋が100g入っていなかったら、納得して頂けないのは当然です。
実際の製造業では、例えば102gのように少し高めの重量で設定しておき、充填量がバラついてしまっても100g以上にはなるようにしてある場合が多いです。
さらに学ぶために(おまけ話2)
実は、今回の小話から令和4年度経営情報システムの第23問についても学ぶことができます。
今回の場合、帰無仮説は「充填量が100gである」というものになります。
第1種の過誤とは帰無仮説が真である(正しい)にも関わらず、帰無仮説を棄却(仮説は間違い)してしまうことです。今回のケースでは本当は「充填量は100gである」のにも関わらず、「充填量は100gではない」と結論づけてしまうことです。偽陽性率と言い換えると理解しやすいかもしれません。(コロナ禍で話題になりましたね。)
第2種の過誤とは帰無仮説が偽である(仮説は間違い)であるにも関わらず、帰無仮説を採択(正しい)してしまうことです。今回のケースでは、本当は「充填量は100gではない」にも関わらず、「充填量は100gである」と結論づけてしまうことです。
言葉だと覚えづらいですが、上記のような実例で覚えておくと暗記もしやすいかと思います。
真実 | |||
帰無仮説が 正しい | 帰無仮説が 正しくない | ||
検定 | 帰無仮説を 棄却しない | 〇 | 第2種の過誤 |
帰無仮説を 棄却する | 第1種の過誤(偽陽性) | 〇(検出力) |
有意水準を設計者が設定するのは、どれだけ偽陽性(第1種の過誤)を許容できるかによります。(本当は0にしたいですが、統計学で0はありません。)一般的には5%で設定しますが、厳しく設定したい場合は低くすることも可能です。(その分、測定に必要な個数が増えてしまうので、バランスを考えて設定する必要があります。)
検出力とは「1-第2種の過誤を犯す確率」で計算されます。つまり、本当は「充填量は100gではない」時に、正しく「充填量は100gではない」と結論づけてくれる確率を指します。
この知識があれば、本問はa、c、eが正しいと選択できます。
ちなみに、今回は平均値が上下のどちらに振れているかわからない検定であったため、上下2.5%で検定を行いました。これを両側検定と言います。設備を改造した時に性能が上がっているかどうか検定したい時があります。これは片側検定と言い、上側5%点で検定を行います。なぜ、唐突にこんな話をしたかって?それは過去問解説の時にわかります。
t検定計算手順
最後にt検定の計算手順をまとめます。
t検定 計算手順
- 標本の平均値、標準偏差を計算。
- 検定統計量tの公式に代入。
- 標本数から自由度を計算(標本数ー1)
- 自由度と有意水準を元にt表から値を探す。
- t表の値と②の値の大小を比較。②の値がグラフの外側になる場合は有意差ありと判断する。
令和4年度運営管理第5問の解説
さて、今回学んだことを元に令和4年度第5問を解説していきましょう。
設問で問われていることはA:t表から適切な自由度を選ぶ、B:t検定を計算することですので、上記手順の③から取り組みます。
まずは自由度を計算します。
標本数が9であるため、自由度 = 9 – 1 = 8
で自由度は8です。
t表の自由度8の行を見ると上側5%点の値が1.860となっております。
図解すると以下の通りです。今回は生産条件を変更して製品の特性値が上がったかどうかを知りたいので片側検定を用います。今回の設問では上側5%点しか記載されていないので、悩む必要はありませんが、ケースによって使い分ける必要があることは今後出題される可能性もあるかもしれません。
ここで設問に戻りますと、Aの選択肢は1.860が含まれているウ、エ、オに絞られます。
続いて、B:「生産条件の変更によって平均値は上がったと【B.いえるorいえない】」ですが、これはt検定を行い、平均値の有意差があるかないかを計算を行えということです。
つまり、有意差あり→いえる、有意差なし→いえない を選択します。
上側5%点が1.860であるため、検定統計量が1.860以上になるときは発生確率5%未満の珍しい現象が発生しているので、有意差あり。1.860未満になるときは発生確率は5%より高いので有意差なしです。
つまり、選択肢の組み合わせで正しいのは、ウ A:1.860以上 B:いえる と、エ:A:1.860以下 B:いえないの2択になります。
最後に上記手順の①と②をt値を公式にあてはめて計算します。①平均値と標準偏差は問題文に記載されているので、計算不要です。
つまり、推定統計量 1.833 < 上側5%水準点 1.860であるため、有意差なし。
答えは エ:A:1.860より小さくなった B:いえない になります。
参考書籍
今回、記事を書くに当たり、以下の書籍を参考にしました。
「統計学入門(基礎統計学Ⅰ)」東京大学教養学部統計学教室・著、東京大学出版会・出版
t検定については、youtube動画や解説しているサイトも数多くありますので、もっと学びたい方は検索してみて下さい。
終わりに
さて、本日の記事はいかがだったでしょうか?
なんとなくわかったという方、全くわかる気がしない方、いろいろかとおもいます。
全くわかる気がしない方は、正直今日の記事は深追いしなくてよいと思います。(労力の割に配点はたった2点です。)
数学が得意な方、基礎的な統計用語は知っているよという方向けのニッチな記事にしたつもりですので、他の受験生と差別化したい方はぜひ理解にトライしてみて下さい!
さてさて、明日ははっしー!
アローダイアグラムの解き方を教えてくれるみたいです!
プロジェクト管理素人でも
出来るようになるよ☆
お楽しみに!
おまけ話(その3)
このおまけ話を見つけたあなたはラッキー!
前日のトロオドンの記事に、トロオドンの4年分の成績をt検定しろと書かれていたので、やってみました。
具体的な指定はなかったので、勝手に設定してやりました。
R1とR4の成績を各事例の点数が対応ありとみなして検定してみます。
事例Ⅰ:61→63(+2)
事例Ⅱ:57→57(+0)
事例Ⅲ:54→61(+7)
事例Ⅳ:35→59(+24)
帰無仮説を「点数の差分が+0である。」と置いて、計算してみます。
平均値が8.25、標準偏差が9.44、標本数は4です。
統計検定量は t = (8.25 – 0 )/ 9.44 / √4 = 1.748 です。
自由度3の上側5%点はt分布表によれば、2.353ですので、
統計検定量 1.748 < 上側5%点 2.353 であるため、有意差なし。
つまり、トロオドンの成績は科目ごとにみたときに有意にあがってるとはいえません。そのため、彼が合格した要因はR1で足切りだった事例Ⅳを着実に伸ばしたためであると考えられます。
春セミナーで本人から「足切り科目がある方は根本的な原因を見直すべき」とありましたので、説得力がありますね~。
それでは!
☆☆☆☆☆
いいね!と思っていただけたらぜひ投票(クリック)をお願いします!
ブログを読んでいるみなさんが合格しますように。
にほんブログ村
にほんブログ村のランキングに参加しています。
(クリックしても個人が特定されることはありません)
記事へのコメントについて
記事へのご感想やご要望があれば、下部の入力フォームから是非コメントをお寄せください!
執筆メンバーの励みになりますので、よろしくお願いいたします。
※コメント送信後、サイトへ即時反映はされません。反映まで数日要することもあります。
※コメントの内容によっては反映を見送る場合がございますので、予めご了承ください。