統計検定(2級)を勉強し取得しましたのでその有用性、勉強方法などについてお伝えします。
統計検定とは日本統計学会公認の資格です。統計に関する知識や活用力を図るための資格で、4級~1級までの難易度で試験が用意されています。
さて昨今データサイエンティストなる職種が脚光を浴びるようになってきましたよね。
データサイエンティストというのは統計や機械学習の知識を用いてデータ分析を行う人たちだ
機械学習というのはデータからルールを発見するロジックです。
この機械学習のインプットとして脚光を浴びているのがビッグデータであり、ビッグデータの取り扱いには膨大な計算が可能なコンピュータの利用が不可欠でした。
コンピュータの能力は近年飛躍的に向上していてビッグデータ分析が現実的となった結果、機械学習のスピード・精度が向上し、ひいてはそれらの技術を使ったAIが注目されるようになったのです。
つまりデータサイエンティストは、膨大なデータを扱うビッグデータ分析、そして機械学習などの技術に基づくAI時代に向けて、なくてはならない職種になりつつあるのです。
統計検定は、こういったデータ分析を行うための土台として非常に有用な指標となり得ます。
統計検定2級は簡単すぎず難しすぎず学習の取っ付きとしてはかなりおススメだ。難易度としては高校~大学初級程度の統計学だな。
世の中、「統計的な錯覚」「人間の直感的な誤り」をついて、様々な“偽り”が氾濫しています。
そういった怪しい情報に惑わされない知識を身に付けるためにも役立つ、それが統計検定です。
勉強してみると目からうろこ的な知識もあったりして面白い
統計検定に興味がある方はぜひこの記事を参考にして頂き、データをうまく取り扱っていくための新たな一歩を踏み出す土台にしてください。
統計的なだまし
例えば極端な事を言えば、「40歳で死亡した人の95%はパンを食べていた」なんて話があったとします。
そこで「パンを食べると早死にする!」なんて思う人はいないでしょうが、これと似たような分かりにくい話をいかにも正しい事であるかのような見せ方をするメディアなり詐欺師なりがいるのが事実です。
或いは、例えば「殺人を犯した人の99%は包丁を使ったことがある」という調査結果から、「包丁は殺人に使われるから危険だ!」なんてミスリードをさせていたらお粗末すぎます。
統計で”いかにも”に見せる手法は昔も今も沢山あります。
騙されないようにしないとな・・・
ちょっと他にも例示してみます。
サンプルが偏っている
例えば、「ITリテラシー」に関する調査を行う際に、その解答手段を「インターネット経由」とした場合は、パソコンやスマホを使える人のみからの回答しか得られません。
そこから得られた情報を使ってあたかも「全国民のITリテラシーがこうだ!」と断言しているような調査結果は疑ってかかるべきです。
結果はITリテラシーがある程度ある人からの情報に偏っている可能性が高いからです。
サンプリングに用いた母集団をちゃんと確認した方がいい、ということ
因果関係を無視してあたかも関係のある事のように見せる
「中学生に対する3年間の調査で、朝ごはんとして野菜を食べていたグループは食べなかったグループよりもテストの点数が高かった」
なんて調査結果があったとします。事実としてはそうなのでしょう。
しかし野菜が頭の良さに繋がったかどうかに対して何も分析がされていないのが問題です。
野菜と頭の良さに因果関係があるかは別の調査が必要
もしかしたら
・朝野菜を食べる家庭は生活習慣がきちんとしており勉強の習慣が身についている
・野菜を食べる家庭はバランスよく魚なども食べているため、脳に良い習慣が根付いていた
・野菜は関係なく、単に頭脳労働者の親が多数を占める地域でサンプリングした
だから「朝野菜を食べる子供は頭がいい」という結果になった可能性がありますよね。
「野菜を食べる→頭がよくなる」という結論は、野菜業界が野菜を売りたいがためのミスリードである可能性すらあるのです。
こんな風に、「だますことが目的のデータ」「因果関係のないデータ」など、都合のいいミスリードを見破るために統計学は非常に有用です。
直感に訴えかけるミスリード
統計学って得てして直感とは異なる考え方が正解だったりするんですよね。
現実的にも統計学が正しいはずなんだが、直感で考えれば何となく違和感があるなって事がある
例えば「くじを引く」という場面を考えると、最初に引く人と後に引く人の当たりを引く確率は同じなわけですが、なぜか「先に引いた方が有利だ!」とか「後で引いた方が当たりやすい!」なんて言葉がまことしやかに飛び交うんですよね、くじって。
計算してみれば同じであることが丸わかりです。
くじ30枚中当たりが1枚だとします。
・最初に引く人が当てる確率は当然「1/30」です。
・2番目に引く予定の人が当てる確率としては、「1番目の人が外れて2番目の人が残りの29枚の中から当てる確率」なので、29/30×1/29 = 1/30、同じでしょ?
あと別の例として、学校のクラスで同じ誕生日の人がいる確率は意外と高い、とかも直感に反してて面白いです。
一年は365日あるので、クラスに30人いても同じ誕生日の人がいる確率なんて1%とかじゃない?なんて直感的には思ってしまいますが、実は全く違います。
「1-同じ誕生日の人が居ない確率」で出せるので計算してみました。
まず違う誕生日なのを計算します。2人目は1人目と違う誕生日なので364/365、3人目は1人目・2人目と違う誕生日なので363/365・・・
ということで、30人のクラスで同じ誕生日の人がいる確率は
1-(364/365)×(363/365)×・・・(336/365) = 0.706・・・
ということで、なんと70%を超えるのです。
初めてこの事実を知る人は
ホントかよ!同じ誕生日の人がいる確率高すぎ!
と思っちゃいますよね。
統計学を知らずに直感に頼ってばかりだとだまされてしまうわけですよ。
統計検定とは
統計検定は簡単な方から4級、3級、2級、準一級、そして最難関の一級とあります。
準一級以上はもう統計学を職業にする人以外には不要かなという高難度ですが、2級までは一般教養として知っておいて損はない内容となっています。
2級は年に二回、6月と11月に試験が開催されます。級によって開催月が違ったりしますので、受験する場合はよく確認してください。
2種類の受験方式
2級・3級に限って、従来通り特定の会場で紙の問題を配られて解く6月・11月の試験方式と、CBT(Computer Based Testing)方式の2種類から選択して受ける事が出来ます。
CBT方式は受験日や受験場所を自分の都合に合わせて選択でき、またコンピューターを利用しキーボード・マウスで入力する試験形態です。
自分の都合に合わせて選べるのがいいですね。
統計検定2級の出題範囲
統計検定の出題範囲は下記の様になっています。
・データソース
・データの分布
・1変数データ
・2変数以上のデータ
・データの活用
・推測のためのデータ収集法
・確率モデルの導入
・推測
・線形モデル
・活用
ごくごく普通の確率的考え方で解けるモノから、なんともとっつき難いテーマまで様々となっています。
興味があれば一度書店でテキストや問題集をパラパラっとめくってみて下さい。内容としては計算問題が多い事が分かると思います。
統計検定2級の難易度
2級は統計のイロハを学べ、難し過ぎもせず簡単過ぎもせず、高校レベルの数学の知識があれば問題なく合格できる試験です。
実際2級は高校~大学初等程度のレベルと規定されています。
まぁ高校レベルの数学と言っても特徴的なのは「数列」「順列」「簡単な微積分」くらいで、後は中学レベルの四則演算、平方根、指数計算などが使えれば十分です。
試験では電卓も使えるしな
ただ、やはり内容的には中々理解しがたいテーマもあり、中でも自分が理解しにくかったのが次のような部分です。
・条件付確率、ベイズ理論のような「何かが起こった時の別の何かが起こる確率の理論」
→覚えてしまえば便利だが、使いこなすには何度も使ってみる事が必要。
・不変推定量、一致推定量といった分かりにくい言葉たち
→純粋にその言葉が意味するところ、定義が分かりにくすぎる。
・区間推定、信頼区間
→「95%の確率でこの区間に入るだろう」という推定を行うための計算。覚えちゃうと便利。
・仮説検定
→「この仮説を○%の有意水準で棄却出来るかどうか」といった考え方のための計算。とっつき難いけど、統計的だましを回避するのに便利そう。
・F分布、t分布、カイ二乗分布など、使う場面が想像しにくい分布たち
→正規分布は結構なじみがあるが、それ以外の使いどころが難しい。意味はちゃんとあるので理解できれば強い。
こんな風に、難しいと感じるのは大方こんなところではないでしょうか。
統計学がとっつきにくく感じるのは、この辺のテーマの難解さから来るんではなかろうか、とも思う。理解できると面白いんだがな。
ただ、2級の範囲に限って言えば、覚える事は大して多くもなく、難易度もほどほどなので、実直に勉強すればまず大丈夫と言えます。
統計検定2級の合格点・合格率
統計検定2級は90分で35問前後を解く試験となっていて、60点程度以上を取ると合格となります。
問題数は回によって違っていますし、合格点も公表されていないので推察にはなりますので概ねの数値としてご認識ください。
合格者の中でも特に優秀な点数を取った受験者に評価A、さらに上の得点者に評価Sを与えているようですが、まぁ合格である事には変わりないので気にしなくとも大丈夫です。
ちなみに自分は評価Aだった
2018年6月の統計検定2級の結果を見ると合格率43.7%となっています。他の回を見てもおおむね40%~50%程度の合格率を推移していますね。
半数近くが合格できるということで、合格難度は高くないですね。まじめに勉強すれば問題なく合格できる試験と言えます。
電卓を持ち込み可能
統計検定は計算を多用しますので、試験時に電卓を持ち込む事が可能となっています。
もちろん使わなくてもいいけど、あった方が当然便利
持ち込み可能なのは
「四則演算(+-×÷)や百分率(%)、平方根(√)の計算ができる一般電卓又は事務用電卓」
となっていて、関数機能やプログラム機能を持った電卓は持ち込み不可、またスマホなどの電子機器を電卓として使うのもNGとなっています。
試験時は周りの電卓の音がカチャカチャ煩いけど、そういう試験だと思って自分も負けじと思いっきり電卓を叩こう笑(ほどほどにね)
ただ、個人的には試験本番ではそんなに電卓を多用はしなかったですね。暗算で出来る計算も多いですから。
統計検定を取るメリット
実際に勉強してみた結果として、統計検定を取得することによってこんな良い事あるよって事を紹介します。
統計検定を勉強するためのモチベーション向上に役立つと嬉しいです。
データ分析の基礎を学べる
統計検定を勉強することでデータを取り扱うための基礎を学ぶことができます。
統計学は「一つの値をぴったり当てる」ための学問というよりは「数値A~数値Bの間の値をとる確率が〇%」といった確からしさをはじき出す学問となります。
世の中には「答えはこれ!」なんてドンピシャの解答がある問題ばかりじゃなく、むしろ正解がぼやけた問題だらけだ。統計学はそういった問題へのアプローチのために必要な学問だ。
ビッグデータ・AI時代に向けては無くてはならない知識ですので、
そちら方面での活躍を目指したいけど何から手を付けていいか分からない!
という人は、統計検定2級近辺から勉強を始めてみると良いのでは、と思います。
就職・転職に有利となる
データ分析関連の業種に就きたい場合はもちろん、その他の職種であってもデータの入力や分析などを行う状況が当然ありますから、統計検定で学べる知識は確実に役に立ちます。
高校卒業~大学初等程度の統計学の能力を証明できる統計検定2級以上を所持していればアピールポイントとして使えるでしょう。
私は以前人事育成関連の仕事をしていましたが、データ分析の能力を持っていると思われる人材には高評価を下していました。
その判断は大学の専攻などを見て確認するしかありませんでしたが、もし統計検定を所持していれば一目で判断できますよ。
結局仕事というのは、現状の状況(データ)を把握し、分析し、課題をあぶり出して対処する、という事の繰り返しですから、データ分析の能力は全社会人に必須と言えますよね。
ただ、何十人と見ていて統計検定を持っている新人はいなかったので、まだまだこれからの資格なんだろうな、という印象はあります。
統計検定を所持している人はデータ分析に興味があるんだろうな、というのが分かって好印象。
”だまし”の統計に対する違和感を持てる
高校や大学時代は「統計学なんて何が面白いんだろ・・・」と思ったものですが、ちゃんと勉強してみると生活の色々な場面に統計学で解決できそうな問題が登場している事が分かるんですよ。
例えば前述した”意図的なだまし”を目的とした統計的なミスリードに対して
「ホントに正しいのか?」
と疑ってかかる癖が身につきました。
おかしなデータに惑わされないための下地を作る事が出来るんです。
メディアの”ウソ”情報などにだまされないように統計の知識だけは持っておきたいものです。
統計に基づいた行動を意識するようになる
統計に基づいてリスクとリターンをちゃんと考えて行動を起こせるようになる事もメリットですね。
つまり明らかに負ける戦いに首を突っ込む事を回避できるわけです。
たまに確率論を無視して負け戦ばかりする人いるじゃない。そういうダメ行動の回避に役立つのだ。
期待値(勝つ確率×勝った時の報酬)を考えながら行動できるといいですね。
宝くじなんかは期待値完全にマイナスなんだがたま~に買っちゃう笑。まぁ負けの額としては大したことないかなって・・・。
勉強の習慣が身に付く
まぁこれは統計検定に限った話ではないですけど、大人になってからの勉強は目的がしっかりしてて楽しいですね。
先が見えない学生時代の勉強とはまた違うのだ
TOEICの勉強の時も感じていましたし、どんな資格を取るでもそうですが、勉強する習慣が身に付くのがいいですね。
仕事などの生活の中で課題を見つける
↓
目的・目標を設定する
↓
勉強をして試験などを受ける
↓
合格する・成果を上げる
といった意味のあるサイクルを回すことが出来るようになります。
統計検定の勉強期間と勉強方法
統計検定2級の場合、高校卒業程度の数学の知識(と言っても大部分は中学レベルの四則演算が出来れば問題ない)を持っていれば、2か月程度問題集を解きまくることで十分合格圏内に到達するでしょう。
私の場合、新しい職場に配属されてデータ分析的な業務をする事になってから、「こりゃ統計学の基本的知識も持っておいた方が良いな」と思い立ち勉強を始め、2か月程度の勉強で6月の試験を受けて合格しました。
合計勉強時間としては150時間くらいだったかな
使ったのは3年分の過去問のみです。ひたすら解きまくりました↓
問題集のみでは心もとないということであれば後述する評判の良い教科書的な本をまず読んでみて下さい。
また統計学って難解な語句がいくつか登場しますから、分からない場合はその都度ググって解決していましたね。
統計検定2級程度であれば、試験中に全く見た事の無い新問題というのは出ません。出題範囲に沿った内容で過去問と似たような問題が出題されるだけです。
↓実際の問題はこんな感じです。
過去問を完璧にする事を目指しましょう。
テキストと問題集
私の場合は高校卒業程度の数学の知識を持っていましたので、問題集だけを解きまくって合格できましたが、自信がない場合はより下の級から始める、或いは教科書的な書物を一度読んでみる所から始めると良いと思われます。
統計検定の公式教科書として「統計検定2級対応 統計学基礎」という本が出てはいますが、淡々と文字と数式でダラダラと書かれているだけなので初学者が手に取ると脱落の原因になってしまう可能性もあってあまりおススメしません。
ストーリー性があって納得しながら読み進められる「コア・テキスト統計学」や「マンガでわかる統計学 素朴な疑問からゆる~く解説」といった本を読んでみると「統計学の何たるか」が分かり始めるはずです。
問題集としては、「過去問が3か年分載っている公式の問題集」で十分です。これを3回、理解しにくい所は5回ほど解いて納得できれば十分合格レベルに到達できるでしょう。
足りないという人はさらに「3年前の公式問題集」を買って合計6か年分の過去問を揃えれば怖いものなしです。
マンガでわかる統計学 素朴な疑問からゆる~く解説 (サイエンス・アイ新書)
日本統計学会公式認定 統計検定 2級 公式問題集[2015〜2017年]
日本統計学会公式認定 統計検定 2級 公式問題集[2012~2014年]
まとめ
ということで、統計検定の概要や合格率、有用な教材・勉強方法をお伝えしました。
これからのAI時代にマッチした資格、それが「統計検定」です。
データサイエンティストとしての仕事に就きたい人もそうでない人も、社会に出ればデータの分析力は必須能力です。
これからますます需要の高まる能力であると断言できます。
その能力を鍛えたい人にとって「統計検定」は勉強のための良い機会を与えてくれるでしょう。
実際、統計学の楽しさやお役立ち度を身をもって経験したぜ!
データ分析を専門にしたい人は準1級以上、そうでない人は2級を目指すのが現実的だと思います。
目指したいレベルに合わせた選択をして勉強してみて下さい。
↓おススメの電卓
シャープ 電卓50周年記念モデル ナイスサイズモデル ブルー系 EL-VN82-AX
最後までお読み頂きありがとうございます。もし少しでも役に立ちそうだと思われたら、ソーシャルメディアでの共有をお願いします。
コメント