まことのビジネスに役立つ話

学生〜社会人数年目の若手ビジネスパーソンに役立つスキルを紹介していきます。

ベイズ統計学ー未来を予測する統計学ー

f:id:makoto-vlog-1122:20211121205846p:plain

 

 

 

本エピソードの内容

・統計とは?
・統計の3つの分野について(記述統計学、推測統計学ベイズ統計学)
・統計の3分野のそれぞれの違いは何か?
ベイズ統計の身近な応用例

 

文字起こし

未来を予測するベイズ統計学

 

こんにちは、サラリーマンポッドキャスターのまことです。
この番組では、読書好きな私が、日々の読書で学んだことを紹介していきます。

今回のエピソードでは、ベイズ統計について紹介していきます。
ベイズ統計を紹介するといっても数式などを説明するわけではなく、ベイズ統計とはこんなものですよ、これがわかったらこんなメリットがありますよという話をします。

 

今回のエピソードを聞くメリット

今時は社会人になっても、勉強しないといけない、などと言われ、何かやらなければいけないと思いつつも、何を勉強すれば良いのかわからないという人も少なくないのではないでしょうか?

今回は、そんな方達に向けベイズ統計を勉強するのはどうですか?と提案するような回となっています。

 

ベイズ統計の内容についても簡単に触れるので、「最近ベイズ統計ってよく聞くけど、いったいなんなの?」という疑問の解消にも役立てる内容かと思います。

 

かつては、マイクロソフト元代表ビルゲイツ氏に「当社が競争上優位にあるのは、ベイズ統計によるもの」とまで言われたこともあるベイズ統計。
ぜひ今回のエピソードを聞き、ベイズ統計とはどんなものかを学んでいっていただければと思います。

 

統計とは?

では、早速本題にはいっていきたいのですが、まず、ベイズ統計についての話をする前に、そもそも統計って何?という方もいると思いますので、そこから簡単に説明していきます。

 

統計とは簡単に説明すると、ある集団について、その特性、傾向、属性などを数量的に把握することです。

身近な例では、学校のテストの成績を、平均点が何点で、中央値はいくらか、などを算出して、クラスごとの傾向を把握したりしています。

 

統計という言葉は、統一の統と計算の計という漢字からなります。
統という漢字はすべる、一筋にまとめる、まとめおさめるなどといった意味で、計は計算という言葉からもわかるように、数を数えるとか、物事を数えてはかるという意味があります。
ここからもわかるように、1つ1つの数字を見るのではなく、まとめて全体を観察するという意味が統計にはあります。

 

そして、統計学は大きく3つの分野に分けることができ、それが記述統計学、推測統計学ベイズ統計学です。

ここでやっとベイズ統計が出てきました。
ここからは記述統計学と推測統計学ベイズ統計学の違いについて簡単に説明していきます。

 

記述統計学とは

まず、記述統計学について。
これは最も基本的な統計学です。
平均値や中央値、標準偏差などを算出して、データの傾向や性質を知る方法のことです。

先ほども紹介した学校のテスト結果を全員分集め、分析することが、この記述統計学活用の一例です。

 

推測統計学とは

次に推測統計について。
記述統計学と推測統計学の最大の違いは集団について全てのデータを集めるかどうかということです。

例えば、先ほども例に出した学校のテストでは、生徒全員のデータを取り、そこからクラスの状況を把握すると言いました。

学校のクラスくらいの集団であれば全員一人ひとりのデータを取ることが可能ですが、調べたい集団が大きくなると全てのデータを取ることは難しくなります。

 

例えば、日本国民全員を対象として、平均年収や世論調査、テレビの視聴率などを算出しようとした場合、全てのデータを取ることは困難なのは想像できると思います。

そこで、集団から抜き出した小さな集団に対して、統計的な行為をするが推測統計学の範囲です。

 

簡単に言うと、この推測統計学の考え方はスープ料理の味見と似ています。
スープの味を知るには、なにも鍋の中身全て飲まなくても、おたま一すくいで、ある程度なべ全体の味がわかりますよね
こんな形で一部を見て全体の特徴を掴むのが推測統計学の考え方です。

 

ここまでで記述統計学と推測統計学について説明してきました。
2つの統計学は、ある集団についてのデータを集めて、その数値を分析することで、その集団の特性を知ろうとすることです。
具体的に、どうやるのかは良く分からなくても、なんとなく、これらがどんなものかはわかっていただけたのではないかと思います。

 

次にベイズ統計学について説明します。
ここでやっと今回のエピソードの本題に入ります。
メインであるベイズ統計学の説明を最後に持ってきたのは、ここまで紹介した2つの統計学と比較しながら説明するのがわかりやすいと思ったからです。

 

ベイズ統計学は先の記述統計学と推測統計学とは、考え方が全く異なります。

先ほども言いましたが、記述統計学と推測統計学では、ある集団についてのデータを集めて、その数値を分析することで、その集団の特性を掴むこと、つまり、集団について過去または現在の姿を知る行為でした。
一方、ベイズ統計学は過去のデータを使って、今後何がどれくらいの確率で起きるかを推測します。

それゆえにベイズ統計学は未来を予測する統計学などと言われたりもします。

 

ベイズ統計学の代表的な応用例の1つには機械学習があります。
これをイメージすると、ベイズ統計学がどんなものかを、なんとなく掴めると思います。

イメージとしては次のようなものです。
データ少ないうちでも、一応、未来の可能性について、こうなる確率は何%、はたまた、違った結果になる確率は何%などと予測できるものの精度は低いです。
しかし、データをどんどん蓄積していくと、その予測の精度が上がっていくと言うようなものです。

 

例えば、サッカーの試合で、チームAとチームBの勝敗を予測する場合を考えてみてください。

事前に全く情報がなければ、両チームは五分五分と予測するしかないので、チームAが勝つ確率とチームBが勝つ確率、引き分けの確率は全て1/3と予測するしかありません。
しかし、データを集めていけば、より精度の高い予測ができるようになります。

例えば、それぞれのチームには誰が居て、メンバー一人一人のコンディションはどうかなどのメンバーの情報や過去の戦歴、どちらのホームでの試合かなどといった情報です。
このような情報を集めていけば、最初は全て1/3と予想するしかなかったそれぞれの確率も徐々に修正され、より精度が高いものになっていきます。

 

このように未来の事象の確率をもとめられることが、未来を予測する統計学と呼ばれる所以です。

そんなベイズ統計。中には名前自体、今日初めて聞いた人いるかもしれませんが、実はかなり身近なところでも使われています。

 

この後ベイズ統計学の活用例を2つ紹介して今回のエピソードを終えたいと思います。

 

ベイズ統計学応用例ーレコメンド機能ー

1つ目の活用例はECサイトのレコメンド機能です。
アマゾンや楽天などのECサイトでおすすめの商品が表示されたりしますよね?

これもベイズ統計を使い、おすすめする商品が決められていたりします。
この原理としては、次のようなものです。

まずは私たち自身の商品の購入履歴や閲覧履歴、はたまた、登録している年代や性別などから私たち自身のプロファイルが作られていきます。

それとは別で、ECサイト側は、それぞれの商品がどんな人に買われているか、その商品を買った人が他にどんなものを買っているかなどのデータを蓄積しています。

このような販売データと私たちのプロファイルを照らし合わせて、おすすめの商品が紹介されます。

 

このおすすめの商品の提案は、私たちのデータ少ない状態でも、一応提案することは可能ですが、ECを使い続け、私たち自身のデータが集まるほど精度の良い提案がされるようになっていくという点で、ベイズ統計の特徴がみて取れます。

また、実体験からもわかると思いますが、おすすめの商品が絶対に気に入るものとは限りません。
先ほど、ベイズ統計学は未来を予測する統計学とは言いましたが、100%正しい未来を示してくれるわけではありません。

あくまで、過去のデータから見るとあなたがこの商品を気に入る可能性が高いですよと言っているだけです。

 

ベイズ統計学応用例ー迷惑メールフィルターー

2つ目の活用例は迷惑メールのフィルターです。

思い返してみると、近年迷惑メールを見る機会が減ったと思いませんか?
GmailやYahooメールなど、さまざまなメールサービスでは、自動で迷惑メールを振り分けてくれるフィルターが付いていて、迷惑メールは表示されなくなっています。

これもベイズ統計を使ったデータの分析による成果です。

 

原理としては、メールの本文に含まれる単語やリンクの有無などから、点数付をし、一定以上の点数になった場合に迷惑メールと判断されるというような仕組みです。

例えば、迷惑メールには「出会い」とか「儲かる」とか「申し込み」といった単語が使われていることが多いです。

なので、こういった単語がつかわれていると、迷惑メールの可能性としての点数が加算されていき、これが一定以上になると迷惑メールボックス行きになるというわけです。

こちらも、迷惑メールである可能性が高いと判断されたら迷惑メールボックス行きになるというだけで、100%正しい結果を示してくれるわけではありません。

 

以上がベイズ統計学の応用例の紹介でした。

 

未来を完全に予測することはできませんが、ベイズ統計学を駆使すれば、闇雲ではなく、できるだけ成功の可能性の高い選択肢を選べるようになることが理解いただけたのではないでしょうか?

 

今回のエピソードの内容は以上です。

 

ベイズ統計は非常に便利なものではありますが、全ての人に役立つものとまではいきません。
今回のエピソードの内容から、学んだらご自身で活かせそうなどと気づきがあった人は、ぜひご自身でより深く学んでいただければと思います。

 

また、ご自身で活用はでき無さそうと思った方でも、身近に使われているものでもあるので、教養として学んでおくというのも良いと思います。

 

ベイズ統計についてのおすすめの参考書を概要欄に載せておきましたので、ぜひ参考にしてみてください。

その中でも「完全独習 ベイズ統計学入門」は非常に理解しやすいです。
予備知識が全くない人が「なんとなくベイズ統計ってこんなもんなんだなぁ」と理解したい時には最適と思います。

私は理系出身なので、文系の人の気持ちはわからない部分もありますが、文系の方でも特に困難なく読めるレベルだと思います。
理系の方であれば、数学書と言うよりかは、読み物的な感じで、スラスラと読み進めていただけるような内容だと思います。

 

それでは今回も最後まで聞いていただきありがとうございます。
このエピソードが役に立ったと思ったらTwitterなどで拡散していただけるとうれしいです。
また、ご意見・ご感想がある場合は、概要欄にリンクが貼ってあるはてなブログにお願いします。

 

ではまた次のエピソードでお会いしましょう。