MENU

「ベイズの公式」は強力なツール【やさしい統計学10】

更新日:6月24日

広告効果は何%?!「ベイズの公式」は強力なビジネスツール【やさしい統計学10】

ビジネスパーソンのためのやさしい統計学「第10回目」

※YouTubeにて各シリーズ連載中

中川先生のやさしいビジネス研究。ビジネスパーソンのためのやさしい統計と言いつつ、今回はちょっと難しいです。でも、めちゃくちゃ皆さんにとって役に立つ手法なので、ちょっと難しいけど、ぜひ知ってほしいので、やります。

目次

ベイズの公式

今回やるのは、ベイズの公式というもの。これはものごとの「確率」に関する話です。

簡単に言うなら、たとえばeコマースをしていたとして、ウェブサイトを訪れた人が

10%購入、90%未購入

というのが昨年までの実績だとします。で、直近、購入特典を付けてみた。その結果、買ってくれる人が増えた。ので、改めてそれを踏まえて結果を更新してみると、購入特典の利用者に限ると、

18%購入、82%未購入

になっている。購入特典の結果、購入率が8%アップした!という計算のための方法です。

元々の確率 → 何か、実施してみた → 結果の確率はどのくらい変わるか?

これを調べるための方法。

ビジネスの事象は、何でも大体、この構造ですね。だとすると、非常に応用範囲の広い分析手法だということになります。

でも、少しだけ高度な議論になるので、普段は、使われません。

そういうものを使えるかどうかが、ビジネス能力の分かれ目ではありませんか?

ちょっと皆さんも自分のビジネスで考えてみてください。皆さんの現場にはどういう確率の問題が存在しているでしょうか?

確率の変化問題①通常の効果測定

最初にお話するのは、ベイズの公式を使わなくてもいい状況です。使わなくていい場合が、半分あります。残り半分が、ベイズの公式にお世話になる状況です。

ベイズの公式を使わなくていい状況というのは、原因と結果の関係が一目瞭然のとき。「新しいWeb広告を実施した結果、サイト訪問者の購入率上がりましたか?」というのは、全部、インターネットでトラッキングが可能なわけです。Webサイトに訪問した人のうち、広告からクリックしてきた人っていうのは何人います、というデータが取れるわけですよ。さらに、この人たちのうち何人が購入しましたか、というデータもあるので、この場合は全然難しくない。

全く、難しいことはないですよね。

全てのウェブサイト来訪者について、どの広告をみて来訪したか、そして最終的に購入に至ったのかのデータが完備されていれば、新しいウェブ広告の効果は一目瞭然です。

そして、効果が〇%と計算できれば、費用対効果が測定できる。引き続き広告を打っていくべきか、の判断が容易にできるわけです。

なぜ、簡単に効果が測定できるのか。その理由をあえて論理的に突き詰めると、

「原因」の違いに応じた、「結果」のデータが手に入っている

ということになります。この点が本日のポイントです。

一見すると、当たり前のように思われるかもしれません。しかし、実は企業経営などで手に入るデータというのは、こういう構造になっていないことも多いんです。すなわち、「結果」の違いに応じた、「原因」のデータが手に入っているという状況が、実は多々ある。そうした状況で力を発揮するのが、ベイズの公式なのです。

確率の変化問題②ベイズの公式を使うべきとき

典型的には、こういう状況です。

「サブスクリプション型のサービスをしていて、1人1人のお客様がサブスクリプションを今季も継続してくださったか、今季で離脱してしまったかのデータがある(結果のデータがあるわけです)。で、このサブスクの継続・離脱に影響している要因を検討したい。顧客一人一人が、どういうサービスを利用しているのかっていうデータも別途ある。たとえば、先月から導入した新しいサービスを、利用してもらえたかどうか。この新サービスの利用有無が、サブスクの継続率にどれくらい影響したのか、というのを分析したい。

これが、「結果の違いに応じた、原因のデータが存在している」状態です。

皆さんも、以降の話を自分ごととして考えるために、「結果は見えている。原因のデータも存在しているが、どれがどのくらい影響しているか、分からない」という状況が、どういう状況か、自分の仕事の中で考えてみてください。

今回は仮にこういうデータでいきましょう(上図)。従来の継続率は、90%程度。大体10%ぐらい離脱してしまうということがわかっている。で、今、私達はサブスクを継続された人のデータと、サブスクを継続しなかった人のデータをそれぞれに持っている。そして、先月から導入した新サービスを利用したかどうかというのも、Web上のトラッキング記録として残っている。こういう状態です。

「結果に応じた原因」のデータだということを再確認してください。サブスクを継続している人々のうち、新サービスを利用した人は70%。使ってない人は30%。また、サブスクを離脱された方の場合で言うと、50%の方だけが新サービスを利用していました。これを見るだけでも、なんとなく「新サービスは効果があったんだな」とは思うと思います。

ベイズの公式を使えば、新サービスの効果は何%なのかを、ここから計算することができます。従来の継続率90%から、どれくらい改善したかが、このデータがあれば、できちゃうんです。そんな魔法のような手法が、ベイズ公式です。

ベイズの公式 条件整理

ベイズの公式を使うのは、結果が分かっているサンプルに対して、原因のデータが存在している時です。こうやって書かれても、何のことやら分からないですよね。

でも、実は様々な場面で、ベイズの公式を使うべきデータになっていることは多いのです。

サブスクを継続したかどうかというデータがあり、継続した人が新サービスを使ってくださった方は何%、辞めた方のうち新サービスを使った方は何%という状況。

例えば研修をしたとき。研修というのは原因なわけですが、通常、それとは別に職務パフォーマンスのデータが結果として手に入っている。パフォーマンスの高い従業員と、パフォーマンスが低い従業員で、それぞれ何割の方が研修を利用したか、というデータ構造になっていたりする。

あるいはアフターサービスと顧客満足度の関係。お客さんのデータがあって、満足していらっしゃるお客さんと満足しなかったお客さんという結果のデータがまずある。そして、うちの会社のアフターサービスを利用してくださった人が、それぞれ何%かというデータがあったりする。

ベイズの公式は、原因・結果構造をひっくり返す技

ちょっとだけ、統計学の公式といいますか、固有の表記を使うことを許してください。Bである場合に、Aが生じる確率を、P(A|B)というふうに表現します

このP(A|B)を、P(B|A)にひっくり返すのがベイズの公式。先ほどまで言っていた「原因」「結果」というのをそれぞれA、Bにあてはめてください。原因Aに応じて結果Bがどうなるのか:P(B|A)を知りたいのに、現状のデータは結果Bに応じた原因Aの割合:P(A|B)が求まっている。

ベイズの公式はこちら!

式自体はそんなに難しいものではありません。なんなら発想自体は小学校で習う手法であって、数学的にも中学生ぐらいで習ってしまうものです。非常にシンプルな技術で作られた公式です。しかしこれが、統計の歴史において革命的なインパクトを持った。その理由はまた別の記事/動画で説明したいと思いますが、ここでは、原因と結果がひっくり返すというのが、単純にビジネス現場でもしょっちゅう必要になって、それを可能にしているのがベイズの公式なんだという理解で十分。それだけでも十分に価値のあることですね。

単に公式としてではなくて、頭の中でこれが何を意味しているのかを理解しようとすると、すっと腹落ちできると思います。

(式の解釈を飛ばしたい人は次の大項目まで進んでください!)

まず分母を見ていきたいんですけども、分母の左側、P(A|B)×P(B)なんですけど、これが何か。P(B)が何なのかから、今回の例に沿って、考えてみましょう。

P(B)は、「サブスクを継続しているという結果の割合」ですね。全体におけるサブスクを継続している人の割合は、0.9ですね。この数字が入るわけです。

一方、このP(A|B)というのは何なのかといえば、「サブスクを継続している人のうちで新サービスを利用した人の割合」です。先ほどの表にある、0.7です。

で、ここから計算を始めるまえに、この掛け算の意味を考える。「昨季までの全てのサブスク会員のうち、今季も継続している人が0.9」「そのうちの新サービスを利用した人の割合が0.7」なので、この0.9と0.7を掛け合わせた0.63という数字は「昨季の全てのサブスク会員に占める、サブスクを継続し、かつ新サービスを利用した人の割合」を求めたことになります。

この公式が、何をやろうとしてるのか、少し見えてきたでしょうか。次に、分母の右側も見てみる。今度はBの上にcマークがついていますが、Bcというのは、「B以外の全ての事象」という意味です。今回の場合は「サブスクを辞める」ですね。ですからP(Bc)というのは、離脱割合、0.1となります。

で、P(A|Bc)とは、「サブスクを辞めた人の中で新サービスを使っていた人の割合」なので、0.5となります。

今度はこの2つの数の掛け算。求まる数値は「昨季までの全サブスク会員のうちで、今季サブスクを辞めた人で、新サービスを使った人の割合」です。これが0.1×0.5=0.05となる。全体のうちの5%がこういう人に該当する。

この5%と63%を足し合わせた、68%は何を意味しているか?分かりますでしょうか?

昨季までのサブスク会員のうちで「新サービスを使った人の割合」です。辞めた人、継続した人、あわせてどれくらいの人が新サービスを使ったのか、がここから求まるのです。

分子の方は何なのかというと、これは分母の左側と同じです。…つまりは、この式は。

昨季までのサブスク会員で、新サービスを利用した人全体を分母とし、そのうちサブスクを継続した人が、どれくらいの割合になるのか、を計算しているわけです。

ひっくり返りましたね、AとBが。

P(B|A)が、求まっています。

計算してみましょ!

0.63 ÷ 0.68 = 0.926

新サービス利用者の継続率は、92.6%になっています。

2.6%、改善したんです!

どうでしょうか、理屈で考えれば当たり前ですが、魔法のように数字が出てくるのが、個人的にはけっこう感動的です笑。

このベイズの公式を使えば、「先ほど、なんとなく効果があるかな」とだけ思っていたものが、バチッと2.6%の改善という数字が出てきてしまうんだから、ビジネスに使わない手はないじゃないですか。

数字がわかれば、これだけ投資をすればこれだけのリターンが返ってくる。投資にすることができます。

そんなわけで、私が思うに、ベイズの公式はもっといろんな場面で使われるべきです。

もう1回プッシュしておきますよ。例えば研修ハイパフォーマンスさんとパフォーマーさんがあなたの人事データであるとして、研修を受けたいと受けてない人もありそれぞれまとまっていれば、これを入れ替えれば、この研修をやると何%ぐらいパフォーマンス改善にインパクトがあるのかが見えてくる。会社に、研修の意義を主張できる。

あなたの顧客名簿データで顧客の満足度の高い人・低い人がいるとして、アフターサービスを使った・使ってないというデータがある。これを使えば、アフターサービスがどれくらい顧客満足度に影響しているかがわかる。会社に、アフターサービスの意義を明確に数字で主張できる。

どうか、皆さんにはこのベイズの公式というものを、あなたのビジネスを力に変えていただきたいと願っております。

そして、このベイズの公式の今のひっくり返しは統計学に革命的なインパクトをもたらしたと言いましたが、それが何なのか、ひいてはそれがAIや機械学習という現代社会の基本エンジンの一つになり変わっているなんて話は、次回以降に説明していきたいと思います!

著者・監修者

本気のMBA短期集中講座

新着記事

  • URLをコピーしました!

コメント

コメントする

CAPTCHA


目次