MENU

データの「真ん中」平均値・中央値・最頻値【やさしい統計学2】

データの「真ん中」を知る:平均値、中央値、最頻値【やさしい統計学2】

現代のビジネスパーソンに必要なのは、高度な統計分析ではなく、基本的な統計学。このコンセプトのもとに進めている連載、第2回目です。

今回は、データの真ん中を知ろうということで、平均値中央値最頻値という三つの概念について解説したいと思います。

この講義を通じて何を言いたいかというと、結局、初歩的なデータの真ん中を知るっていうのが、現代のデータ分析においても、やっぱり一番大切だということです。

実例に沿ってお話をしましょう。

あなたは、全国コーヒーチェーンのマーケティングマネージャーに選ばれました。

全国に1000店舗あるコーヒーチェーンのマーケティングマネージャーです。

で、「うちの会社の店舗売り上げをそれぞれ2倍にしてほしい。5年で達成してくれ」。そんな感じのミッションを受け持ったとしましょう。

このとき、あなたは、どういうデータから見るか。

自分なりに、考えてみてもらえませんか?

***

まず一番最初に知る必要があることは、そもそも今どんくらい売れてんねんですよね。てことで、店舗の売上情報。それから、どういうお客さんが入ってるの、という顧客データ。どんな商品の売れ行きなのか、商品別売上高。お客さんはお一人、おいくらぐらい払っているのか:客単価滞在時間はどのくらいなのか。時間帯としていつ頃売れているのか(時間帯別売上高)、顧客はどのくらい満足してるのか(顧客満足度)。

そして、これらのことに関する、競合さんのデータとか。

  • 店舗売上情報 
  • 顧客層データ
  • 商品別売上高
  • 客単価
  • 滞在時間
  • 時間帯別売上高
  • 顧客満足度
  • 競合データ

その他にもいろいろ挙げていただいたんじゃないかと思います。

私が言いたいこと、分かりましたか?

いきなり高度な統計解析、しないでしょ

AIを作ったりもしないでしょ

まず基本的な現状理解からじゃないですか。

統計学(データサイエンス)の仕事は、データの可読性を高めることです。

可読性を高めるうえでは、まず基礎的な平均などの統計量。

もっと可読性を高めたいというときに、より高度な回帰分析をしたりとか、あるいはAIを作ったりする。

統計・データサイエンス関連の仕事は、本当に、単純集計を丁寧に出して、その解釈をするところまでで半分以上を占めます。

みなさんが挙げてくれたような数字を正しく把握できた時点で、もう統計分析の半分以上が終わっているんです。大切なことはほぼ集計でわかるんです。

そして、私が先ほどから「半分は終わっている」という表現をするのにも学術的に明確な理由がありまして、統計学というのは実は大きく記述統計と推測統計という二つのものに分かれているんです。で、ここまで見てきた基本的な集計結果を出しましょう、というのが、まさにそのうちの一方、記述統計というものに該当する

統計学には大きく2種類がある。

これすごく重要なポイントです。

目次

記述統計

記述統計とは、母集団の基本的な特徴を把握するための計量的な分析のことです。

人間が理解できる形で、データが持っている基本的特徴を、チェックする。

例えばですよ、内閣支持率。これは記述統計です。国民の何%が支持しているか。

あるいは日経平均株価。

コロナ感染者数。

あるいはその罹患者が平均何歳か。

調査対象とした集団(ざっくり、これを母集団(ぼしゅうだん)と言います)の基本的な特徴。

私たちがニュースで見るのはもっぱらこの記述統計です。

集団がいまこういう状態になっている、ということがあって初めて、次のステップ:その集団の中でのいくつかの変数の関係がどうなってるかとかが問われる。

推測統計

推測統計は、まさに様々な数値の背後にある因果関係だとか、相関関係、あるいは限られたデータから母集団の特徴を推定していく、といった「数値間の関わり合い」を推測するための計量的な分析のことです。データの中に隠された心の関係だとか真の値ということを探っていくというものです。

学者と呼ばれるひとが行う仕事は専らこちらになる。データの背後にある隠れた因果を探っていく。データサイエンスという言葉でもてはやされてるのは、こちらの推測統計。

けれども、推測統計というものは、記述統計のベースがあってこそ。

内閣支持率は何%っていうデータがあってこそ、その次に、内閣支持率に影響を与えているのは何なのか?という因果関係などの推測が意味をもつわけです。

だとすれば、とにかく統計の基盤になってくるのは、記述統計をしっかりすることデータが示す実態を正しく理解できることです。

データの真ん中を知る

全ての起点全ての始まりとして、顧客満足度とか内閣支持率とかそういったデータをとったときに、その散らばりがどこを中心に散らばっているのか、このデータの真ん中を知るっていうのが、そのデータの構造を知る第一歩です。

例えば、コーヒーチェーンのマーケティングマネージャーとしてあなたが就任したとして、ちょっと客単価を分析してみようかな、と思ったとする。お客さんって、店舗に来店してどれくらいお金落としてんのかというのを、縦軸に観測頻度をとって分析してみると、上手のような山なりのグラフが得られたとします。

このとき、データの中心を指し示す値には3種類あります。

平均値、中央値、最頻値

この3種類の真ん中の概念を組み合わせ、すり合わせていくと、あなたはこのデータの実態が、だんだんとつかめてきます。

平均値について

平均値の定義について、あえてここで説明する必要はないと思うので省きます。というか、定義を正確に言うとすると、逆に良く分かんなくなる。

要素の和を要素数で割ったもの。

なんのこっちゃ、でしょ?

そうなんです。じつは私たち、なんのこっちゃというような数値を、疑いなくデータの真ん中として使ってしまっている。

いや、正しいんですよ、平均値で正しいんです(強調)。でも、1)なんで正しいのかということを、普段はちゃんと考えずに使っており、2)これだけではデータの真ん中としてはいささか心許ないという事実に気づかずに使っている。

定義を要約して、こう書き換えると分かる。「1人(1件)あたりの数値」を測定している。と。年間所得は0万円から数十億円まで散らばっているけど、おしなべて国民1人あたりで計算すれば、450万円位だという数値。これが平均です。

この数値は母集団の特徴を知る上ではとても役に立つ。だけども、これだけだと、0万円のひとが何人いるかとか、数十億を稼ぎ出す人もいるなかで、1人当たりの数字が引っ張られているのではないかという疑問にこたえられない。

平均が一番大切なのは間違いないけど、平均だけじゃ駄目なんだということが、分かってくるはずです。

ただし、平均じゃ駄目だとか、平均に騙されるな、みたいなことをよく言いますけれども、そんなことはないです。まずは平均を見る、で間違いないです。

平均は、多くの状況においては、これだけで用が足ります。例えばコーヒーチェーンで、客単価の平均値が800円でした、となったらお客さんはおしなべていろんな購買の仕方をしてるけども、真ん中をとってみればだいたい800円ぐらいなんだなと、この感覚が大切。

「だいたい掴めた」が、この数字で得られるわけで、とても便利なのです。

そのうえで、これだけで決めつけない。

他の、残り二つを併用することで、データを多面的にみて、実態を理解していく。それが大切な考え方です。

中央値について。

実は、定義的にはこっちの方がずっと平均値よりシンプルです。

中央値というのは、数値の高いものから順に最下位まで並べたときに、ちょうど順位が50%、真ん中だった数値です。

客単価は、1人当たり1万円を超えるようなのギフトをあわせて買う人もいれば、1回来て、割引チケットなんか使ってコーヒー1杯100円とかで飲んで帰るお客様もいる。

その真ん中はお幾らぐらいなのか?

というのが「中央値」を見ていく。

通常こういったマーケティングデータにおいては安く買う人ってのが多いんです。

クーポンなんか使って100円150円で長居をされるお客様というのも、大切なお客様だけなんですけども、そういう人たちがたくさんいるのでこの下位の人が多くて、一方で1万円から8000円と使っていくというのは少ないので、真ん中を取ってみると、平均値よりも中央値は低めに出る。

この中央値が何を意味しているのか?というと、結局、うちのお店に来店いただいた来店者様の購買行動の真ん中なわけで、リアルな、人々の「行動ベースで見た時の、多様な姿がある中での、上でも下でもない、中位のかたち」だといえることになりますね。

めちゃくちゃ買ってくださる方もいれば、クーポン使って安く過ごされる方もいらっしゃる中で、ちょうど50%真ん中ぐらいの人っていうのは、600円ぐらいでサンドイッチのセットを買ってくださる人なんだよねと、こういうのが見えてくるわけです。

中央値が平均値とずれる理由がポイントです。

平均値は、800円。そして中央値は、600円。

高額で買ってくれるお客様が多いので、平均値が中央値からちょっと引っ張られているということになるわけです。

中央値は、お客様の行動の真ん中です。

いろいろお客様がいる中で50%、ほぼ真ん中あたりのお客さんっていうのは、サンドイッチセットを買う人なんだけども、1万円のギフトとかを買ってくださる方がいるので平均値は上に引っ張られているわけです。

このようにして平均だけではなくて中央値も合わせて見ることによって何が起こってるのかがリアルにあなたの中でつかめてくるわけです。

最頻値について

最頻値は、最も多く観測された数字のことです。

山なりのグラフがあったならばこの山なりの一番ピークの部分が、最頻値です。

例えば、クーポンを使ってコーヒーを一杯150円で飲まれるお客さんが実はすごく多い場合、最頻値は150円だということになるわけです。

というわけで、この最頻値を見ると、さらに一層コーヒーチェーンのオーナーとしての理解が深まってきます。

3つを総合して「一般的な購買行動」を考える

全てのお客様の中央値としては、サンドイッチで600円のセットを買う人。

ものすごく多くのお客さん最頻値は、150円のコーヒー一杯をクーポンで飲む人。がすごく多いと。

でも、一方で高級品のギフトとかを買ってくださる人もいるから全てのお客様の客単価を平均値にすると、結構上に引っ張られる。

平均値、中央値、最頻値、この3種類の数値を見てみるとこの会社の実態が平均だけを使ったときよりも、よりよく見えてくると思いませんか?

そしてこの3つの全部があることが大切です。

・最頻値だけでも駄目

・中央値だけでも駄目

・平均値だけでも詳しくはわからない

3つのデータがあることによって、この会社のお客さんの購買行動が、見えてくるわけなんです。

データを知って戦略を立てる

そんなわけでここまでの話が、技術統計として最も大切な「データの真ん中を知る」という話です。

しかし、ビジネスパーソンとしての統計学はこれで終わりじゃありません。

大切なことはこのデータを受け止めた上で、あなたならどういう戦略を立てますか?

これが大切なんです。

データは実態を教えてくれるだけです。

あなたがそこから戦略を立てて初めて統計というものは機能します。

戦略を立ててみる

もう1回繰り返しデータを紹介するので、データを見ながらコーヒーチェーン店の実態をイメージしながらあなたの頭の中で売上を2倍にする戦略を立ててみてください。

客単価のデータから3つのことがわかってきました。

最頻値、一番よく売れているのは、コーヒー単品で150円で売れているという実態。

中央値、お店に来てくださるお客さんのちょうど真ん中というのは、コーヒーとサンドイッチのセットで600円ぐらいで食べてくださるお客さんという実態。

平均値、万円から8000円ならギフトを買ってくださる上位に引っ張られ平均値の方が中央値よりも100円200円高くなって800円ぐらいという実態。

売上を2倍にする戦略の一例を紹介します。

最頻値としてはこのコーヒー単品150円クーポン使ってという方が多いんだとしたら、このコーヒー単品ばっかりが馬鹿売れしていても、このままでは限界があるよねと。150円を仮に5円アップ10円アップしたところでインパクトが知れてる。

だとしたら、クーポンを工夫して、コーヒー単品ではなくて、それにプラスサンドイッチをつけて250円とかにしたら、この最頻値値がちょっとずれてくるかもしれないと考えられます。というように、150円でコーヒー単品が馬鹿売れてるという実態を目の当たりにしたら、それに対してテコ入れをして、客単価を高めていくという一つの案が出てくるわけです。

それから中央値、コーヒーとサンド600円のセットがちょうど真ん中なんだよなということで言いますと、ここのところが勝負どころだよねと考えます。

これをもうちょっと上にスライドさせたり、ここのところ分厚くできればと考えて、イートインメニューを充実させる、サンドイッチメニューを充実させることによって、中央値付近をもうより分厚く、かつちょっとずつ単価を上げていくことができたならば、この会社の売上アップに貢献できるでしょう。

それから平均値、ギフトとか買ってくださる方も結構いるから、平均悪くないんだなってことが見えてきた。

お客さんたちが150円ぐらいで買ってくださる方も多いのに、平均だと800円、結構ギフトの需要があるんだなってことがここで見えてくる。今後のことを考えたら、お歳暮にしていただいたりだとか、ギフトをしっかり伸ばしていくという作戦も立つ。

データを知って戦略を立てる

データをもとに考え作戦を立てるのは、あなたの仕事データは、それを支えてくれる実態理解を提供してくれることになるわけです。

というわけで、こんにちの時代を生き抜くためのビジネスパーソンのための優しい等計画ポイントを掴んでいただけたでしょうか?この統計の基本とされるような平均値だとか中央値だとか、そのあたりを押さえていくっていうのがやっぱり第一歩なんですね。

こんにち一番大切なデータの理解というのは、このデータの真ん中を知るというところからスタートするわけなんです。

そして大切な事なんでもう1回繰り返します。

その上で、データはここから先何をすればいいのかという答えまでは与えてくれない。

ぜひ皆さん、このデータを基にそこからどう戦略を立てるのか、そこのところの力をも含めて、学びを深めていただけたらと願っています。

著者・監修者

本気のMBA短期集中講座

新着記事

  • URLをコピーしました!

コメント

コメントする

CAPTCHA


目次