MENU

3分でできる!散布図と回帰分析の作り方【やさしい統計学7】

更新日:6月22日

ビジネスパーソンのための優しい統計「第7回目」

ビジネスパーソンのためのやさしい統計学・第7回となります。今回は実際に、実務の中で二つの数字の間の関係を探索していく、これをエクセルでやるための散布図を書く方法や、回帰分析という分析手法の使い方をお伝えしたいと思います。

※YouTubeにて各シリーズ連載中!

2つの数字の間にある関係、たとえば店舗数と売上高だとか、プロモーション広告費用とそのセールスの伸び。いろんな場面で、ビジネスではある数字とある数字の関係性を分析していくことが少なくありません。

そして、これをExcelでやろうと思ったら、めちゃくちゃ簡単なんです。ぱっと皆さんの技にしていただきたいなと思うので、ぜひご覧ください!

実は、この回、元々エクセルで散布図を描画するっていうのを皆さんに紹介するつもりでいました。で、実際にやってみたんです。動画も撮って、ブログも書いてみたんですけど、そしたらなんと動画は3分で終わってしまった笑。

簡単すぎたんですね。

これだけだと拍子抜けかなということで、今回は皆さんに回帰分析までお伝えしたいと思います。怖くないですよ~笑、簡単にできます!

裏を返せば、散布図を書く方法はここから3分も見ていただければ、もう皆さんも使えるようになります。ぜひ皆さんの武器にしていただきたいなと思います!

目次

散布図と回帰分析とは

回帰分析または散布図ってどういうものか、まずサンプルをお見せします。

点の散らばりが、散布図です。2つの数値の関係を、何らかのパラメータで表現するというのは実はかなり難しい。相関係数という手法はあるにはあるんですけど、これだけだと、なかなか実際の散らばり具合がわからない。なので、散布図を実際に書いて見てみることを、私は強くお勧めします。

で、散布図にこうデータを散らばらした上で、おしなべて言えばどういう関係があるのか、直線で点の散らばりの真ん中を行く線を引いてみましょうっていうのが、回帰分析なんですね。

この回帰分析というのは、学者が最もよく使う統計手法であります。学者がやる仕事の多くは、文系、理系問わず、何をしたら何が起こるのか、というAとBの関係の検証だからです。病気の治った度合いと、薬の効きを調べてみるだとか、あるいは企業の売り上げと何が関係しているのか、というように、2つの数の関係を調べてみるとなったときに、回帰分析というのが最も有効なわけです。

証券アナリストさんですとか、いろんなアナリストさんあるいはストラテジストさん、コンサルさんが使うのもこれですし、そしてもちろん現場実務で働いてる皆さんにおかれましても、どんな仕事をやるにおいても、この回帰分析というのは本当に力になります。なぜなのか。

回帰分析というのは、下図のように、数式で表現できるんですよ。

数式のこと、嫌いにならないでください。

この数式が出せることが、めちゃくちゃポイント高いんです。この2つの数の間に、具体的にどういう関係があるかを、式で表せている。これ、広告投資額と売上高の関係の散布図&回帰分析の結果です。つまりは、広告投資の費用対効果が計算できているわけです。

これは本当に大きいことです。

結果の見えない費用にせず、出費に対してどれだけのリターンがあるかという「投資」にできている。広告投資が、Return on Investment = ROIの概念で測定可能になるんです。この数式に基づけば、広告を100万円投資したならば、1.1647という係数がかかっていますから、それはすなわち、おしなべて116.47万円のリターンが返ってくる。だとすれば、さし当たっては、この投資リターンが天井にぶつかるまでは、広告投資を伸ばしていけば、どんどんどんどんリターンが返ってくるんだということがわかるわけじゃないですか。

また、この数式では、切片(定数項)が184.93と出ている。これはX(広告投資)が0のときにY(売上高)が184.93になるということを意味しているわけで、数式上は、一切広告投資をしなくても、184.93万円の売り上げはあるんだということになるわけです。

このように、数量的な関係として、何かをどれくらいやったらどれくらいのリターンが返ってくるかが見える。結果として、スペンディング(Spending)=費用ではなくて、インベストメント(Investment)=投資にできる。これは、経営上、とても大きいことです。そのきっかけを作ってくれるのが、回帰分析なんです。

だから、学者も、アナリストも、現場実務でも、回帰分析が最有力手法として使われるんです。

散布図と回帰分析の作成方法

それでは、ぱっと散布図が使えるようになってしまいましょう。そしてそこから一気呵成に回帰分析まで行ってしまいましょう。

エクセルで散布図と書きましたけど、本当に簡単なんです。2列用意すればいいんです。この数字とこの数字の関係を調べてみたいなと思ったら、左がx軸になります右側がY軸になります。XYの順番に縦に2列揃えてあげる。

もちろんこれがずれてしまったら駄目ですよ。縦の関係をきちんと揃えた上で、2列の範囲をドラッグしてください。そして、Excelの上の方の部分に「挿入」というボタンがあります。これはグラフを挿入したり、数式を挿入したり、いろんなものをセルや画面内に挿入するボタンです。

そして「挿入」を見ると、グラフの一覧が皆さんの目につくはずです。これを選択すると、その中に様々なグラフの候補が出てくるので、そこから散布図っぽいものを見つける。で、あなたが左クリックを押すよりも早くExcelがぱっと描画してくれます

はいもう散布図はできてしまった。散布図の作り方、のセクションを読み始めてから、3分かかってないんじゃないかと思います。1分半ぐらい?

ここまでが散布図の説明。で、ここから回帰分析もあっという間なんです。ただここはね、知ってないと、どうやっていいのかわからなくなってしまうし、私もしょっちゅう忘れてしまいます(マイクロソフトさん改善どころだよ、この操作)。まずやることは、散布図の中の、点、ポツポツ散らばっている各点のどれでもいい、どれか一つを右クリックするんですね。これは知らないとわかんないですね

でも知っていれば簡単です。右クリックをしていただくと、ぱっと「この点に対してどういう操作を行いますか」というのが出てくるので、その一番下のところにある近似曲線の追加というものを選んでいただく。はい、そんなわけで、これも、もうできてしまうんですよ。

こんな感じで、この散布図の中に近似曲線という名前で、この回帰直線というものが登場してくるわけです。「曲線」で回帰直線が出せるの?という疑問は持たなくてよいです。私もなんでなのか、よく知りません。とはいえ曲線という名前のように、実はこれを曲線で回帰することなんかもできるので、そこは皆さんで自由にいじってみるといいです。怖いことは起こらないので、ここから先は自由にいじるのが吉。そうやって使って覚える!

あとは、この直線、どういう数式になっているか、ですね。回帰直線を書くと、右側にいろいろ操作項目がニュッと出てきたと思います。その操作項目一覧の、一番下の部分に「グラフに数式を表示する」というボタンと「グラフにR2乗値を表示する」というのがあります。

「R2乗値ってなんやねん」ってのは、ひとまず置いておいて、この二つをクリックしていただくと、あなたのこのグラフ中にぱっと数式が登場します。

というわけで、それを実行してみた結果がこんな感じです。ちなみに、皆さんのお手元で実行するとこんなデカデカと表示させずに、非常に小さい文字で表示されます。

ここも、マイクロソフトさん、改善どころですよ!「あんな小さい文字、誰も読めんがな!」ということを言っておきつつ、フォントを大きくすると、ぱっと見やすい大きい文字が出てまいります。というわけで数式が出てきまして、先ほど私が言ったこのXとYの間に、こういう数字上の関係があるんだなあということが再現できるわけです。

ちなみにもし皆さんが、再現してみたい、これやってみたいなと思ったら、このサンプルデータをAPSのウェブサイトに置いてあります(YouTube「やさビ」のところをさがしてみてください)。皆さんのお手元でもちょっといじってみることはできます。ぜひ経験を積むためにやってもらうのもよろしいんじゃないかなと思います。

R2乗とは何なのか?

今回の講義の最後には、このR2乗が何なのかという話をしておきたいと思います。先ほどの分析では、R2乗は0.41ぐらいという数字が出てまいりましたが、このR2乗って何なのか、これを知っておくと更にあなたの統計力はもう1レベルアップします。

R2乗というのは学者とかデータサイエンティストは、かっこつけて、アールスクエア、とか呼びます。これは決定係数と日本語で言われる指標です。

決定係数というのは、Yの散らばりの全てを100%説明できるとして、そのうちの何%までがXによって説明できているのか、その割合を示したものが決定係数というものです。

ちなみに、自然科学分野においては決定係数というのは80%90%に達することもあります。物理現象みたいなものっていうのは、仮説の通りに実行して、仮説が合っていれば、ほとんど100%に近い確率でアールスクエアというものが出てくるんです。

ただし社会現象(社会科学)、特に経営みたいな、森羅万象が作用する世界では、Rスクエアというのは0.3や0.40はかなり高い数字だと見ることができます。(めっちゃ重要)

話を戻しますが、先ほどの直線はRスクエアが0.41ぐらいということで、Xのばらつき、売上高のばらつきのうち、広告投資額によって40%までが説明できているんだということになるわけです。

ですからこれも皆さん感触として掴んでおいてください。先ほど皆さん散布図を見て、明確に右肩上がりだと、確かに広告投資をすれば売上高が伸びる、という関係を目の当たりにしたと思いますけど、あれくらい人間の目ではっきり見て取れるような関わり合いというのがRスクエアで表現すると、せいぜい0.4ぐらいにしかなっていないんだということです。

経営とか経済の現象について言えば、Rスクエアが0.3~0.4あると言えば、かなり高いです。0.2を超えたら、もう私達学者は、これは明確な関係があるな、というふうに見るようにしています。

ということで、このRスクエアという値を知っておけばもう一つ皆さんの武器になると思いませんか?このRスケールが0.2/0.3/0.4くらいあると、どうやらこのXの値、この原因変数というものがこのYの値に影響を与えてそうだなということが言えるようになるし、逆に、ふわっと散らばっていて直線回帰と確かに線が書かれているんだけども、Rスクエアが0.05とか0.03という数字だったとしたら、ほとんどここには関係はないのだということになるわけです。

というわけで!エクセルで回帰分析だとか、散布図やるって、めちゃくちゃ簡単なんですそれでいて、この分析の効果は経営上、大きい。結局、学者にしたってデータサイエンティストにしたって、この回帰分析を使って分析をしているんだということで、ぜひ皆さんも技にしていただきたいなと思うんです。

この回帰分析が使えれば、広告投資と売り上げの関係がわかる。給料アップと離職率との関係がわかる。検査時間と不良検出率の関係なんてものもわかる。すなわち製造の場でも人事の場でも、マーケティングの場でも様々な局面において、二つの数字の間の関係を明らかにできるようになるわけです。

ぜひ、あなたの力にしてください!

著者・監修者

新着記事

  • URLをコピーしました!

コメント

コメントする

CAPTCHA


目次