不動産鑑定士が不動産実務に役に立つ情報(TIPS)を綴ります

不動産実務TIPS

ツール

ヒストグラム(度数分布図)の階級の幅・データ区間の決め方

更新日:



先日、エクセルでのヒストグラムの作り方(描き方)についての記事を書きましたが、その続きとして階級幅の決め方を説明したいと思います。

参考 エクセル(EXCEL)でヒストグラム(度数分布図)を作成してみる

素材は先日使った、八王子市長房町の土地取引における面積(土地の大きさ)のデータです。住宅地の標準的な面積はどのくらいかを分析しました。

このときは直感で階級幅を区切ったのですが、もう少し論理的な階級の幅の設定の仕方を説明したいと思います。

エクセルで描いたヒストグラムのグラフ

階級の幅の設定によってグラフはどのように変わる?

まずは階級が適正でない場合にグラフがどのようになるのか直感的に理解していただきましょう。

階級が少なすぎる場合

階級幅を100、階級を4つとしてみました。100~200の数字が突出しているのは分かりますが、グラフが雑すぎて細かい傾向が読み取りづらいです。

2016-10-17_19h28_26

階級が多すぎる場合

今度は階級幅を25、階級を19個としてみました。

度数の差が大きい100~200のあたりは細かい数字を読み取ることができ便利なのですが、200以降のグラフはほぼ数字が変わらないため、冗長な印象を受けます。

2016-10-17_19h28_45

階級の幅・データ区間はどのように決める?

階級幅の決め方には、簡易に求める方法スタージェスの式によって求める方法があります。どちらも一長一短ありますが、データの分布状況やグラフにしたときの見せ方などを考慮して決めるとよいと思います。

階級の幅の求め方

  • 簡易に求める方法
  • スタージェスの式

簡易に階級幅を求める方法

1.まずデータの最大値、最小値を見つける

全データの中から、最大値と最小値を探し出します。エクセルであれば、関数(最大値:max、最小値:min)を使えば簡単に見つけ出すことができます。今回は取引面積のデータを使用していますが、最大値と最小値は次のように求められました。

最大値 2,001平米
最小値 80平米

 

2.データを階級に分ける

最小値から最大値までのデータを、区切りのいい範囲を作り、その範囲を5~8程度に区切ります。この境界で仕切られているデータのグループを階級(class)と呼びます。

簡易に階級幅を求める方法ではだいたい5~8ぐらいに階級を分ければ問題ないと思います。例えば今回は8つの階級に分けることにします。

おおよそ、5~8ぐらいの階級に分ける

3.境界を計算する

最大値から最小値までのデータを先ほど分けた階級の8つに分けます。

(2001-80)÷8=240

一つの階級の幅は8つとなります。

最初は階級は0~80、次は80~320と最大値の2000まで240刻みで刻んでいきます。

4.度数をカウントする

各階級に入るデータ数を「度数」と呼びます。度数をカウントしましょう。

度数はエクセルの分析ツールで簡単に数えることができます。前の記事を参考にしてください。

参考 エクセル(EXCEL)でヒストグラム(度数分布図)を作成してみる

5.度数分布表を作成する

ではヒストグラフをグラフにしてみましょう。

2016-10-17_19h53_24

???!

分かりづらいですね。最小値と最大値から単純に階級幅を決める方法では、偏りが大きいときにはこのように、非常に見づらいグラフになりがちです。

どの幅にデータが多いか(今回なら100~200)が分かっている場合は、その範囲を重点的に階級幅を設定してあげないと、このようなグラフになってしまいますね。

また、計算により240を階級幅としていますが、これも200や250などの、区切りのいい数字にしてあげることが必要です。今回はわざと240としてヒストグラフを作成してみました。

スポンサーリンク

では、次の方法にうつりましょう。スタージェスの式です。

スタージェスの式を用いて階級の幅を決める

公式を先に示します。

スタージェスの式

求めたい階級の数を”k”、データ数を”N”と表記しています。

データ数に底を2とする対数をとることで求めたい階級の数”k”が計算で出てきます。

手計算では難しいのでエクセルの式を記載します。

=LOG( <数値> , <底> )

”底”は2なので、数字は固定です。数値はデータ数の”N”を入れてください。参考までにどのくらいのデータの数で、階級幅が適正なのかを表にしてみました。

データの数(N)205010020050010005000
階級の数(k)467891012

4つは少なすぎるし、20は多すぎるっていうのは何となく分かると思います。今回のデータ数は100なので、スタージェスの式によると7の階級(class)に分けるのが適当だと分かります。

階級数を決めれば、あとは先ほどの方法によりヒストグラムを作っていきます。

まとめ

階級幅をどのように設定するのかを説明してみました。しかしながら、スタージェスの式もあくまで目安に過ぎません。データのバラつきによってどの区間(階級)を細かく分析したいのか、などを考えたうえで階級値を設定することが大事です。

統計に興味をもちはじめたら、下の本はおススメです。冒頭に今回説明したヒストグラムのことも書かれています。

完全独習 統計学入門

完全独習 統計学入門

小島 寛之
1,944円(04/23 11:14時点)
発売日:2006/09/28
Amazonの情報を掲載しています

また、統計学の学習におススメの書籍の記事「初学者向け、統計学を学ぶための入門本・書籍 20選」も書いていますので、是非参考にしてみてください。

初学者向け、統計学を学ぶための入門本・書籍 20選

統計学を学びたいけど、どんな本を読んだら良いのか分からない。理論的な裏付けよりも実践的な統計分析をメインに学べるような本が欲しい。 そんな方は多いと思います。 今日はビジネスマン初学者向けの統計学・統 ...

続きを見る




PICK UP記事と広告



-ツール

Copyright© 不動産実務TIPS , 2018 All Rights Reserved Powered by AFFINGER4.