XLSTAT による箱ひげ図の作成:データのばらつきを可視化しよう
- 箱ひげ図とは?
- 箱ひげ図のメリット
- 箱ひげ図を作成するためのデータセット
- XLSTAT で箱ひげ図を作成する手順
- 結果の確認
- 箱ひげ図と散布図を重ねる(応用)
- 副標本ごとに散布図を作成する(応用)
- まとめ
- XLSTAT の無料トライアル
箱ひげ図とは?
箱ひげ図は、データの分布を視覚的に表現するためのグラフの一種です。特に、データのばらつきや中央値といった情報を一目で把握したいときに有効です。箱ひげ図は、その名の通り「箱」と「ひげ」で構成されており、それぞれの要素が以下の情報を表しています。
- 箱:
データの中央50%の範囲を表します。箱の下端が第一四分位数(Q1)、上端が第三四分位数(Q3)に対応し、箱の中央線が中央値になります。また、下記の図では赤い「+」が平均値を示しています。 - ひげ:
データの最小値と最大値を表します。ただし、極端に離れた値(外れ値)はひげから除外されることがあります。
箱ひげ図のメリット
箱ひげ図は一見するとシンプルなグラフですが、以下のようなメリットがあります。
-
データの分布を一目で把握できる
中央値、四分位数、最小値、最大値といった重要な統計量を同時に確認できます。
-
複数のデータセットの比較が容易
複数の箱ひげ図を並べることで、異なるグループ間の分布の違いを視覚的に比較できます。
- 外れ値の検出
ひげから外れた点が外れ値として視覚的に確認できます。
箱ひげ図を作成するためのデータセット
このページでは4つの製造装置(機械A~D)で生産された部品の寸法を記録したデータを使用します。
生産された部品の寸法の平均はいずれの機械も20 mm 程度で、どの機械で生産しても大きな差はないように見えます。もしあなたがこの工場の責任者でどの機械を導入するか検討している場合、このデータの平均値にだけ着目すると、より価格が安い機械を選択したくなるかもしれません。しかし、製造現場において、目標とする寸法の部品を安定的に生産するためには、平均値だけでなく、データのばらつきを考慮することが重要です。このような場面で役に立つのが冒頭にご紹介した箱ひげ図です。このページでは上記データを用いて、XLSTAT で箱ひげ図を作成する方法をご紹介します。
サンプルデータのダウンロードはこちらから
Box-Plot-Sample-Data.zipXLSTAT で箱ひげ図を作成する手順
-
XLSTAT を起動し、[データ可視化] > [単変量プロット] を選択します。
-
ダイアログボックスが表示されるので、下記項目を指定します。
- 量的データ:
数値データを選択。今回のデータであれば、B 列からE 列のデータを選択します。 - 変数ラベル:
列名を含めて量的データを選択した場合は、チェックを入れます。
- 量的データ:
-
[チャート(1)] > [チャート・タイプ] タブに切り替え、下記項目にチェックを入れます。
-
[チャート(1)] > [オプション] タブに切り替え、下記項目を指定します。
-
[OK] ボタンをクリックすると、グラフが別シート(Desc)に出力されます。
結果の確認
基本統計量
結果にはまず基本統計量が出力されます。基本統計量とは、収集したデータの基本的な特徴を表す値のことです。この表を見ることで、各変数ごとにデータ数、平均値、中央値、最小値、最大値、四分位数、データのばらつき(標準偏差、分散)などを確認することができます。
箱ひげ図
各機械のデータのばらつきを箱ひげ図で確認することができます。平均値(赤い十字)は概ね同じ位置にありますが、箱とひげを見比べてみると機械により大きく異なることがわかります。機械A は箱の面積が一番大きく、データのばらつきが大きいことを示しています。機械B は平均値にデータが集中していますが、一部のデータが外れ値として観測されています。機械C は箱の面積が一番小さく、基本統計量でも標準偏差が「0.423」と非常にばらつきが小さいです。
この結果をみると、一番安定的に部品を生産できるのは機械C という判断ができそうです。ここからさらに統計的仮説検定を実施することで、より正確に平均値を比較することが可能になります。
散布図
散布図では各データがプロットされています。四分位範囲が示されていませんが、分布の形状やデータの各位置について詳細な情報が可視化されています。
箱ひげ図と散布図を重ねる(応用)
XLSTAT では箱ひげ図と散布図は別々に表示されますが、以下のように画像を加工して両者を重ねて描くことで、情報を補完することも可能です。
上記重ねた図を作成する手順は以下の通りです。ここではPowerPoint 上で編集する方法をご紹介します。
-
XLSTAT の出力結果から箱ひげ図と散布図をコピーし、PowerPoint のスライドに貼り付けます
-
以下のように箱ひげ図と散布図を横並びに配置します
※ガイドライン(赤い点線)を確認して、上下の位置を合わせるようにする -
散布図のグラフエリアを選択後、[+] ボタンをクリックし、[軸] 以外の項目のチェックを外します。
-
散布図の枠を選択した状態で右クリックし、[プロットエリアの書式設定] を選択し、[塗りつぶしなし] を選択
-
プロットの色を変更する場合は、以下のようにグラフエリア上のプロットを選択した状態で右クリックし、[データ系列の書式設定] を選択します。
-
[マーカー] の項目を選択し、塗りつぶしと枠線の色を変更します。
箱ひげ図の箱の色も同様の手順で変更可能です。
-
最後に散布図を箱ひげ図の上にドラッグして、重ねます。
副標本ごとに散布図を作成する(応用)
はじめの事例では一種類の部品を生産していると仮定したデータで箱ひげ図を作成しましたが、以下のように各機械で複数の部品を生産している場合に部品ごとの箱ひげ図を作成することも可能です。下記データには各機械で生産された部品A と部品B の寸法が記録されています。
操作手順は通常の箱ひげ図の作成と同様ですが、データ選択時に[副標本:] の項目にチェックを入れ、部品の列を選択します。
そのほかの設定は通常の箱ひげ図と同じ内容で[OK] をクリックすると、以下のように部品ごとに箱ひげ図と散布図が出力されます。
まとめ
箱ひげ図は、データの分布を簡潔に表現し、多様な分析に役立つグラフです。データ分析の初期段階で、データの全体像を把握するために非常に有効なツールと言えるでしょう。XLSTAT を利用することで簡単な操作で箱ひげ図と散布図を作成することが可能です。ぜひお持ちのデータでどのような結果が出力されるのか確認してみてください。
XLSTAT の無料トライアル
トライアルでは、最上位グレード XLSTAT Premium に加え、3D Plot と LatentClass のオプションもご利用いただけます。本記事で紹介した箱ひげ図はすべてのライセンスでご利用いただけます。
無料トライアルを申し込む*トライアルは登録完了日に開始され、有効期間は14日間です。トライアルを更新または延長することはできません。