操作方法(日本語)

XLSTAT:主成分分析(PCA)チャートを見やすく整える(ラベル配置・色分け・サイズ調整)

目次

はじめに

主成分分析(PCA)は、多数の変数を少数の主成分に要約し、データの傾向を理解するために広く用いられる多変量解析手法です。しかし、XLSTAT が自動生成するPCA チャートは、変数やサンプルが多い場合にラベルが重なる・点が識別しにくい・グループの関係性が見えにくいといった問題が生じ、結果を読み取りにくくなることがあります。

【初期状態のPCA チャート(ラベルが重なって読みにくい例)】

こうした場合、チャートをカスタマイズして情報を取捨選択すると、伝わりやすさが大きく改善されます。学会発表や社内報告資料などでは、見やすさが結果の説得力にも直結します。

本チュートリアルでは、XLSTAT を使って以下の点を中心にPCA チャートを「見やすく、美しく、解釈しやすく」整える方法を紹介します。

  • 軸ラベルやスケールの調整
  • 観測値(サンプル)や変数の色分け
  • ラベルの再配置による重なりの解消
  • グループ別にマーカーの形や大きさを変える

また、単なる装飾ではなく 統計的な意味を保ちながら視覚的にわかりやすくするための考え方も補足します。

使用するデータセット

ここでは、XLSTAT「主成分分析」のチュートリアルで扱われている米国51州の人口データ(2000年→2001年の1,000人あたりの人口変化)を使用します。年齢構成・出生数など複数の要因が人口変化とどのように関連しているかを探索するデータです。

サンプルデータのダウンロードはこちらから

demo_PCA_EN.xls

PCA チャートのカスタマイズ方法

ここでは、初期状態では読みにくいチャートを、
ラベルの再配置 → 州情報(形状)の追加→ 観測点のサイズ・色の設定→チャートへ反映 
の順で整えていきます。


①ラベルの重なりを自動で解消する(ラベル再配置)

  1. オブザベーションチャートをクリックし、[データ可視化] >[ラベル再配置] を選択します。

  2. ダイアログボックスで

    • [ラベルの配置]:[コーナー] を選択
    • [点への距離]:[自動] を選択します。

  3. [OK]をクリックすると、ラベルが自動的に見やすく配置されたチャートが表示されます。

ラベルが重ならなくなることで、各州の位置関係が見やすくなります。


②州情報(主成分への寄与と州区分)を追加する

まず、[オブザベーションの2乗余弦] を利用して、各州がF1・F2 でどれだけ表現されているかをスコア化します。

  • [オブザベーションの2乗余弦]表の右側に、ラベルを「サイズ」として列を追加します。
  • 各行のF1とF2 の合計値を計算して入力します(例:Excel のSUM 関数などを使用)。

この合計値は「このサンプルがF1–F2平面でもとのデータがどれだけ説明されているか」を表し、「値が大きい=この2次元チャートでの位置が意味を持つ」ことを示します。

次に、州を以下の 4 グループに分け、コード番号(1~3, 9)を割り当てます。

[オブザベーションの2乗余弦] 表にもう一列追加し、ラベルを「形/色」として、対応するコードを入力します。

※このコード番号は、後で マーカーの形状・色を自動で変更 する際に使用します。Excelでは以下の形状に対応します:

1:□、2:♢、3:△、4:×、5:☆、6:・、7:-、8:+、9:〇


③観測点の寄与度(F1+F2)に基づいてサイズと色を調整する

まず、後で「重要な観測点(F1+F2 が大きい州)」を赤で強調できるよう、通常の観測点の基本色として「形/色」列のセルを青に設定しておきます。

こうしておくことで、「通常=青」「重要=赤」という視覚的な対比が明確になります。

続いて、F1+F2 の値が大きい州は、前述の通り「2次元平面で良く説明されている」観測点です。これらを目立たせるため、フラッグ機能を使って条件に合致する観測点のみ赤く表示します。

  1. XLSTAT のメニューより[ツール]>[データ・フラッガー]を選択します。

  2. [データ]に「サイズ」列を設定

  3. [セル]の色:赤

  4. [区間フラッグ]を選択
    [外側]にチェックし、区間に[-1; 0.8]を入力します。

  5. [OK]をクリックすると、F1とF2の合計が0.8以上のセルが赤く表示されます。

赤になったセルの右側のセルにも同じ書式をコピーします。
さらに、アラスカとハワイは本土と区別できるよう下線を付けます(例:黄色の下線)。


④観測点のマーカーサイズ・形状・色を自動設定(EasyPoints)

最後に、②③で設定した通りにPCA チャート上の見た目を変更します。

  1. チャート中の「再配置されたオブザベーション」のマーカーをクリック

  2. [データ可視化] > [EasyPoints] を選択します。

  3. ダイアログ・ボックスで以下を設定します。

    • [サイズ]:サイズの列を選択
    • [形状や色]:形/色の列を選択
    • 図のように各項目にチェックを入れます。

  4. [OK]をクリックします。

カスタマイズされたPCA チャートの解釈

カスタマイズ後のPCA チャートはこちらです。

カスタマイズされたチャートは次のような特徴を持ちます。


● マーカーサイズ:F1+F2 の説明率

マーカーが大きいほど、その州は 「F1–F2 平面での情報が十分に保たれている」ことを表します。

各観測点の二乗余弦の合計は1になるため、F1+F2 の値が大きいほど、この2次元プロットでの説明力が高いことを意味します。


● マーカー形状:地域区分

マーカー形状は、アメリカ合衆国の4つの地域区分を表しています。

  • □(1):北東部
  • ♢(2):中西部
  • △(3):南部
  • ○(9):西部

非本土のアラスカとハワイは、輪郭の色(黄色)で区別しています。


● 位置関係の解釈

PCA チャートでは、点の近さは特徴の類似性を表します。

例:

  • West Virginia と Pennsylvania は近接しており、類似した傾向を持つ
  • Pennsylvania と Alaska は離れており、特徴が大きく異なる
  • 西部の州(コード9)は右上・左下に散らばりやすい
    → 全体傾向に対する西部の特徴的なバリエーションを示唆

まとめ

PCA(主成分分析)は、多変量データがもつ構造を少数の軸に要約し、全体像を把握するための有効な手法です。しかし、初期状態のPCA チャートは、ラベルの重なりや点の識別の難しさから、結果の解釈が直感的に行えないことがあります。そこで、本チュートリアルで紹介したように、ラベルの再配置、寄与度に基づくマーカーサイズの調整、地域区分による形状・色分けといった視覚的な工夫を加えることで、情報を整理し、特徴の違いや類似性をより明確に読み取ることが可能になります。PCA チャートの視認性を高めることは、データの背後にあるパターンをより正確に理解するうえで重要であり、レポート作成や学会発表など、多様な実務場面で有用なアプローチとなります。

参考文献

© 2025 USACO Corporation. All rights reserved.
ユサ株式会社
ソフトウェア
図書館システム
関連サイト