XLSTAT によるコレスポンデンス分析:映画の評価と観客の年齢層の関係を探る
記事執筆:一般社団法人学術・教育総合支援機構 瀧澤 純、楠山 大暁、川﨑 洋平
一般社団法人学術・教育総合支援機構公式HP:https://iaae.jp/
コレスポンデンス分析とは?
コレスポンデンス分析 は、アンケート調査などで得られた2つのカテゴリ変数間の関係を調べるための手法です。例えば、ある商品ブランドのイメージ(かっこいい、高級感がある、高品質など)と購入者の年齢層(20代、30代)の関係を分析するのに役立ちます。コレスポンデンス分析を行うことで、以下のようなことがわかります。
- カテゴリ変数同士に関連性があるかどうか
- カテゴリ同士がどれくらい類似しているか (例えば、若い年齢層同士の評価は似ているかなど)
この分析結果は、市場調査や顧客満足度調査など、様々な分野で活用できます。また、コレスポンデンス分析は、カテゴリ変数同士の関係を視覚的に表すことができるのが特徴です。そのため、分析結果をプレゼンテーション資料やレポートに盛り込むことで、より理解を深めてもらうことができます。このページでは、XLSTAT を使用してコレスポンデンス分析を行う方法と、その解釈の仕方を説明します。
コレスポンデンス分析を実行するためのデータセット
このページでは、映画鑑賞後の観客の年齢層と、その映画の評価 (良かった、悪かったなど) の関係を調べるコレスポンデンス分析を行います。以下が、この分析に使用できるクロス集計表の例です。
例)コレスポンデンス分析を実行するためのデータセット
行:観客の年齢層 (16-24歳、25-34歳、など)
列:映画の評価(BAD, AVERAGE, GOOD, VERY GOOD)
上の表は、映画の観客を対象としたアンケートから得られたもので、鑑賞した映画に関する観客の意見を集計しています。観客は、映画の内容、演出、俳優の演技など、様々な側面を総合的に考慮し、回答しています。上の段をみると、16歳から24歳のうち映画をBAD と回答した観客が69人、AVERAGE と回答した観客が49人、GOOD と回答した観客が48人、VERY GOOD と回答した観客が41人であることを示しています。つまり、観客の年齢層かつ映画の評価ごとに回答した人数がわかるようになっています。
今回はこのデータでコレスポンデンス分析を行い、観客の年齢層と映画の評価との間に関連性があるかどうかを明らかにし、観客の年齢層それぞれの評価傾向を確認してみます。なお、こちらのページで紹介しているサンプルデータは開発元のヘルプページにてダウンロードすることが可能です。
サンプルデータのダウンロードはこちらから
Demo_CA_EN.xlsm【補足】
いわゆるローデータでは以下のような「個体/変数」の表形式である場合もあります。XLSTATでは、このような形式からコレスポンデンス分析を行うこともできます。ただし、このページでは、これら「個体/変数」の表形式から作成したクロス集計表の「2元表」データから分析を行う場合を説明します。
なお、最初に登場したクロス集計表は、人数を集計した「度数表」でした。これが「平均値表」や「横%表」であってもコレスポンデンス分析を行うことができます。以下は、平均値表の例です。100名の回答者が、ペットを飼いたい程度を0から100点で、月ごとに評価したデータだとします。このようなデータであっても、コレスポンデンス分析を行うことができます。
コレスポンデンス分析の操作手順
-
XLSTAT を起動し、[発見、説明および予測] > [データ解析] > [コレスポンデンス分析(CA)] を選択します。
-
ダイアログボックスが表示されるので、[一般] タブにて分析対象のデータを選択します。入力欄にカーソルを置き、その後でエクセル上のデータを直接指定できます。
-
下記項目を指定します。
- [データ形式]:
今回のようにデータがクロス集計表の場合は、「2元表」を選択します。データが「個体/変数」の表形式の場合は、「オブザベーション/変数」を選択します。 - [ラベルを含む]:
各変数のカテゴリ名が行と列の両方に存在する場合は、チェックを入れます。
- [データ形式]:
-
[オプション] タブで以下の項目を指定します。
- [高等解析]:
通常のコレスポンデンス分析を行う場合は「なし」を選択します。 - [非対称解析]:
こちらのチェックは外しておきます。 - [距離]:
「カイ2乗」を選択します。
【補足】
非対称コレスポンデンス分析(NSCA)を実行するには、[非対称解析] オプションを選択します(この場合、カイ2乗距離のみが利用可能です)。ヘリンジャー距離(HD)に基づくコレスポンデンス分析を実行するには、[非対称解析] オプションを選択せず、Hellinger 距離を選択します。除歪対応分析を実行するには、[高等解析] オプションで [トレンド除去分析] を選択します。
- [高等解析]:
-
[出力] タブで、以下の項目にチェックを入れてください。
- 行と列のプロファイル
- 固有値
- カイ2乗距離
- 主座標
- 標準座標
- 寄与率
- cos2乗
-
[チャート] の [マップ] タブで画像のように全項目にチェックを入れます。
行と列の対称マップは最も一般的に使用される方法です。上記では全ての方法が選択されています。信頼楕円を選択することにより、クロス集計表の行と列のカテゴリ間の依存関係に寄与するカテゴリが識別される信頼楕円が表示されます。
-
[OK] をクリックすると計算が開始され、結果が別シート(CA)に出力されます。
コレスポンデンス分析の出力結果の解釈
コレスポンデンス分析の結果には、様々な表やグラフが出力されますが、各項目で見るべきポイントは以下の通りです。
行と列の独立性の検定:
行と列の独立性の検定では、行と列の間に関連があるかどうかを統計学的に判断しています。これはカイ2乗統計量に基づいています。カイ2乗の観測値が臨界値よりも大きく、p値が選択した水準α よりも低い場合、表の行と列は有意に関連していると判断できます。この例では、p値が0.0001 以下であるため、観客の年齢層によって映画の評価が異なる可能性が非常に高いです。
固有値:
固有値は各因子(次元)によって抽出された分散に対応しており、分析結果の要約度合いを示しています。分析の質を評価するには、固有値の表か、それに対応するスクリープロットを参照します。最初の2つ(または数個)の固有値の合計が全体の分散に近い場合、分析の質は非常に高いと言えます。今回の例では最初の2つ(F1 と F2)の固有値の合計が全慣性(total inertia)の97%(86.640 + 10.674)を占めているため、分析結果は良好であると判断できます。
続いて、行(観客の年齢層)と 列(映画の評価)それぞれについて、複数の表が出力されます。
重み、原点への距離および平方距離、イナーシャおよび相対イナーシャ:
ここで、「プロファイル」の概念について紹介しましょう。コレスポンデンス分析はプロファイル分析に基づいています。プロファイルとは、合計の数によって割られた相対頻度のことです。言い換えれば、プロファイルは変数のカテゴリが他の変数のカテゴリに応じてどのように変化するかを反映しています。
この表では、行(および列)の重み、距離、原点からの平方距離、慣性(イナーシャ)、および相対慣性がまとめられています。重みは、距離を計算する際に使用する値です。原点からの平方距離が小さいほど、カテゴリプロファイルが平均プロファイルに近くなります(全体の中で平均的な位置づけになっています)。例えば、年齢グループ25-34、35-44、および45-54は、原点への距離が短いため、これらのグループプロファイルが平均プロファイルに近いことを示しています。言い換えると、この3つの年齢グループは、映画の評価に関して、他の年齢層と比べて特徴がみられなかったということになります。
プロファイル:
行(および列)のプロファイルと平均プロファイルが表示されます。この例では、年齢グループ25-34、35-44、および45-54 のプロファイルが互いに近く、さらに平均プロファイルにも近いことが示されています。後者は原点への距離が短いことからも分かります。
カイ2乗距離:
行(または列)間の距離は、カテゴリ間の類似性に関する情報を提供します。年齢グループ25-34、35-44、および45-54は、0.2 未満の距離で類似しているようです。
主座標と標準座標:
行(または列)の主座標と標準座標も表示されます。標準座標は、主座標を対応する因子の固有値の平方根で割ったものです。標準座標の重みづけ平方和は、因子それぞれで1になります。
寄与率:
以下は、行(または列)の寄与率の表です。これらの寄与率は、各因子(次元)における各カテゴリの重要性を表しています。寄与率の合計は、因子それぞれで1となります。経験則として、寄与率が1/I (I は行の数、列の数の場合は1/J)よりも大きい場合に、得られた因子にとって重要であるとみなすことがあります。今回の例では、16-24歳のグループが因子F1にとって重要であり、65-74歳および75歳以上のグループが因子F2にとって重要であるといえます。
cos2乗:
次の表では、行(または列)のコサインの2乗が表示されます。コサインの2乗は、各カテゴリに対する各因子の重要性を表します。コサインの2乗をカテゴリごとに合計すると、1になります。この例では、16-24歳のグループのほとんどの分散が因子F1 に寄与していることが示されています。
対称プロット:
次に、行と列の対称プロット、またはフレンチプロットなど、さまざまなグラフが表示されます。いずれのグラフも、因子 F1 と F2 上で、各カテゴリーがどこに配置されているかを確認できます。行プロファイルと列プロファイルは、共通の軸に重ねて(いずれも主座標で)表示されます。この表示は非常に便利であり、行の点と列の点が均等に広がっています。行の点同士の距離は、行同士のカイ2乗距離に近似しています。列の点同士の距離は、列同士カイ2乗距離に近似しています。年齢グループ25-34、35-44、および45-54は、非常に類似したプロファイルを示しています。この「対称プロット」のグラフは、ある意味で行と列を無理やりに重ねて表示しています。そのため、たとえ行の点と列の点が近かったとしても、それらが類似しているという解釈はできません。
信頼域楕円は、対称な行プロットまたは列プロットに追加でき、以下に示すように対称な行プロットに表示されています。特定のカテゴリの楕円の中心が原点にある場合、そのカテゴリは変数間の依存に寄与していません。ここでいう「変数間の依存関係に寄与する」とは、たとえば「16-24歳という年齢層(変数1)が、GOOD という評価(変数2)と対応している」ということになります。一方で、25-34、35-44、および45-54は、そのような特定の評価との結びつきが弱く、特徴がない、対応が弱い(=寄与しない)ということになります。
非対称な行プロットでは、列が行空間に表示されます(標準座標からの列と主座標からの行)。逆に、非対称な列プロットは、行が列空間に表示されたものに対応しています。行と列の間の距離は、行の点から列ベクトルへの射影として解釈すべきです。軸を行または列の、いずれの観点で解釈すべきかは、解釈がどれだけ適切かに依存します。この例では、年齢グループを評価空間で解釈することを選択します。分析で得られた軸をみると、第1軸(横軸)の右側にはGOOD が、その反対の左側にはBAD があります。16-24歳のグループでは、他の年齢グループと比較して、映画を「GOOD」と評価する割合が高いです。ただし、これは16-24歳グループ内で他の評価と比較して「GOOD」評価が最も高かったことを意味するわけではありません。
その後、行と列の寄与座標が表示されます。寄与座標は、標準座標を特定のカテゴリの質量(mass)の平方根で割ることによって得られます。寄与バイプロット(行)では、行は寄与座標にあり、列は主座標にあり、その逆もまた対応します(列の寄与バイプロットでは列が寄与座標にあり、行は主座標にあります)。行(または列)の寄与バイプロットでは、行(または列)の点から原点への距離がグラフへの寄与と関連しています。この例では、行の寄与バイプロットでは、行の点の位置は非対称なプロットと比較して変わっていません。ただし、列の点は原点により近くなっています(2つのグラフの軸の値を比較してください)。
解釈のまとめ:
今回の事例ではコレスポンデンス分析を行うことで以下のことがわかりました。
- 観客の年齢層と映画の評価との間には関連性がある(カイ二乗検定: p値 < 0.001)
- 分析の質は良好 (最初の 2 つの固有値の合計が全体の慣性の 約97%)
- 年齢層 25-34、35-44、45-54 は互いに類似性が高い
- 年齢層 16-24 は因子 F1 に大きく寄与している
- 年齢層 65-74、75以上 は因子F2 に大きく寄与している
- 年齢層 16-24 は、他の年齢層よりも「GOOD」と評価する割合が高い
まとめ
コレスポンデンス分析(Correspondence Analysis:CA)は、2次元の表を分析するための非常に効果的な手法です。今回の分析では映画を観た後の観客の年齢層と、その映画の評価のデータを分析し、観客の年齢層と評価との間に関連性があることが確認できました。この結果を用いることで、例えば映画のマーケティングやターゲティングなどに役立てることができるかもしれません。様々な分野で応用できる分析手法なので、ぜひコレスポンデンス分析を活用してみてください。
記事執筆:一般社団法人学術・教育総合支援機構 瀧澤 純、楠山 大暁、川﨑 洋平
一般社団法人学術・教育総合支援機構公式HP:https://iaae.jp/
参考文献
- Correspondence Analysis (CA) from a contingency table
https://help.xlstat.com/6380-correspondence-analysis-ca-contingency-table
※ 本記事はこちらのチュートリアルページをもとに作成しています。記事内で紹介したサンプルデータもこちらからダウンロードすることができます。
XLSTAT の無料トライアル
トライアルでは、最上位グレード XLSTAT Premium に加え、3D Plot と LatentClass のオプションもご利用いただけます。本記事で紹介したコレスポンデンス分析は、XLSTAT Free を除くすべてのライセンスでご利用いただけます。
無料トライアルに申し込む*トライアルは登録完了日に開始され、有効期間は14日間です。トライアルを更新または延長することはできません。