XLSTAT によるデータマネジメント機能:共通のキーを使って2つのテーブルを結合しよう
データ結合とは?
データ分析を行う際、別々のシートやファイルに保存された情報を1つにまとめたい、という場面は多くあります。例えば、「顧客リスト」と「売上データ」を紐づけて、「どの地域の顧客が、どんな商品をよく購入しているのか」を分析したいケースです。このようにデータ結合とは、2つ以上のテーブル(表)を、共通のキーをもとに、横に連結して1つの大きなテーブルを作成する操作のことです。
XLSTAT のデータマネジメント機能を利用すると、簡単な操作で2つのテーブルを結合することができます。このページでは、XLSTAT のデータマネジメント機能を使って、テーブルを結合する方法をご紹介します。
データ結合の種類
データ結合には、主に「内部結合」と「外部結合」の2種類があり、分析の目的に応じて使い分けることが重要です。
内部結合(Inner Join)
内部結合は、両方のテーブルに共通して存在するキーのデータだけを抽出して結合する方法です。2つのテーブル間で、完全に関連性が確認できるデータのみを分析したい場合に使用します。どちらか片方のテーブルにしか存在しないデータは、結果から除外されます。
外部結合(Outer Join)
外部結合は、片方のテーブル(基準テーブル)のデータを全て残し、そこにもう一方のテーブルから一致するデータを付け加える方法です。マスターデータの全体像を維持したまま、関連情報を追加したい場合や、どのデータに情報が欠けているかを確認したい場合に使用します。基準にしたテーブルのデータはすべて残り、紐づく情報がない場合は空欄(欠損値)として表示されます。
【補足】
外部結合には、左のテーブルを基準にする「左外部結合(LEFT OUTER JOIN)」、右のテーブルを基準にする「右外部結合(RIGHT OUTER JOIN)」、両方の全データを含める「完全外部結合(FULL OUTER JOIN)」があります。最も一般的に使われるのが「左外部結合」で、XLSTAT における外部結合も「左外部結合」になります。
サンプルデータの説明
今回は、あるオンラインショップで保有している以下2つのテーブルを結合するシナリオで説明します。2つのテーブルはどちらも「顧客ID」という共通キーを持っています。
サンプルデータのダウンロードはこちらから
demojoin-ja.xlsxXLSTAT でデータ結合を実行する操作手順
まずは内部結合で2つのテーブルを結合してみましょう。
-
XLSTAT を起動し、 [データ準備] > [データ・マネジメント] を選択します。
-
データマネジメントのダイアログ画面で以下の設定を行います。
- 手法:[結合(内側)] を選択します。
- 表1:「顧客テーブル」のデータ範囲(見出しを含む)を選択します。
- 表2:「売上テーブル」のデータ範囲(見出しを含む)を選択します。
- 列ラベル:データに見出しを含めたので、チェックを入れます。
その他のオプション(タイプの推測、固有性の確認、大文字と小文字を区別)にもチェックを入れます。
-
[OK] をクリックします。
-
以下の画面が表示されるため、テーブルを紐づけるための共通キーを指定します。
今回のデータでは[顧客ID] が2つのテーブルで共通のキーとなるため、[顧客ID] にチェックを入れます。 -
[OK] ボタンをクリックすると、分析が実行され、新しいシート(結合(内側))に結合結果が出力されます。
-
続けて、外部結合も試してみましょう。手順2に戻り、「手法」を [結合(外側)] に変更し、そのほかは同じ設定のまま再度実行してください。 [OK] ボタンをクリックすると、分析が実行され、新しいシート(結合(外側))に結合結果が出力されます。
出力結果の確認
XLSTAT は、操作ごとに新しいシートを生成して結果を出力します。2つの結果を見比べてみましょう。
内部結合の結果
「売上テーブル」のうち、「顧客テーブル」にもID が存在したデータのみが出力されています。「顧客テーブル」にない顧客ID(ゲスト注文)からの売上データは含まれていません。そのため、会員登録のあるユーザーに絞った売上データを分析をしたいときなどに適しています。
外部結合の結果
基準とした「顧客テーブル」の15名全員の情報がまずリストアップされており、購入履歴のある顧客には、注文情報が正しく紐づけられています。内部結合と異なり、もとの顧客テーブルにはなかった売上データもリストに含まれ、顧客情報(顧客名と地域)が空欄になっています。該当データは会員登録をせずに注文(ゲスト購入)したことが考えられます。こちらは全顧客を対象とした分析をしたいときに適しています。
このように内部結合は、両方のテーブルに存在するデータに絞り込んで分析したい場合に有効です。それに対して、外部結合は、マスターデータの全体像を維持しつつ、関連情報を加えたり、情報が欠けているデータを発見したりする場合に有効です。
まとめ
世の中のデータの多くは、管理しやすいように「顧客」、「商品」、「売上」といった形で、テーマごとに分割されて保存されていますが、価値のある分析を行うには、これらの分割されたデータを繋ぎ合わせ、関係性を読み解く必要があります。XLSTAT のデータマネジメント機能を使えば、簡単な操作で2つのテーブルを結びつけることが可能です。目的に合わせて結合方法を使い分け、効率的なデータ分析に役立てましょう。
参考文献
-
XLSTAT: Merging Tables for Analysis
https://community.lumivero.com/s/article/6661-merging-tables-excel-es?language=en_US
- SQLのJOINが苦手という人に向けて
https://qiita.com/Busta/items/2b4dcb556a3bce0311c2
XLSTAT の無料トライアル
トライアルでは、最上位パッケージ XLSTAT Advanced に加え、3D Plot と LatentClass のオプションもご利用いただけます。本記事で紹介したデータマネジメント機能はすべてのライセンスでご利用いただけます。
無料トライアルを申し込む*トライアルは登録完了日に開始され、有効期間は14日間です。トライアルを更新または延長することはできません。