XLSTAT で欠損値を推定し、データを補完しよう
データ分析を行う際、欠損値の存在はしばしば悩みの種となります。このページでは、XLSTAT を使って欠損値を効果的に処理する方法をご紹介します。
- 欠損値とは?
- XLSTAT における欠損値の取り扱い
- NIPALS アルゴリズムとは?
- サンプルデータの説明
- XLSTAT で欠損値を処理する操作手順
- 結果の確認方法
- まとめ
- 参考資料
- XLSTAT の無料トライアル
欠損値とは?
欠損値とは、データセットの中で何らかの理由により値が存在しないデータのことです。これらは分析の正確性を損なう可能性があるため、適切な処理が求められます。欠損値には、主に以下3つのタイプがあります(Allison, 2001)。
- MCAR (完全にランダムな欠損):
欠損がほかのデータとは全く無関係に、偶然発生するケース - MAR (ランダムな欠損):
欠損の発生が、データセット内のほかの変数の値に関連しているケース - NMAR (ランダムではない欠損):
欠損していること自体に、何らかの特定の理由が存在するケース
XLSTAT における欠損値の取り扱い
XLSTAT は、欠損値を扱うための高度な機能を備えています。データの種類に応じて、以下のような多様な処理方法を選択できます。
量的データで利用できる主な手法
-
欠損値を含む観測値(行)の削除
-
平均値で欠損を埋める平均値代入法
-
類似したデータで補う最近傍法
-
[NIPALS] アルゴリズムによる予測補完
-
[MCMC] 多重代入アルゴリズム
-
[EM] アルゴリズム
質的データで利用できる主な手法
-
欠損値を含む観測値(行)の削除
-
最も頻度の高い値で補う最頻値代入法
-
類似したデータで補う最近傍法
-
[NIPALS] アルゴリズムによる予測補完
本ページでは上記のうちNIPALS アルゴリズムを利用して、欠損値を処理する方法をご紹介します。
NIPALS アルゴリズムとは?
NIPALS(Non-linear Iterative Partial Least Squares)アルゴリズムは、欠損値を補完するための手法の一つで、主成分分析(PCA) を応用したものです。データ全体の構造や変数間の関係性を考慮して、欠損値を予測します。そのため、単純に平均値で埋める方法よりも、精度の高い補完が期待できます。
サンプルデータの説明
今回は、以下のような特徴を持つサンプルデータを使用します。
-
6つの変数(車両の性能など)
-
6つの観測値(車種名)
-
データ内に6つの欠損値
このデータを用いて、実際に欠損値を補完する手順を見ていきましょう。
サンプルデータのダウンロードはこちらから
demo_Missing_NIPALS_JA.xlsxXLSTAT で欠損値を処理する操作手順
-
XLSTAT を起動し、 [データ準備] > [欠損値] を選択します。
-
ダイアログボックスが表示されるので、以下のようにデータを選択します。
- [量的データ]:
チェックを入れ、数値データを列名も含めて選択 - [欠損値の推定]:
[NIPALS] を選択 - [オブザベーション・ラベル]:
チェックを入れ、車種名が入力されてデータを列名も含めて選択 - [変数ラベル]:
チェックを入れます。
- [量的データ]:
-
[オプション] タブに切り替え、[中心化] と [尺度化] にチェックを入れます。
-
[OK] ボタンをクリックすると、欠損値の処理が実行され、結果が別シート(欠損値)に出力されます。
結果の確認方法
記述統計
出力結果には最初に欠損値補完前と補完後の記述統計量が表示されます。
完全データ
完全データでは、補完後のデータが格納された表が表示されます。もともと欠損値だったセルは太字で表記されます。これにより、どの値が補完されたのかを一目で確認できます。
補完された値が実際の値とどれだけ近いかをサンプルデータの「Honda Civic」の容量を例に見てみましょう。
- 実際の正しい値: 1,396
- NIPALS による補完値:1390.725
- (参考) 平均値代入法の場合:1781.4
この結果から、NIPALS アルゴリズムによる補完値が、実際の値に非常に近いことが分かります。単純な平均値代入法に比べ、格段に精度が高いと評価できます。
まとめ
このページでは、XLSTAT を利用した欠損値の処理方法についてご紹介しました。欠損値を補完する方法はいくつかありますが、特に NIPALS アルゴリズムは、データ全体の傾向を基に欠損値を予測するため、分析の質を大きく向上させることができます。データ分析の精度は、前処理の質に大きく左右されます。XLSTAT の欠損値処理機能を活用して、より信頼性の高い分析を実行しましょう。
参考文献
-
Allison P. D. (Ed.). (2001). Missing data (No. 136). Sage.
-
Dempster, A. P., Laird, N. M., & Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm. Journal of the Royal Statistical Society: Series B (Methodological), 39(1), 1-22.
-
Josse J. (2016) Contribution to missing values & principal component methods. HDR Statistics. Université Paris Sud - Orsay, 2016.
-
Missing data imputation using NIPALS in Excel
https://help.xlstat.com/6497-missing-data-imputation-using-nipals-excel
-
Schafer J. L. (1997). Analysis of Incomplete Multivariate Data. London: Chapman and Hall.
-
Van Buuren S. (2007). Multiple imputation of discrete and continuous data by fully conditional specification. Statistical Methods in Medical Research, 16, 219–242.
-
Wold H. (1973). Non-linear Iterative PArtial Least Squares (NIPALS) modelling. Some current developments. In: P.R. Krishnaiah (Ed.), Multivariate Analysis III, Academic Press, New York, 383-407.
XLSTAT の無料トライアル
トライアルでは、最上位パッケージ XLSTAT Advanced に加え、3D Plot と LatentClass のオプションもご利用いただけます。本記事で紹介した欠損値処理機能はすべてのライセンスでご利用いただけます。
無料トライアルを申し込む*トライアルは登録完了日に開始され、有効期間は14日間です。トライアルを更新または延長することはできません。