Vol.79:ビッグデータはグッドデータか? ビッグデータ処理時に研究者が直面する5つの課題
ビッグデータは科学の各分野において、かつてないほど研究法を変えてしまいました。研究者が使うツールは専門分野の特殊性に限定されていましたが、今ではビッグデータが学問分野を超えた共通ツールになりつつあります。ビッグデータの入手可能性と、大量データ保存できる容量により、研究者たちの前に科学的探究の道がいくつも開かれました。
研究の礎であるデータは、研究者にとって非常に貴重なものです。ですから、たいていの研究者はデータの大洪水を恵みだととらえています。特に、遺伝学、天文学、素粒子物理学の分野ではそうです。
今やビッグデータは比類なき科学パラダイムだと考えられていますが、統計学者は研究者に対し、ビッグデータは多次元的で千変万化するため慎重に扱うべきだと忠告しています。 研究者はビッグデータを利用してきましたが、それはチャンスを与えてくれる一方で、複雑さももたらします。ビッグデータを利用するとき、研究者が直面する主な課題をいくつか挙げましょう。
1. データの効果的な管理が困難
大量データの保存は、所属機関からのサポートが得られない研究者に対し、インフラ面と経済面の問題を引き起こします。その他、国際的な共同研究が関わると、プライバシー、セキュリティ、データの整合性が利害対立につながりかねないため、大量データのキュレーションや共有は複雑です。ですから、インフラの課題を克服し、データ駆動の研究がより円滑なプロセスで行えるようにする、持続可能な経済モデルが必要なのです。
2. 研究計画よりデータ収集が優先される
どんな研究にもデータは不可欠ですが、時にはデータ収集が、慎重に研究計画を立てるよりも重要視されることがあります。データが多ければ多いほど、より優れた研究に直接関連すると誤解しがちな研究者もいます。データ収集方法や収集の目的に注目するのではなく、データが大量にあれば研究を強化することができると仮定して、大量データを収集するのです。殺菌牛乳の効果を評価するため2万人の子どもを対象に行われたイギリスの研究が、この一つの例 です。研究計画や治験の規模が、統計学者William Gossetにより批判されました。彼によれば、ランダム化が不十分だったため、6組の双子に関する研究しか信頼性の高いものがなかっただろうということです。
3. ビッグデータの分析には特殊なツールが必要
伝統的なツールでは大量データを分析することはできません。標準的なソフト技術は、主に少量データの分析をするために設計されています。しかし、ビッグデータには、伝統的なツールでは分析に膨大な時間がかかるか、あるいは操作不可能になりかねないほどの、大量のデータが含まれています。ですから、データをモデルに結び付けるには、データを正確に評価できる特殊なツールが必要なのです。たとえば、マイクロソフト社のFaST-LMM (Factored Spectrally Transformed Linear Mixed Model)と呼ばれるアルゴリズムは、その一例です。
4. データの洪水により、解釈が困難になる可能性
ビッグデータには様々なソースからのデータが含まれています。それにより、ビッグデータは多面的になり、解釈が困難になるのです。たとえば、世界人口情報を含んだデータセットは、地理的位置、ライフスタイルなどが異なるデータをもとにしており、異なる技術を使って収集されているかもしれません。研究者はこうしたデータのすべての側面を考慮できず、誤った結論を引き出してしまう可能性もあります。そのため、統計的バイアスを打開できるような、信頼性の高いデータ解釈方法を開発しなければならないのです。
5. データにパターンを求める傾向は危険
ビッグデータは規模が大きいので、データセットから有益なデータを分ける必要があります。ところが、たいていの場合、必要ではないデータを取り除くのではなく、データ中の証拠により、あらかじめ思い描いていた概念が裏づけられるまで、パターンを求める傾向があります。研究において、これは危険な落とし穴です。
データが貴重であることは疑うべくもありません。これは、2012年の世界経済フォーラムで、データを新たな経済的資産とする宣言がなされたことによっても裏づけられています。また、ビッグデータは科学の進歩において重要な役割を担っています。しかしながら、大量データを扱うことのマイナス面として、ビッグデータが必ずしも良いデータを意味するわけではない、ということがあります。ですから研究者は、ビッグデータの可能性を最大限データと、自分の分野の専門知識や科学的推論とのバランスをとらなければなりません。
データ収集・分析の際、研究者が直面する課題についてさらに理解を深めるにはジョー・ロイスリエン氏のインタビューをご覧ください。
ロイスリエン氏は、ノルウェーの数学者、生物統計学者、医学研究者であり、地球統計学で博士号を取得しています。国際科学コミュニケーターとして有名です。