2020-05-07

コロナウイルスの公開データベースをマイニングする研究者たち。

研究調査健康

マイニングといえば、仮想通貨を思い出すが、米国のNSF(National Science Foundation/全米科学財団/国立科学財団)は2020年05月07日に、NSFの資金提供を受けた科学者が、「COVID-19」のより正確な統計モデルの開発を行っていると報告した。

オレゴン大学の生物学者スティリアノス・ルクラ(Stilianos Louca)と彼の同僚は、NSFからの迅速な対応研究助成金を利用して、「COVID-19」の原因となるコロナウイルスのゲノムと関連データのために公開データベースをマイニング(mining)していると伝えた。

これは、1850年代半ばにロンドンでコレラが発生した際に、科学者のジョン・スノー(John Snow)がコレラの発生源を見つけるために使用した現場でのアプローチとは異なり、スティリアノス・ルクラはコンピュータを使って作業を行っている。彼の希望は、コレラに関する医学的判断や公共政策の指針となるような予測力のある系統樹をモデル化することである。

過去の調査データをスクリーニングすると、手間暇を要求する面相な調査も多く見つかることだろう。

それらをスーパーコンピュータを使って、一気に解読する。

これは、これまでの固定概念を覆す可能性がある。

患者から採取したウイルスゲノムから構築された系統樹(Phylogenetic trees)には、感染症の伝播と散布の歴史的パターンに関する情報が含まれている。

進化の数理モデル(Mathematical models of evolution)は、系統樹にコードされた情報から感染率などの重要な疫学的パラメータ(epidemiological parameters)を推論することを可能にする。

スティリアノス・ルクラは、「私たちの目標は、感染症の感染率や基礎繁殖率などの系統データから感染症の疫学的パラメータを推定するためのより正確な統計的手法を開発し、これらの手法をCOVID-19の理解と予測の向上に応用することです。」と述べている。

配列決定されたウイルスゲノムは、世界中の研究者から、国立バイオテクノロジー情報センター(the National Center for Biotechnology Information)のGenBankと、元々はGlobal Initiative on Sharing All Influenza Dataとして知られていたGISAID Initiativeの2つの主要なオープン・アクセス・データベースにリアルタイムに投稿される。

ゲノムは通常、都市、国、サンプリング日などの情報を含む他のデータと一緒に提出され、流行の広がりをモデル化するための貴重な情報を提供すると、スティリアノス・ルクラは述べている。

新しいプロジェクトでは、系統樹から確実に推測できる疫学的洞察を明らかにし、「COVID-19」の感染を特徴づける新しいアプローチを開発することを目指している。

さらに、研究者たちは、系統樹データに基づいて、どのような環境的、生物学的、政策的要因が「COVID-19」の伝染に影響を与えているのかを明らかにしたいと、スティリアノス・ルクラは述べている。

これは面白い。
これまでは、環境的、生物学的、政策的要因での伝染は、あまり知られていない。

それがわかっていないから、クラスターが起こったところを指摘しただけで、それがなぜ起こったかを分析した資料は、「だと思う。」など、疫学研究者からも非常に曖昧な意見が多いのである。

それを理論構築することを可能にする。

「このパンデミックを正確に予測するためには、多くの種類のデータが必要です。」「このプロジェクトは、現在の試験に基づいたデータに過去の歴史を加えたものです。」と、NSFの環境生物学部門のプログラムディレクターであるサム・シャイナー(Sam Scheiner, a program director in NSF's Division of Environmental Biology)は述べている。

この研究の延長線上には、なぜシルクロードは、このルートになったかまで分かるかのしれない。

さらに、データをブロックチェーンで連結し、より正しいルートを知ることができるかもしれない。

つまり、これまでになかった仮想通貨技術を研究に取り組む時代が来た。

この分野には、現在フィンテックなどの開発で多くの専門家が誕生した。