DeepSomatic

Googleが高精度でがんの遺伝子変異を検出するAI「DeepSomatic」を発表、オープンソース化で全世界のがん研究を加速へ
以下は、記事の抜粋です。


Googleの研究開発部門であるGoogle Reearchが、がんの遺伝的変異を特定するためのオープンソースのAIツール「DeepSomatic」を、カリフォルニア大学サンタクルーズ校などと共同で開発したことを発表しました。

DeepSomaticは、先天的変異を発見するためのツール「DeepVariant」の拡張機能で、がん細胞と正常な細胞のゲノム配列データを画像に変換し、それを畳み込みニューラルネットワーク(CNN)で解析します。この画像解析により、遺伝子配列を読み取るシーケンシングの過程で生じる微細なエラーと、本物の遺伝的変異を区別し、がん特有の体細胞変異を高精度で検出します。

この手法により、DeepSomaticは既存の解析ツールを上回る性能を発揮。特にこれまで検出が難しかった、遺伝子コードの一部が挿入されたり欠失したりする「インデル」と呼ばれる変異の特定において、大幅な精度向上を実現したと研究チームは報告しています。

DeepSomaticの高性能を支えているのは、「CASTLE」と名付けられた高品質な学習用データセットです。このデータセットは、乳がんと肺がんのサンプルについて、3種類の主要なシーケンシングシステムのデータが統合されたもので、各プラットフォームが含んでいるエラーを取り除くことで非常に正確なものになっているとのこと。

実際に、主要なシーケンシングシステムであるIlluminaのデータを用いたインデル変異の検出において、既存のツールの精度を示すF1スコアがおよそ80%だったのに対し、DeepSomaticは90%を達成。また、PacBioのデータでは、既存のツールが50%未満のスコアだったところ、DeepSomaticは80%以上という高い精度を記録し、その優位性を示したそうです。

さらにDeepSomaticは、ホルマリンで固定された古い組織サンプルや、ゲノム全体のうちタンパク質の設計図となる部分だけを解析するエクソームシーケシングのデータなど、解析が難しい条件下や情報量が少ないデータに対しても高い性能を維持できることが確認されています。

加えて、DeepSomaticは、学習に使用した乳がんや肺がんだけでなく、全く異なる種類のがんにもその能力を応用できるとGoogle Researchはアピール。実際に、悪性度の高い脳腫瘍である膠芽腫のサンプルを解析したところ、原因となる遺伝的変異を正確に特定することに成功しました。

DeepSomaticはBSDライセンスの下で、GitHubでリポジトリが公開されています。

GitHub – google/deepsomatic: DeepSomatic is an analysis pipeline that uses a deep neural network to call somatic variants from tumor-normal and tumor-only sequencing data.
https://github.com/google/deepsomatic

また、データセットのCASTLEもGitHubにホストされています。

GitHub – CASTLE-Panel/castle: CAncer Standards Long-read Evaluation
https://github.com/CASTLE-Panel/castle


がんがすべて治るようになるかは別として、がんの原因となるすべての遺伝子変異が明らかになるのは時間の問題だと思います。以下は、説明動画です。

コメント

タイトルとURLをコピーしました