デジタル時代の研究指南書
実験データの整理法から、画像解析、統計解析、プログラミングのコツまで
現代のデジタル化された研究環境を生き抜くために、コンピュータを活用した実験の計画・記録・データ保管と解析、結果のまとめ方を指南。ImageJやRなどをはじめとするソフトの具体的な使い方を解説し、実験の結果を最大限に活かすことを目指す。誰も教えてくれなかった手法やテクニック満載。原著者スティーブ・ロイル氏は2021年に英細胞生物学協会からフックメダルを受賞。解析で使用するスクリプトとサンプル画像はダウンロード可能。
第1章 デジタル細胞生物学の哲学
作業工程とパイプライン
実験データとスプレッドシートを扱うことについて
デジタル細胞生物学のためのソフト
イメージングにフォーカスを当てる
鉄の掟
第2章 データとのつき合い方
整理と組織化はなぜそんなに重要なのか?
整理して組織化する方法
実験ベースの整理・組織化法
実験資源のためのデータベース
電子ラボノート
イメージングのデータのデータベース
外部とデータを共有する
データのバックアップをとる
鉄の掟
第3章 イメージングのデータ
ソフトの選択
Fiji
RStudio
画像とは何か
画像の形式
画像の型
多次元の画像ファイル
メタデータ
画像の変換
イメージングの情報
画像取得条件のバランスをとること
焦点とドリフトの扱い
光毒性と光褪色
蛍光色素の選択
動作範囲(dynamic range)
鉄の掟
第4章 画像の処理と解析
画像をどうやって分析するか
(チュートリアル) 蛍光抗体法画像で行う細胞のタンパク質定量
分節化
他の分節化手法
画像フィルタ
ゲル濃度測定法
(チュートリアル) ゲルのバンドの測定
動画の解析
(チュートリアル) 細胞内の小胞を数える
粒子追跡法
(チュートリアル) 手動粒子追跡(Manual Particle Tracking)
(チュートリアル) 自動粒子追跡
キモグラフ
(チュートリアル) キモグラフの作成
共局在
(チュートリアル) 時系列の共局在をR を使って測定
画像から正しいデータを得ること
検証
最初のステップまで戻る
鉄の掟
第5章 統計学
実験のデザイン
n とは何か?
鉄の掟
なぜn が重要なのか?
細胞生物学者のための検定力分析
必要とされる統計学の基礎
要約統計量のおさらい
常にデータをプロットせよ
記述統計量
統計検定
ある値と1 つの対象群の比較
2 群の比較
3 群以上の比較
さらに複雑な実験計画
データの問題
p 値について
p 値の実際の意味
統計的有意vs 生物学的有意
効果量
鉄の掟
第6章 コーディング
どこから始めるか
基本的な考え方:作業工程、再現性、利点
コマンドラインの習得
コーディングにとりかかる
変数と文字列
配列とベクトル
ループ
基本的なImageJ マクロの書き方
ディレクトリでのファイルの扱い
(チュートリアル) 手動画像解析のためのブラインディング
(目隠し)ファイル
解析のための基本的なR のスクリプトの書き方
何が問題になりうるか?
データの検証とチェックの方法
デバッグ
ヘルプを求める
上達
醜いコード
モジュール化したコードを書く
バージョン管理とgit
コードの共有
鉄の掟
第7章 図のまとめ方
データをプロットする
作法
図の作成
作法
綺麗な図の作成
色覚障害
コントラスト調整
切り抜きと拡大
スケールバー
動画ファイル
作図でやってはいけない操作
鉄の掟
訳者付録
付録0:自習の準備
付録1:画素の位置を無作為に入れ替える
付録2:核の分節化
付録3:ゲルのバンドの測定
付録4:チュートリアルの補足事項
訳語対応表
索引
序文
もしあなたが細胞生物学者ならば、自分の分野に起きた変化に気がついていることだろう。かつて、細胞生物学の論文は質的な視点での説明がそのほとんどであった。顕微鏡写真は「典型的な細胞」であり、ウェスタンブロットは「典型的な実験」から得られたもの、といった論文の書き方だったのだ。ところが、このような記述的なスタイルは、より定量的な記述にその道を譲った。目で見ることによる質的な観察の結果は、計測して客観的に検討することに様変わりし、それが今では必須となったのだ。より最近では、技術の発達、計算能力の向上、データ群の複雑化により、大容量の解析、モデリング、自動化が中心的な課題になりつつある。私は、これを「デジタル細胞生物学」と呼んでいる。
この変化は、次のようなさまざまな方法論にまたがっている(順番に特に意味はない)。
・統計解析
・画像解析
・コーディング
・大規模な解析を可能にする自動化
・再現性
・バージョン管理
・データの保存、アーカイブとアクセシビリティ
・電子ラボノート
とはいえ、これらの方法論は生物学にとって真新しいものではない。実際、特定の分野ではすでに何年も頻繁に使ってきた方法論である。
おそらく明白なのは「システム生物学者」ないしは「計算生物学者」と自分を位置づけている人たちや、大規模な細胞生物学のプロジェクトに関わっている人たちが、その先駆者であるということだ。とはいえ、いまやこうした方法論は細胞生物学にも浸透しその主流となり、細胞生物学をこれから行いたいという研究グループは、そうした方法論に精通していることが研究する上で必須になっている。こうした変化は、すでに今現在、科学者を募集する際の要件となるスキルにも変化をもたらしており、また、未来の細胞生物学者のあり方を形づくりつつあるといえるだろう。生物物理学や神経生物学ではこの変化は先を行っているが、ほかの分野ではこれから始まろうとしている。これは生物学のすべての領域で起きていることで、その変化の只中で研究に関わるのは、とてもエキサイティングなタイミングであるといえる。
この本は、こうした変化に細胞生物学者を適応させることを目的としている。
デジタル細胞生物学者になるために。もしかしたらあなたは、最初の細胞生物学のプロジェクトを開始しようとしている新しい学生かもしれない。この本は、そんなあなたを助けるためにデザインされている。もしかしたらあなたは、細胞生物学の研究をすでに行っているかもしれないが、これまで計算科学、数学や統計にはあまり触れたことがないかもしれない。この本はそんなあなたのよい踏みき
り板になるだろう。もしかしたらあなたは、細胞生物学のエキスパートかもしれない。あなたは最新の論文を読み、その論文にある定量的なアプローチを自分の研究室でどうやって応用しようか、と考えているのかもしれない。もしかしたらあなたは、自分のラボにすでにデジタル細胞生物学者がおり、彼らがどのように考えているのか、そして彼らをサポートする上で何がベストか知りたいのかもし
れない。この本の中には、あなたのための何かがある。デジタルでいこう。
訳者序文
この本「デジタル細胞生物学」は英国の細胞生物学の研究者であるスティーブ・ロイルさんが2019 年に出版した“The Digital Cell~Cell Biology as a Data Science~” の日本語翻訳版である。卒論生から研究者まで、実際に実験を行っている方々に向けて書かれた内容である。
まず、本書全体を、その出版された背景をふまえながらまとめてみよう。21世紀に入ってから20 年が経ち、その間にコンピュータとインターネットの利用が広く普及した。これにともない、生物学でも実験の記録やデータの保管・解析・発表は、紙を主体とするものから、コンピュータのモニター上での操作へと大きな変化を遂げた。データは電子媒体に保管され、その解析には、コマーシャルな
ものからフリーのものまで、さまざまなソフトが広く使用されるようになった。
データ自体の巨大化に伴い、その管理の専門的な知識、計算インフラやデータ転送インフラの整備が研究を行う上で必須の条件となりつつある。ラボノートは電子化しつつあり、文献やラボの試薬はローカルネットワーク上のデータベースで管理されようになった。論文にしても、紙の出版物が存在しないウェブ上だけの公刊物(パブリケーション)が増えつつある。さらには、実験データを公刊物と
して広く世界と共有するための「FAIR」と呼ばれるデータ倫理が推奨されている。
これらの動きの全体は、「データサイエンス」と呼ばれるドライな手法が、ウェットの実験科学に大きく融合した、という見方もできるだろう。
こうした学術のライフサイクルの基盤の変化に加え、特に細胞生物学や発生生物学の研究の現場では、顕微鏡による画像取得がアナログカメラによる撮影と暗室での現像から、数値データであるデジタル画像の取得へと大きく変貌し、「イメージング」と呼ばれるようになった。画像データはモニター上に可視化し、ソフトを使って定量的な解析を行い、図にする際にもレイアウト用のソフトを使っ
て作成し、電子的な書類として論文を学術誌に投稿するように変化した。
このように大きな変貌を遂げた研究のインフラ、なかでもその情報を扱う媒体の根本的な変革は、まだその歴史が浅いゆえにその使い方も作法も統一されていないのが現状である。この本は、こうして変貌を遂げた研究環境において、実験の計画・記録・データ保管と解析、結果のまとめ方までのそれぞれの新しい手法を概観し、それらを一貫した哲学のもとに紹介している。その哲学とはすなわち、自然界の現象を入力情報とし、研究者は観察(データの取得)・実験・検証といった科学的手法によりその入力情報とのやりとりを行い、その過程と結果を公刊物として出力する。この情報の流れとその変化を司る主体はあくまでも人間であり、実験自体は変わらずウェットであるが、それを計算機の機能をフルに援用した自然現象への働きかけとして捉えているのである。こうした自然現象から公刊物への科学者を介した情報の流れ自体は、伝統的な科学の営みであり今も100年の昔も変わらない。しかし、それをアシストする強力なインフラとして計算機が現れたのである。
本書ではこうした哲学に基づき、情報の集積、整理と組織化、処理と解析、結果のまとめと公刊の過程のそれぞれのステップを、実際的な手法を具体的に示しながら全体を1 つの流れとして提言している。もちろん、技術的な発展とともに細かい手法が今後もさらに変化することはほぼ確実であるが、すべての情報を組織化して統一的に扱おうというこの本に見られる一貫した意志は、これからも変わらずに有効な志向性であり、電子化された研究環境が今後いっそう成熟していくための大きな支えとなるであろう。
翻訳者である私自身の場合は、こうした情報の流れの一部にのみ特化し、画像解析をもっぱら研究の対象としている。入力は生画像データ、出力は測定値とその解析である。私はこの作業がまるで配管工のようである、としばしば感じている。自分がデザインして実装した入り組んだ配管の情報処理ネットワークに、解釈の定まらない生の画像データを注ぎ込み、数値を抽出して、統計処理を行って自然界の現象をうまく説明しよう、というのがその配管工の作業である。手前勝手ながらこの感覚を敷衍すれば、この本では、実験の計画の段階から公刊までの全体を配管の工程として扱い、示しているのである。
さて、本書の構成を解説しよう。この本は7 つの章からなる。第1章では、上で紹介した「哲学」を説明す る。第2 章では、電子ラボノートと索引番号を駆使しながら実験のリソースとデータ、コードと分析結果を検索可能なかたちで結びつけ、管理する方法を紹介する。第3 章、第4 章では画像データの取り扱いから、実際の画像解析までを、ImageJ を使いながら具体的に紹介する。日本語翻訳版の作業が完了する直前の2021 年1 月に、学術誌ネイチャーが選んだ
「科学を変革した10 のコンピュータコード」の1 つとして、BLAST などと並び、ImageJ が選ばれた。このことからもわかるように、ImageJ は生物学において極めて有用で一般的なソフトであり、本書ではその基本的な使い方を簡潔に紹介している。第5 章では、細胞生物学で頻繁に使われる代表的な統計手法を、これもまた生物学で広く使われているソフト、R を駆使しながら具体的に説明する。
同時に、「n とはなにか」の議論など、興味深い根源的内容も含まれている。第6 章では、実験プロジェクト全体をコンピュータで管理する上でほぼ必須となるコーディングの基礎と学び方を紹介する。コマンドライン、ImageJ のマクロ言語、R のスクリプト言語の基礎を解説し、これらのコードのバージョン管理を行うためのツールであるgit の使い方の要点も示す。第7 章では、結果を示すための図やプロットをソフトを使って作成するうえでの作法とコツが述べられる。
本文の翻訳にあたって、原文で説明が少々足りないと思われる部分に関して「訳者付録」として我々翻訳 者による独自の解説を加えた。また、新しい技術を背景としているため、日本語訳が定まっていない英単語が多く使われている。現状を鑑みるに英語の専門用語をそのままカタカナで扱う傾向が強くなっているが、今後のこの分野のためにも、また新たに学びはじめる方々のためにも、なるべく日本語に翻訳するようにした。これらの訳語の中には、すでにカタカナ英語で常用されており、イメージングの分野に詳しい専門家にとっては不自然と思われる訳語もあるかもしれない(例えば、「binning」を「装函」とするなど)。このため、比較的細かな訳語対応表を付け加え、今後の参考にできるようにした。
この作業にあたって思いがけずも発見したのは、コンピュータを巡るさまざまな単語は中国語ではすでに多くがうまく漢字に翻訳されているということであった。このため、日本語への翻訳にあたって、いくつかの単語は中国語の訳語を参考にしている。内容への質問や、間違い等の指摘は、本書のGitHub のリポジトリのIssues に投稿していただければ対応できる(https://github.com/miura/TheDigitalCell)。
“The Digital Cell” という題名は、当初は翻訳版でも「デジタル・セル」でよいのではないか、という意見を共同翻訳者や、編集部の方々と共有していたものの、翻訳を進めるうちに「デジタル細胞生物学」へと変わっていった。内容がイメージングを中心とした手法になるので、分野をある程度特定して示したほうがよいだろう、ということでこのような日本語版のタイトルになったが、同じようにイメージングを駆使する他の分野、例えば生物物理学や発生生物学でもこの本の内容は大いに活躍するであろう。
2021 年2 月4 日 於ハイデルベルク
訳者を代表して 三浦耕太