「遺伝情報と環境情報の統合解析」の第4章、最終章です。
スポンサーリンク
『遺伝子発現情報の有効性』発現情報と遺伝情報(SFP、SNP)の統合解析
遺伝情報と遺伝子発現情報の統合解析:「背景」
近年では、計測技術の発展により、ゲノムワイドな一塩基多型(SNP)のジェノタイピングや遺伝子発現プロファイリングが可能となっています。
SNP情報はゲノムワイド関連解析やゲノム育種価予測に利用されており、
遺伝子発現情報は医学分野において詳細診断や予後予測に利用されつつあります。
まずこれら異なるタイプの情報を用いるメリットを復習しておきましょう。
SNP情報はゲノム中に極めて豊富に存在していて、世代に伝わる際に安定していることが大きな特徴です。
加えて、種々の解析に用いられてきたため、極めて有用なデータが多数公開されていることが挙げられます。
一方、遺伝子発現情報はSNP情報には反映されない非遺伝効果(環境効果など)を考慮することができます。
また、各細胞の測定時の生理的現象を反映するため、臨床的・経時的データとなりえます。
よって、これら特性の異なるSNP情報と遺伝子発現情報を統合し、解析に供することが予測性能、
あるいは種々の診断性能の向上に寄与する可能性があります。
ただし、2つの異なる情報を統合する場合には、eQTLを中心とした「多重共線性」や「交互作用」が問題となります。
これらの問題については『統計学』のカテゴリーで詳しく説明するとして、
今回は「遺伝情報と環境情報の統合解析」した論文の紹介に徹します。
まず、「予測」に利用されたのは2009年の酵母の実験が最初です。
スポンサーリンク
遺伝子発現情報と遺伝子型:「実験1、酵母成長率の予測正確度」
遺伝子型情報と薬剤非存在下で成育した酵母の遺伝子発現情報から薬剤下での成長率を予測した論文です。
Ruderferら(2009)とChenら(2009)の異なる2本の論文があるのですが、統合解析に焦点を当てたChenら(2009)の論文をご紹介します。
<概要>
遺伝子型、並びに表現型情報に加えて遺伝子発現情報をモデルに組み込むことで、表現型の予測正確度の向上を目指す
⇒ イースト菌である Saccharomyces cerevisiae の薬剤反応性(薬剤抵抗 or 感受:成長率)およびその原因遺伝子を、
①遺伝子型+表現型情報
②遺伝子型+表現型+遺伝子発現情報 をそれぞれ用いて推定
正確度が①<②であれば、遺伝子発現情報は有効
<材料>
・ Saccharomyces cerevisiae 2個体(BY、RM)の交配から得られた酵母菌104個体
・ 94の薬剤存在下における薬剤反応性のデータ
・ 526の遺伝子型情報
・ 6,186の遺伝子発現情報
<方法>
① Linkage:マーカー情報を利用した連鎖解析
② Elastic net L:遺伝子型情報のみを変数として利用
③ Camelot:遺伝子型および遺伝子発現情報を利用
※ Camelotの3Step
ⅰ、Feature selection
候補となる遺伝子、発現を絞る。
Elastic netによる変数制限とブートストラップを使った異なるデータセットから回帰係数を推定(200回)
ⅱ、Causality testing
遺伝子型はそのままで遺伝子発現情報のみを入れ替え、元のデータの尤度を検定(Permutation Test)
ⅲ、Model revision
上記の結果からモデルを修正
※ 分析手法は重要ではないので、詳細は論文を参照してください
最後に、10 fold cross-validationにより成長率を予測
(ⅰ) 薬剤抵抗(D>1) (ⅱ) 薬剤反応なし(-1<D<1)
(ⅲ) 薬剤感受(D<-1)
テストデータにおいて予測したDの分類と、実際のDの分類との一致率を正確度としている
<結果>
1、 分析方法間の予測正確度の比較
Linkage、Elastic net L:遺伝子型情報
Camelot:遺伝子型+発現情報
図は見えづらいと思うので、文章で結果を説明していきます。
・ Ruderferら(2009)よりも薬剤反応性にバリエーションがあるが、正確度は0.7前後と高い
・ Camelot を用いた予測正確度は、Elastic net を用いたそれよりも、94の薬剤中87の薬剤で有意に高い結果となった
⇒ 遺伝子発現情報は有効
・ 薬剤非存在下の個体から得た遺伝子発現情報からでも、薬剤存在下の個体の成長率、並びに原因遺伝子を特定することができた
⇒ 薬剤投与前から事前予測が可能
・ 先行研究では未知であった原因遺伝子(GPB2)等、計14の原因遺伝子を特定することができた
⇒ 今回のCamelot の方が予測能力が高い
論文中では、独自の手法(Camelot)についての記述が目立つのですが、まとめると
「遺伝子発現情報は薬剤存在下での成長率およびその原因遺伝子を特定する際有効であり、
また薬剤非存在下の遺伝子発現情報からでも推定可能」となります。
加えて、「モデルに遺伝子型情報の他に遺伝子発現情報を加えた場合」に最も高い正確度を示しました。
ここから徐々に研究は発展していきます。
続いてはダイズを取り扱った論文です。
遺伝子発現情報とSFP:「実験2、ダイズ酵母の表現型予測正確度」
SFP情報と遺伝子発現情報から病原体活性表現型を予測した論文です(Bhattacharjeeら、2011)。
<材料>
・病原体に対する耐性が大きく異なる2個体を交配させたF1の自殖系統後代の260個体
・表現型は疫病菌に感染させた際の病原抵抗性(Phenotype-1およびPhenotype-2)
・941のSFP(single feature polymorphism)情報
※ SFP:プロセシングで生じた一塩基多型 ≒ SNP
・28,395の遺伝子発現情報
<表現型>
・ Phenotype-1
“Percent present” : 感染後に一定基準以上発現している遺伝子の割合
・ Phenotype-2
“Scale factor” : 感染前後の発現量の比率
<方法>
階層ベイズ回帰モデルにおけるNon-indicator mode
ベースモデル
y : 表現型値、I : 計画行列(共変数:Indicator model or Non-indicator model)
β : 回帰係数、X : 説明変数( SFPや遺伝子発現量)、i : i 番目の個体
l : l 番目の変数、M : 変数の数(SFPや遺伝子数)、α : 切片、εi : 残差
正確度の算出 ⇒ 5 fold cross-validation
・ 変数選抜方法
(ⅰ) Shrinkage
Shrinkage parameter(抽出サンプル確率) を1/100に設定
28,395の遺伝子から、効果の大きい遺伝子を1%程度選抜
(ⅱ)correlation based
発現量と表現型値の相関が高い上位10%の遺伝子を選抜
(ⅲ) Vague prior
SFPの時と同様、Shrinkage parameter を1/2に設定
有効な遺伝子数を約半数に選抜
(ⅳ) supervised PCA
主成分分析による有効遺伝子の選抜
(ⅴ) Common subset selection
全個体を5分割したデータセットに対して、(ⅱ)同様、相関上位5%の遺伝子を求め、
全個体での相関上位5%の遺伝子と共通する遺伝子を選抜
⇒ 分割後も相関が上位にある遺伝子を選抜
<結果>
・ 今回用いた様々な選抜手法を組み合わせることで、in-data prediction における過剰適合が軽減した
・ 変数別でみると、SFPよりも遺伝子発現量を用いた方が予測正確度は高かった
・ SFPと遺伝子発現量を組み合わせることで、最大の正確度が得られた
※ ただし、正確に予測できたPhenotype-2においては、
発現量のみを用いた際の正確度との差はわずか(0.47と0.50)
⇒ 一概にSFPと発現量の組み合わせが良いとは限らない
・正規分布に従わない表現型(Phenotype-1)では、正確な予測ができない可能性がある
・ベイズ推定による選抜を行った Indicator model と、行わなかった Non-indicator model による顕著な違いは検出されなかった
今回の議題に肝要な結果としては、
「遺伝情報よりも遺伝子発現量を用いた方が予測正確度は高く、それらを組み合わせることで最大の正確度が得られた」
という点です。
酵母の時同様、発現情報と遺伝情報の統合解析が最も予測正確度に寄与していることが考えられます。
最後にマウスについての論文です。
遺伝子発現情報とSNP:「実験3、マウスの表現型値の予測正確度」
ベイジアン混合モデルを用いて、 SNP型情報と遺伝子発現情報から体重、飼料摂取量、飼料効率を予測した論文です(Ehsaniら、2012)。
<材料>
・M16系統とICR系統を始祖個体にもつ440匹のF2マウス集団
(8週齢時の体重(BW):440個体、飼料摂取量(FI):337個体、飼料効率(FE):337個体)
・89の家系情報の記録
・1,806のSNP型情報
・肝臓における23,698の遺伝子発現情報
<方法>
ベイジアン混合モデル
y:表現型値、 μ:全平均、 , X,Z:計画行列、 b:バッチや性といった環境効果、
u:家系情報に基づくポリジーン効果、 W:SNP型情報、 a:SNP効果、
Q:遺伝子発現量情報、g:遺伝子発現量の効果、 e:残差
正確度の算出 ⇒ 11 fold cross-validation
<結果>
1、各変数により説明される表型分散の割合
・ 変数を組み合わせると変数によって説明される表型分散は増加する(残差分散が減少)
・ PEDとSNPを組み合わせると、変数による分散は増加し、PEDの分散はPED単独モデルよりも小さくなる
⇒ PEDによって説明していた家系効果をSNPがとらえている
・ GEXをモデルに含めると説明される分散は大きく増加
⇒ 遺伝的な情報よりも発現量の方が表現型値の分散をよく説明する
⇒ 発現情報は環境効果以外にも遺伝的な効果を強く反映
(このことはSNP+GEXの比率からもよくわかる:SNP→発現量の増減→表現型値の変動)
2、各モデルで予測した表現型値間のスピアマンの順位相関係数
・ PEDとSNPモデルの予測表現型値の相関は他のものに比べて高い
⇒ 情報が重複している:血統情報はSNP情報によって説明可能
3、変数別の正確度一覧
・ モデルに発現量を含めると正確度が向上
⇒ 発現情報の有効性
・ 実測値の予測表現型値に対する回帰係数がほぼ1
⇒ 予測は不偏的
4、SNPが説明する体重の表型分散のマッピング(SNPモデル vs SNP+発現モデル)
・ SNP単独モデルの分散の方がGEXを加えた時のSNPの分散より非常に高い
⇒ SNPが説明する表型分散は発現情報によって説明可能(同時に共線性の可能性大)
・ 1、9、10番染色体では、モデルに発現情報を加えるとSNPが説明する表型分散が大きく減少
⇒ SNPは肝臓のeQTLであり、肝臓の発現量の増減を伴い体重に影響を与えている
・ 2番染色体では、モデルに発現情報を加えるとSNPが説明する表型分散がある程度減少
⇒ SNPは肝臓以外の他の組織の発現量にも影響を与えている
・ 11番染色体では、モデルに発現情報を加えても分散は変化しない
⇒ SNPは肝臓の発現量には影響を与えておらず、他の組織の発現量に影響
少し長くなってしまったので、まとめます。
・ 発現情報モデルの方が血統やSNPモデルよりも説明する表型分散が大きい
⇒ 遺伝的な情報よりも発現量の方が表型分散をよく説明する
・ 発現情報を血統やSNPモデルに含めると、変数が説明する表型分散が大きく増加し、特にBWでは大部分が発現量による分散
⇒ 発現情報は環境効果以外にも遺伝的な効果を強く反映
・ SNPが説明する表型分散は、SNP単独モデルの方がSNP+発現モデルより非常に高い
⇒ SNPが説明する表型分散は発現情報によって説明可能
・ 染色体毎に分散の変動割合に特性がある
⇒ SNPモデルに発現情報を加えた際にSNPの分散が減少あるいは変化しない場所を参照することで、発現量の増減とSNP型の変異の関連を明確に把握できる
例) SNPモデル:SNPの分散大、SNP+発現モデル: SNPの分散小
⇒ SNPの分散(効果)は発現情報によって説明できる(:SNPはeQTL)
・ 発現情報を含んだモデルの予測正確度は、含まなかったモデルの正確度より全形質で高い値となった
⇒ 遺伝子発現情報の有効性を示唆
よって、マウスにおいても統合解析の有効性は示されました。
しかし、最初に述べたとおり「多重共線性」と「交互作用」の問題は必ず補正しなければならないことも明確です。
最後に引用文献を挟んで「まとめ」です。
もう完全に専門家以外の方を蔑ろにした記事になっているため、せめて「まとめ」だけはわかりやすく、端的に記述します。
スポンサーリンク
引用文献
Ruderfer DM, Roberts DC, Schreiber SL, Perlstein EO, Kruglyak L: Using expression and genotype to predict drug response in yeast. PLoS ONE 2009, 4: e6907.
Chen BJ, Causton HC, Mancenido D, Goddard NL, Perlstein EO, Pe’er D: Harnessing gene expression to identify the genetic basis of drug resistanc. Mol Syst Biol 2009, 5: 310.
Bhattacharjee M., Sillanpa¨a¨MJ: A Bayesian mixed regression based prediction of quantitative traits from molecular marker, and gene expression data. PLoS ONE 2011, 6: e26959.
Ehsani A, Sørensen P, Pomp D, Allan M, Janss L: Inferring genetic architecture of complex traits
using Bayesian integrative analysis of genome and transcriptome data. BMC Genomics 2012, 13:456.
「遺伝子発現情報の有効性ー 発現情報と遺伝情報(SFP、SNP)の統合解析」まとめ
遺伝情報と遺伝子発現情報の統合解析
・ いずれの論文においてもモデルに遺伝子型情報の他に遺伝子発現情報を加えた場合に最も高い正確度を示した
・ 一般に、遺伝子型情報を単独で用いた場合よりも発現情報のみを用いた場合の方が予測正確度は高くなった
⇒ 発現情報は表現型の情報を的確にとらえている
⇒ 発現情報は予測に有効
発現情報利用時の問題点
1、環境効果によるノイズの影響が大きく、頑健性に欠ける(Giladら、2008)
⇒ 発現量を主成分分析で標準化する
2、特に哺乳類の場合、表現型と関連の強い組織であっても内臓などの細胞は採取が困難(Visscherら、2010)
⇒ 他の組織から目的組織の発現量を予測する
3、遺伝子型+発現情報で正確度が高くなるのは多重共線性によるもの(Ruderferら、2009)
⇒ 適切な変数選択を行う or 変数間の相関をとらえられる手法を用いる