「遺伝情報と環境情報の統合解析」の第3章です。
今回は『遺伝子発現量の効果分布と主成分分析によるノイズ補正(減少)方法』として、
「ヒトにおけるcis-eQTLとtrans-eQTLの分布と効果を比較した論文」と、
ノイズの補正法として「主成分分析による補正方法」をご紹介します。
スポンサーリンク
遺伝子発現量の効果分布と主成分分析によるノイズ補正(減少)方法
遺伝子発現量の効果分布とノイズ:cis-eQTLとtrans-eQTLの分布および効果の比較
Fuら(2012)のオランダ人を対象とした論文をご紹介します。
<材料>
以下のオランダ人の細胞における19,709遺伝子の発現情報
(1)血液(Blood):1,240人
(2)肝臓(Liver):74人
(3)皮下組織(SAT):83人
(4)内臓脂肪組織(VAT):77人
(5)骨格筋(Skeletal muscle):62人
<手法>
① SNP-Probe間におけるスピアマンの順位相関係数より求めたZ-scoreからeQTLを特定
② eQTLと対象プローブの距離別に効果を比較
<結果>
1、eSNP(eQTL)-eProbe間の距離とeSNPの効果
結果として、eQTLの73.0%が250kb以内に位置しています。
よって、73%がcis-eQTLとして分類されることになります。
※ cis-eQTLの定義は、気温(Liら、2006)が2Mb以内、性(Bhasinら、2008)が20Mb以内
2、eSNP-eProbe間の距離とeSNPの効果(血液組織)
効果の大きいeSNP(Top eSNP)は、特にProbeとの距離が近い結果になっています。
このことから、transのように対象プローブとの距離が遠い場合には、eQTL効果は非常に小さいと考えられます。
ここまでの結果をまとめると、
・ eQTLの73%がcis-eQTLとして分類されており、残り27%のtrans-eQTLは、eQTL効果が小さい
よって、発現量におけるtrans-eQTL効果は小さいため、補正していなくても結果が大きく変わることはないと考えられます。
しかしながら、頑健性・普遍性を高めるためにも補正は必要です。
その一方で、現実的には、発現情報のサンプルが非常に少ないので、環境効果を混合モデルに組み込み補正するのは困難であるという側面もあります。
そこで、主成分をもちいた「ノイズの補正方法」を次にご紹介します。
スポンサーリンク
主成分分析による遺伝子発現量の環境ノイズの減少
環境要因がもたらす遺伝子発現情報へのノイズの減少を目的としたFehrmannら(2011)の論文をご紹介します。
補正方法として非線形モデルを用いた手法も存在しますが、こちらの論文では「主成分分析による補正」を検討しています。
<材料>
① イギリスおよびオランダ人の末梢血における遺伝子発現量
イギリス人(229個体) ⇒ Illumina HumanRef-8 v2 arrays(H8v2)を使用し、発現量を測定
オランダ人(1,240個体) ⇒ Illumina HumanHT-12 arrays(HT12)を使用し、発現量を測定
② 以下のオランダ人の細胞における遺伝子発現量
肝臓(Liver):74人、皮下組織(SAT):83人、内臓脂肪組織(VAT):77人、
骨格筋(Skeletal muscle):62人
⇒ Illumina HumanHT-12 arrays(HT12)を使用し、発現量を測定
<方法>
個体毎に発現量の主成分分析を行い、固有値の大きい順に主成分を除去していった場合に、
検出されるeQTL数がどう変動するか調査
<結果>
1、主成分スコアのバラつき
例のごとく見えませんね…。
左上から時計回りに第1主成分、第2主成分…となっており、縦軸が主成分スコア、横軸が個体に相当します。
第一主成分で最もバラつきが高く、主成分を増やすごとに徐々にバラつきは減少しています。
よって、固有値の高い主成分は、バッチ効果の影響を強く受けている可能性があります。
2、主成分除去とeQTLの関係
上位50の主成分を取り除きスコアを補正することで、eQTLの検出数が倍近く増加する結果になりました。
このことからも「主成分分析による補正」は環境要因のノイズを減少させ、発現量の差異を明確にした可能性があります。
肝心の効果については、4,965(83.5%)のeQTLが50の主成分を除いた後でも検出されたため、
主成分除去前と除去後のeQTLの効果はほぼ等しい(ピアソン相関=0.95)と考えられます。
したがって、結果だけみれば「ノイズを減少させ、さらにeQTLの検出性能は低下していない」という素晴らしい傾向をみせました。
3、主成分除去前と除去後のeQTLのp値比較
薄緑が主成分除去前と除去後で一度でも検出されたeQTL数、
濃緑が主成分除去前でのみ検出されたeQTL数です。
主成分除去前でのみ検出されたeQTLのp値は、除去後でのみ検出されたeQTLのp値と比較して非常に高くなっているため、
主成分を除くことで、バッチ効果などの環境要因の影響を受けていたeQTLを排除できた可能性があります。
以上のことから「主成分分析による補正」が極めて有効なことが窺えます。
実際に私も発現情報を供する際にこの手法を使ったことがあるのですが、8系統のHSマウスに解析データにおいては検出力が落ちる結果となりました。
集団に依存することは当然ですが、モデルを改良した方が個人的に楽だったので、結局取り上げなかったという背景があります。
とはいえ、主成分分析自体は簡単なので(データサイズが大きいと時間がかかりますが…)、
「発現量のノイズ補正」に取り組む際には、十分に検討する価値があると思います。
以上、「遺伝子発現量の効果分布と主成分分析によるノイズ補正(減少)方法」でした!
これでやっと前置きは終わりです。
次回の最終章では『遺伝子発現情報の有効性ー 発現情報と遺伝情報(SFP、SNP)の統合解析』についてご紹介します。
後天的な発現情報と先天的な遺伝情報を組み合わせることで、予測性能は向上するのでしょうか?
わかりやすさのため、次回は『表現型値の予測正確度』に焦点を絞って説明します。
引用文献
Fu J, Wolfs MGM, Deelen P, Westra HJ, Fehrmann RSN, te Meerman GJ, Buurman WA, Rensen SMS, Groen HJM, Weersma RK, van den Berg LH et al: Unraveling the regulatory mechanisms underlying tissue-dependent genetic variation of gene expression. PLoS Genet. 2012, 8: e1002431.
Fehrmann RSN, Jansen RC, Veldink JH, Westra H, Arends D, Bonder MJ, Fu J, Deelen P et al: Trans-eQTLs reveal that independent genetic variants associated with a complex phenotype converge on intermediate genes, with a major role for the HLA. PLoS Genet. 2011, 7: e1002197.
「遺伝子発現量の効果分布と主成分分析によるノイズ補正(減少)方法」まとめ
遺伝子発現量の効果分布とノイズ:cis-eQTLとtrans-eQTLの分布および効果の比較
・ Fuら(2012)の検討によると、eQTLの73.0%以上はcis-eQTLとして分類され、trasn-eQTLの効果は小さい
⇒ 環境によるノイズは大きいが、環境要因を補正していない論文でも結果に多大な影響は及ぼしていない
⇒ ただし、ノイズがある以上補正は必要
・ 現実的には、発現情報のサンプルが非常に少ないため、環境効果を混合モデルに組み込むのは困難
⇒ 主成分分析による補正
主成分分析による遺伝子発現量の環境ノイズの減少
・ 上位50の主成分を取り除きスコアを補正することで、eQTLの検出数が倍近く増加
・ 4,965(83.5%)のeQTLは50の主成分を除いた後でも検出された
・ 主成分除去前と除去後のeQTLの効果はほぼ等しい(ピアソン相関=0.95)
⇒ eQTLの検出性能を低下させずに、環境要因のノイズを減少させた
⇒ 有効な補正法
※ ただし、 Fehrmannら以外の論文では、対象となる個体数が非常に少ない
・ Idaghdourら(2008)⇒ヒト52個体
・ Petrettoら(2006) ⇒ラット30個体
・ Storeyら(2007) ⇒ヒト16個体
・ Bhasinら(2008) ⇒マウス207個体
・ Liら(2006) ⇒線虫80個体
・ Fehrmannら(2011) ⇒ ヒト 1,469個体