最近遭遇した問題をここで記録しておきたいと思います。
外注でRNA-seqを依頼し、納品されたデータをIGVで表示しようとしたところ、上手く表示できないとのメッセージが…
「IGVでデータ表示なんて、bamファイルを放り込むだけでしょ?」そう考えていたバイオインフォマティクス初心者の私にとっては驚きでした。
結論としては、各遺伝子の染色体上での位置の指定の仕方に違いがあったことにより、表示が上手くいかなかった模様でした。
IGVのデフォルトは、Mouse GRCm38/mm10 などをリファレンスにしており、遺伝子の位置情報は染色体番号とbp(chr1:11111-22222など)と定義されています。
しかしながら、表記方法は他にもあり、bamファイル上の遺伝子の位置情報がNC_000077.6などと定義されている場合があるとのこと(もしかすると、RNA-seqを外注するときにリファレンスを指定できた?)。
この場合、IGVに既存のリファレンスとは、遺伝子のmapping(位置情報)がマッチしないため、データを表示できないようです。
そのため、bamファイルを作成した時のreferenceと同じものを用いる必要があるとのことで、まずはその確認から。納品されたデータ内に”reference.txt”などと名前をつけられたリファレンスに何を使ったかを示すファイルがあるはずなので、そのファイルの情報を基にリファレンスゲノム(FASTAファイル)を取得しましょう。
次に、取得したリファレンスのゲノム情報をIGVのGenomeメニューからインポートします。FASTAファイルが適切にインポートされれば、後は表示させたいサンプルのbamファイルとドラッグ&ドロップなどでIGV上に入れてあげれば、表示されるはずです。やり方を分かってしまえばさほど難しくはないのですが、なぜ表示されないのか分からないことも往々にしてあると思いますので、ここに記録しておきます。
ちなみに、NC_000077.6などでmappingされている場合、IGVで表示させても遺伝子名で興味のある遺伝子の検索ができませんでした…これ、何とかならないものでしょうか…。遺伝子の領域も自分で調べてあげる必要があるみたいですし、非常に使いにくいことが分かりました。
今後の解析の参考にしたいと思います。

コメント