AmberのCPPTRAJで二次構造を調べる方法 - いつか博士になる人へ

研究メモ。

今日はAmberのCPPTRAJでタンパク質の二次構造を調べたい。

二次構造とはαヘリックスやβシートなどのこと。

参考

Amber16のマニュアル

http://ambermd.org/doc12/Amber16.pdf

状況

例えばあるタンパクのフォールディングをMDシミュレーションでやってみたとして、αヘリックスなどの二次構造がいつごろからでき始めてるのか調べたい、みたいな。

使うもの

Amber16のCPPTRAJ
MDのパラメータファイル（.prmtop）とトラジェクトリ（.ncとか.mdcrdとか）

〜最低限知っておくべきこと〜

CPPTRAJの二次構造解析は（KabschとSanderの）DSSP法*1 を使っていて、タンパク質主鎖のアミド(N-H)とカルボニル(C=O)原子の位置から水素結合の有無を調べて、二次構造を決める

注意点はそれらの原子の名前がちゃんと“N”, “H”, “C”, “O”になってないとダメだってこと

ちなみに二次構造解析法はDSSPとSTRIDEがよく使われる方法で、STRIDEは水素結合に加えて二面角のポテンシャルも考慮します。VMDとかで使われてたりします。

やり方

1. まずはCPPTRAJにデータを読み込ませます。

parm xxx.prmtop

trajin xxx.nc

(xxxはファイル名)

2. そして二次構造解析コマンド"secstruct"を使います。

secstruct protein1 out result.dat :129-144

protein1:　タンパクの名前。適当でOK。
out result.dat: 　メインのアウトプットファイル名を指定。ここではresult.dat。
:129-144: 　解析する残基の番号。ここでは129番から144番までの残基の二次構造を調べている。

3. すると結果が得られます（べんり）。

まずresult.datの中身。

f:id:kitos:20180817145534p:plain

表の中の数字の意味はこちら。

f:id:kitos:20180817145923p:plain

これでMDで得た各構造スナップショットについて、どの残基がどんな二次構造を作ってるのかわかった。

全スナップショット平均値は勝手に別ファイルに出力されていて、さっきの例だと"result.dat.sum"があるはず。

ちなみに残基ごとじゃなくて、分子ごと（全残基の平均）の値が知りたい時は"totalout"のオプションをつけると出力される。例えばさっきの例だと、

secstruct protein1 out result.dat :129-144 totalout result.dat.total

でファイルresult.dat.totalに分子ごとの値が書き出される。

他にもDSSPスタイルで出力したり（マニュアルの例はこんな感じ）、

f:id:kitos:20180817153559p:plain

それを図にしたりできる（さっきの例をgnuplotで図にしたやつ）。

f:id:kitos:20180817153651p:plain

このへんの詳細はAmberのマニュアルに書いてあります（英語）。

が、もしわからないことあれば聞いてください。

*1:Define Secondary Structure of Proteins、水素結合推定アルゴリズム