PyMOL可视化蛋白质

写在前面的

上次推文介绍了如何用多种方法批量快速下载高通量测序数据，主要介绍了Aspera的用法和axel用法。这里再额外提一句，Aspera的使用需要足够的学习，学会如何解决报错，如何解决网络协议问题。

这次我再介绍一个简单使用的软件——PyMOL的使用，昨天晚上，我的好朋友反馈给我说这个软件教程密密麻麻一堆，不知道如何下手。因为她的任务是做蛋白质结构的一些分析，分析过程中需要用到这个软件。PyMOL是可视化蛋白质结果的软件，看见这个命名就知道这个软件是基于Python开发的软件。我想，很多做蛋白质或者是做结构的学生都会好奇，CNS上面那些高逼格的蛋白质结构是怎么画出来的？其实就是拿这个画出来的。话不多说，直接上教程。这个软件有windows版本，这次我们直接以windows系统为主体，详细介绍一下这个软件如何用。该软件下载网站为https://pymol.org/2/，下载该软件后是付费版本，如果想要获取免费版本可以用学生身份下载。至于如何用学生身份下载我就不介绍了，毕竟网站自己提供了教程。下载完学生版后双击软件是如下界面

PyMOL教程

这个界面是命令行界面。在左上角输入命令就可以进行相关操作了。先学习最简单的使用方法，如何获得序列。比如，你自己的手里有一条氨基酸序列（最好是已经有人研究过的，如果没有研究过你需要做从头建模或者同源建模，有点钱做个冷冻电镜）。为啥我这里说是最好是有人研究过的，因为有人研究过这个蛋白的结构就有最准确的结构数据，你可视化的蛋白质一定就是这样的，如果你手里的蛋白质是没有人研究过的，那么你做从头建模只有不到30%的准确性预测对你的结构，如果做同源建模你只有大约60%的可能性把你的蛋白质部分区域预测准确，如果你有钱冷冻电镜随便搞，那我无话可说。因为这个软件只是一个可视化软件，它没本事把你的蛋白质结构给算出来。当然如果你的序列实在是没人研究过，你不妨先放到PDB数据库比对比对，把最像的那个蛋白质结构可视化出来也行。其实PyMOL有一个直接爬取PDB数据库的蛋白质结构数据功能。只要你知道了你的蛋白在PDB数据库中的ID名称你就可以用这个软件下载。我们以Nipah病毒的某个蛋白复合物（在PDB数据库的ID号为7cel）为例进行本次教程

初次下载数据输入

fetch 7cel

如果是第二次可视化同样的蛋白，无需再下载，只需输入命令load即可

load 7cel

如果你不想研究蛋白质上的化学基团，可以使用命令移除

as cartoon

这样简洁的结构刻画出来了。由于这是一个三维视图，要想选择一个最佳的界面需要一些移动操作。旋转和缩放是必须要掌握的。
旋转图像：对准图像的任意处鼠标左键然后移动鼠标。
缩放图像：对准图像的任意处鼠标右键向上移动为缩小图像，向下移动为放大图像。
移动图像：对准图像的任意处同时点击鼠标左键和中键就可以移动图像。
看见这一个单调的图，如果想给图增加丰富的内容就需要更多的操作。一般情况下，我们喜欢明显地看蛋白质的二级结构如α螺旋，β折叠和无规则卷曲。

#用不同的颜色标记蛋白质二级结构，其中h，s与l+””分别指代α螺旋，β折叠和无规则卷曲。
color red, ss h;
color yellow, ss s;
color green, ss l+””

另外，如果还想额外给氨基酸序列的某个motif做上颜色标记，可以采用如下方法

以上这几种功能是相对最常用的功能。再调整好最佳视角后就可以保存输出

最后成果如下

总结

掌握一个成熟的可视化软件相对简单，学会如何下载，调整蛋白质结构数据即可。另外对于今天小明师兄做的线上线下讨论，非常有意思。限于篇幅问题，我就把前面的个别问题再总结一下：1.对于reads的测序长度问题：不同的平台测的reads长度不一样，短的有50bp长的也有150,200bp。选择多长的测序长度也是看测序目的，如果是无参考基因组那么选择长的reads可以保证组装与mapping的唯一性。2.转录组测序与基因芯片相比，转录组测序可以相对更好地定量，但是基因芯片只能较好反映中等表达的基因，对于高表达基因和低表达基因都会因为噪音与背景值问题无法客观反映。3.对于转录组测序的移除rRNA问题，由于原核生物，病毒的mRNA无ployA，所以对于这两种生物的测序（病毒是测感染宿主后）都是通过移除rRNA策略完成。4.对于链特异性测序，虽然讨论也没有讨论出一个最出色的结果，但是如果遇到了这种测序数据需要分析，在组装或者定量的软件中都有对应的参数选择是否是链特异性测序。5.对于是先打断再测序还是先逆转录再测序的问题，这个不是一定的，如果目标是定量，那么选择先逆转录再测序较好，因为所有基因都随机丢失，互相抵消相对差异没有变。如果是要挖掘新的基因结构，选择先打断再测序比较好，这样可以将gene body较好地反映出。6.对于Base calling的质量计算，有相应的数学模型如Q30,Q20.这些都是根据Q=-10logP计算的，P是碱基的测序错误率。6.对于序列比对的算法问题，这里涉及较多数学模型，对于动态规划算法，依赖于打分机制，这是一个较容易理解的算法。通过动态规划制成得分表后需要回溯，从而找到序列比对的结果。对于BWT算法，这是一种通过前缀树实现的算法，通过找出S序列的所有前缀，对前缀进行翻转，按照字典进行排序。排序完成后进行模式匹配。这是我在听完小明师兄的课后进行的一个简单总结。向小明师兄学习！

作者信息

熊东彦，中国科学院病毒研究所在读研究生。擅长方向：转录组分析，宏基因组分析，R语言编程、Perl语言编程。近期推文：生物信息学分析使用小技巧。

参考

https://pymol.org/2/

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。