仓库源文站点原文


layout: post title: 分子模拟周刊:第 8 期 categories:


刊首语

As we know, there are known knowns; there are things we know we know.

We also know there are known unknowns; that is to say we know there are some things we do not know.

But there are also unknown unknowns—the ones we don't know we don't know.

  ——Donald Rumsfeld

这几天在处理蒙特卡洛模拟的收敛问题. 随机算法实现起来简单, 运行起来也很简单, 但证明算法的可行性, 分析阐释结果的合理性却很复杂. 我不是数学家, 就直接假定算法可行了, 否则我也不会用它了. 要分析结果, 首先就是灵魂三问: 结果收敛? 结果收敛了? 结果收敛了么?

我们知道, 只要运行时间足够长, 结果就会收敛. 可足够长是多长? 就像永远一样远? 在我可见的将来么?

我们也知道, 我们无法确知什么时候收敛, 收敛到什么程度, 但总忍不住想各种办法, 试图洞察未来, 从而赚取未来的时间.

我们是否知道, 这些随机中有着我们不知道的未知呢? 这真真是个悖论.

这与第6期中所说的优化情况类似, 只不过不确定性由空间转换成了时间.

而存在于时空中的生命, 同时承受着这双重的不确定性, 收敛的难度可想而知.

至于最终收敛到何处, 那就看个人的造化了.

无论海角与天涯,大抵心安即是家。

路远谁能念乡曲,年深兼欲忘京华。

忠州且作三年计,种杏栽桃拟待花。

  ——白居易《种桃杏》

序·王定国歌儿曰柔奴,姓宇文氏,眉目娟丽,善应对,家世住京师。定国南迁归,余问柔:“广南风土,应是不好?”柔对曰:“此心安处,便是吾乡。”因为缀词云。

常羡人间琢玉郎,天应乞与点酥娘。

自作清歌传皓齿,风起,雪飞炎海变清凉。

万里归来年愈少,微笑,笑时犹带岭梅香。

试问岭南应不好?却道:此心安处是吾乡。

  ——苏轼《定风波·南海归赠王定国侍人寓娘》

在线讲座第42期

暂定安排

【陈照强】蛋白质口袋的动态特征分析方法发展机器应用研究

【时 间】2020-03-15 周日 晚 20:00-21:00

参与方式

加入QQ群: 132266540(GROMACS/AMBER中文组), 按时上线加入群视频

资源工具

1. 线性回归计算器

有时候我需要进行简单的线性回归计算, 不需要复杂的输出结果, 只是想看看拟合效果如何. 这种时候如果动用那些复杂的程序就有点不合适了. 网上找了一圈, 找到一个在线的线性回归工具, 还不错, 可惜无法输出拟合值和原始值的图形. 所以我就自己写了一个, 功能没那么多, 但能够输出图形, 便于查看回归效果.

2. xpm2all: xpm文件转换工具

以前写过一个脚本, 用于将GROMACS的xpm文件转换成常规的数据文件, 便于用其他程序作图. 但gmx do_dssp输出的xpm文件与常规的xpm文件有点区别, 没法直接使用原来的脚本, 所以我就想扩展一下原来的脚本, 以便处理蛋白二级结构的作图问题.

想了一下, 可能的工具很多, js的, python的, 各式各样, 繁简不一, 但感觉都没有gnuplot用起来顺手, 所以还是用我熟悉的gnuplot来做了. 脚本可以将xpm中的二级结构数据转换为gnuplot的图形对象, 然后直接作图就好了. 效果还可用, 可控性比gmx xpm2ps好不少.

再想一下, 如果能够将各种二级结构图示出来岂不是更好. RCSB网站上给出的二级结构图示就不错.

也试着用gnuplot模拟了一下, 可行, 但要完美还要打磨些时间.

下面是文献上的另一种二级结构图示, 也很漂亮, 估计也能模拟出来.

小蛋白使用复杂点的图示还可以, 如果是大蛋白, 复杂的图示就看不清楚了, 还是使用简单的颜色表示吧. 当然也可以将蛋白分段, 每段使用复杂的图示.

3. webMT: 在线机器翻译辅助工具

以前的机器翻译辅助工具, 只支持腾讯和谷歌, 所以名字为tengoo. 我把上期推荐的彩云小译也加进去了, 所以改名为webMT. 采用的方法有点丑陋, 因为彩云小译的在线翻译网页所用的技术和其他两个不同, 没找到很好的办法来指定翻译内容.

4. Autolife's Blog

陈照强博士的个人网站. 他是资深的perl用户, 他整理的PyMOL中文教程, RDKit中文教程都很好, 值得推荐.

论文采风

学艺术和建筑的, 经常要外出采风和写生. 做科研的也同样需要, 只不过换成了阅读文献和查看问题. 阅读别人的论文其实就是采风, 而尝试解决别人提出的问题, 就是写生了.

1. Helices through 3 or 4 points?

在用gnuplot画蛋白螺旋二级结构的时候, 开始不知道应该用什么曲线来表示. 查了一下, 原来平面内螺旋线示意图所用的曲线就是大名鼎鼎的外旋轮线. 真有点想不到. 在查相关资料的时候偶然看到这篇文章. 没想到螺旋线拟合的问题到现在还有人在研究, 而且也没有完全解决. 这篇文章给出了使用3个点拟合螺旋线的方法, 扩展一下可以用于拟合蛋白的螺旋.

2. 螺旋拟合

顺着上篇文章的问题, 查看了一下拟合蛋白螺旋都在用什么方法, 列出我看到的一些, 可以参考.

3. Handbook of Markov Chain Monte Carlo

蒙特卡洛方法的手册, 给出了很多操作建议, 不空谈, 值得多读.

顺便列出一些涉及MC收敛判断的资料:

读了这些, 应该会对MC收敛有个大致的了解了.

4. D3Pockets: A Method and Web Server for Systematic Analysis of Protein Pocket Dynamics

陈照强博士的论文, 发展了蛋白可药性口袋的识别方法, 并实现了网络服务, 方便使用. 暂定3月15日的在线讲座主要就是这篇论文的内容.

问题写生

NVT, NPT如何选择?

NPT/NVT的选择取决于你具体要算的性质. 一般而言, 最开始平衡要都要做NPT. 然后的成品模拟, 根据你的需要做NPT或NVT.

难道不是统一的吗?按照GMX上贾斯汀的例子,他都是先NVT再NPT,因为他是大牛,所以我一般都模仿这个流程。不过,也有国内同行的人说,先NPT把压强控稳了,再做NVT。。

他先做NVT是怕初始构型不好, 直接上NPT会崩溃. 如果你一开始就能控制住, 直接上NPT就是了

所以,我理解你的意思是, NPT是必要的, NVT是为了NPT

还有人会在开始前做EM, 目的也是一样.

要得到正确的系综, 必须NPT

NVT是有些情况NPT不适用, 比如slab算表面张力, 你只能使用NVT. 但初始构型还是要从NPT平衡后的取

我个人的经验是NVT很好弄,温度很快温度到设置的温度。但是压强不好控制。而且,在NPT的时候,选择控压算法,我也很纠结,是选Parrinello-Rahman,还是选Ben那个算法呢?

NPT时压力的涨落很大, 这很正常, 但长时间的压力平均值应该接近设定的参考压力.

你要是开始发现PR控制不好, 可以先用另一个. 控制差不多了再换PR. 最终的模拟要用PR, 因为这给出正确的系综抽样

但对一些体系, 直接用PR可能会引起问题. 所以先用快速控压的方法快速平衡, 再用PR精确平衡.

这些做法看似五花八门, 实际目的都是一样的. 你知道了它的目的就明白了.

最好首先了解原则, 然后再看具体的操作, 否则的很容易迷惑, 因为不同人做法可能看起来很不一样

原则就是尽可能的模拟实验条件

博前博后

这里推送最新发布的招聘信息. 你可以看看有没有适合自己的位置, 或从中了解相关领域目前的研究项目.

往期回顾

订阅投稿

本周刊记录我每周所读所思, 并自觉值得与大家分享的内容.

本周刊同步更新在我的网络日志 哲·科·文 和微信公众号 分子模拟之道.

如果你觉得我的分享对你有益, 不妨将它推荐给你认识的人.

如果你也认同分享的理念, 欢迎投稿或推荐自己的内容. 请关注微信公众号后台留言, 或加入QQ群联系.