机器学习能为我们的化学世界提供全新的视角

分子是否大于其各部分的总和?那要看你把什么当成零件了。考虑到士的宁含有与蛋白质相同的原子(C, H, N, O),通过将这些分子拉入其组成原子,似乎没有太多的分子性质。另一方面,马钱子碱-也发现马马钱子树和另一种令人讨厌的毒素-表明这两种分子共同的生物碱框架通常是坏消息。

0917CW -坩埚- 3D周期表

来源:©Peter Bull艺术工作室

将元素周期表扩展到第三维度,可以显示每个元素是如何创建可识别的构件的

众所周知,生理效应是反复无常的——结构相似的分子(比如两个对映体)可能产生非常不同的效果,而不同的分子可能产生几乎相同的结果。但是分子的内在性质呢,比如总能量?我们能指望它能被解剖吗?

来自瑞士巴塞尔大学的黄冰和阿纳托利·冯·利利恩菲尔德的预印本证明了这一点。1这两位研究人员已经证明,通过在相对较小的相关片段集上“训练”的机器学习算法,可以相当准确地预测大小和结构几乎任意的分子的能量。这与以前使用机器学习(ML)来计算化学性质的努力形成了对比,其中所需的训练集随着目标的大小和复杂性的增加而变得不切实际。2、3

构建块

这种问题规模的缩小是通过应用一些逻辑实现的。典型的ML方法是向算法抛出一个庞大的训练集,其中一些组件与目标关系不太密切。相反,Huang和von Lilienfeld设计了一种方案,只识别那些代表目标化学意义片段的分子框架:“核心”基团,大小从一个原子到几乎目标本身,在相关环境中准确地反映了局部化学。

这些片段的数量远远少于一个训练组中可能包含的片段的总数,但它们足以使算法收敛于对总能量的精确计算。对于测试用例,2-(呋喃-2-基)丙醇(C7H10O2),只需要34个这样的片段,就足以产生与真实数字相差1.5千卡/摩尔的结果。传统的ML方法可能需要数万个。新算法还可以预测一些其他性质,如极化性。

这些碎片是许多类似分子的组成部分。例如,与这个测试用例有点相关的化合物可能被分解成具有很强重叠程度的相似集。虽然化学空间中有意义片段的数量没有明显的限制,但它们是所有可能片段的一个小子集。而且这不仅适用于有机分子:Huang和von Lilienfeld表明,他们的方法适用于非共价结构,如水簇或DNA的氢键沃森-克里克碱基对,以及扩展的固态结构,如氮化硼片。

构建化学空间

研究人员认为,这种方法可以被认为是周期表到第三维的扩展,它列举了每个元素的所有不同的化学环境。例如,氧位于OC, ON, OO, O=N, OC=C等位置,研究人员将其称为“am-ons”:特定分子环境中的原子。Von Lilienfeld说,有一种方法可以做到这种排序,包括在相邻原子距离上的积分,即使不能避免原子排列造成的冗余,也可以为am-on提供唯一的、非任意的位置。他说,这一原理可能为化学空间提供了一种定义明确、甚至有些自然的结构,在这种结构中,周期表就变成了“生成面”。

另一篇结合了物理理论和化学直觉的论文也证明了,计算上具有挑战性的问题可以通过变得更聪明来解决。4美国普林斯顿大学的Andrei Bernevig和他的同事将化学家的真实空间图像与物理学家的复杂固态化合物带结构的动量空间图像结合起来。在这样做的过程中,他们找到了一条捷径,特别是确定了由拓扑因素主导的电子结构的候选化合物,这些因素导致了“量子材料”(如拓扑绝缘体)的不寻常特性。与Huang和von Lilienfeld列举化学碎片的方法一样,这种方法利用了系统固有的对称性,减少了寻找解决方案的冗余。

这项工作被誉为“化学和物理的幸福结合”。5这可能是我们都乐于看到的——但也许更普遍的情况是,应对复杂问题时,不仅要用更多的资源,还要用精明的思维。