麻省理工学院开发了一种新的分析材料的机器学习系统

一种新的分析材料的机器学习系统

一种新的用于分析材料“配方”的机器学习系统使用了一种变分自动编码器,它将数据(左手圈)向下压缩成更紧凑的形式(中心圈),然后再尝试将其重新扩展为原始形式(右手圈)。如果自动编码器训练成功,则紧凑表示将捕获数据最显著的特征。图片:切尔西·特纳/麻省理工学院

上个月,三个麻省理工学院材料科学家和他们的同事发表了一篇论文新的人工智能系统它可以仔细阅读科学论文,并提取生产特定类型材料的“配方”。

这项工作被设想为朝着一个系统迈出的第一步,这个系统可以为那些只能在理论上描述的材料创造配方。现在,在期刊上的一篇论文中npj计算材料这三位材料科学家和麻省理工学院电子工程与计算机科学系(EECS)的一位同事在这个方向上迈出了进一步的一步,他们发明了一种新的人工智能系统,可以识别出更高层次的模式,这些模式在菜谱中是一致的。

例如,新系统能够识别原料配方中使用的“前体”化学物质与最终产品的晶体结构之间的相关性。事实证明,同样的相关性在文献中也有记载。

该系统还依赖于提供生成原始配方的自然机制的统计方法。在本文中,研究人员利用这一机制为已知材料提出了替代配方,这些建议与实际配方非常吻合。

这篇新论文的第一作者是材料科学与工程专业的研究生爱德华·金(Edward Kim)。资深作者是他的顾问,Elsa Olivetti,材料科学与工程系(DMSE)能源研究的大西洋里奇菲尔德助理教授。DMSE的博士后Kevin Huang和EECS的X-Window联盟职业发展助理教授Stefanie Jegelka也加入了这一行列。

稀疏和稀缺

与过去10年中许多表现最好的人工智能系统一样,麻省理工学院研究人员的新系统是一个所谓的神经网络,它通过分析大量训练数据来学习执行计算任务。传统上,使用神经网络生成材料配方的尝试遇到了两个问题,研究人员将这两个问题描述为稀疏性和稀缺性。

任何材质的配方都可以用矢量表示,矢量本质上是一长串数字。每个数字都代表了配方的一个特征,比如特定化学物质的浓度,溶解它的溶剂,或者反应发生的温度。

由于任何给定的配方都只使用文献中描述的许多化学品和溶剂中的一小部分,因此这些数字中的大多数都是零。这就是研究人员所说的“稀疏”的意思

同样,为了了解改变反应参数(如化学浓度和温度)会如何影响最终产品,理想情况下,一个系统需要在大量的参数变化的例子中进行训练。但对于某些材料,特别是较新的材料,文献可能只包含少数食谱。这是稀缺。

“人们认为机器学习需要大量数据,如果数据很少,就需要更多数据,”Kim说。“当你试图专注于一个非常具体的系统,你被迫使用高维数据,但你没有很多,你还能使用这些神经机器学习技术吗?”

神经网络通常被分成几层,每层由数千个简单的处理单元或节点组成。每个节点都连接到上面和下面层中的多个节点。数据被送入底层,底层对其进行操作并将其传递给下一层,下一层对其进行操作并将其传递给下一层,依此类推。在训练过程中,节点之间的连接会不断重新调整,直到最后一层的输出一致地接近某些计算的结果。

稀疏、高维数据的问题在于,对于任何给定的训练示例,底层的大多数节点都没有接收到数据。要确保整个网络能够看到足够的数据来学习做出可靠的概括,需要一个庞大得令人望而却步的训练集。

人为瓶颈

麻省理工学院研究人员网络的目的是将输入向量提取成更小的向量,所有这些向量的数字对于每个输入都是有意义的。为此,网络有一个中间层,中间层只有几个节点——在一些实验中只有两个节点。

训练的目的只是配置网络,使其输出尽可能接近输入。如果训练成功,那么中间层中的少数节点必须以某种方式表示包含在输入向量中的大部分信息,但必须以一种更压缩的形式。这种输出试图与输入相匹配的系统被称为“自动编码器”。

自编码补偿了稀疏性,但为了处理稀缺性,研究人员不仅训练他们的网络制作特定材料的配方,还训练他们制作非常相似的材料的配方。他们使用了三种相似度衡量方法,其中一种方法寻求最小化材料之间的差异——比如说,只替换一种原子另一方面,在保持晶体结构的同时。

在训练过程中,网络给示例菜谱的权重根据它们的相似度评分而变化。

玩的

事实上,研究人员的网络不仅仅是一个自动编码器,而是一个所谓的变分自动编码器。这意味着,在训练过程中,评估网络的不仅要看其输出与输入的匹配程度,还要看中间层得到的值是否符合某种统计模型,比如熟悉的钟形曲线或正态分布。也就是说,在整个训练集上,中间层的值应该围绕中心值聚类,然后在各个方向上以规则的速度逐渐减少。

在训练了一个带有两节点中间层的变分自动编码器,以了解二氧化锰和相关化合物的配方后,研究人员构建了一个二维地图,描绘了两个中间节点对训练集中每个示例的值。

值得注意的是,使用相同前体化学物质的训练例子在地图上的相同区域,区域之间有明显的边界。同样的情况也发生在产生四种二氧化锰常见“晶型”或晶体结构的训练例子上。结合这两种映射,可以看出特定的前驱体和特定的晶体结构之间的相关性。

“我们认为这些区域是连续的,这很酷,”Olivetti说,“因为没有理由说这一定是真的。”

变异自编码也使研究人员的系统能够生成新的食谱。因为中间层的值遵循概率分布,从这个分布中随机选择一个值很可能产生一个貌似合理的配方。

Jegelka说:“这实际上涉及了目前机器学习领域非常感兴趣的各种话题。”“使用结构化对象进行学习,允许与专家进行解释和交互,并生成结构化的复杂数据——我们整合了所有这些。”

Citrine Informatics的创始人兼首席科学家布莱斯•梅雷迪格(Bryce Meredig)表示:“‘可合成性’是一个例子,它是材料科学的核心概念,但却缺乏一个良好的基于物理学的描述。”Citrine Informatics是一家将大数据和人工智能技术应用于材料科学研究的公司。“因此,由于无法合成出预测的材料,用于新材料的计算屏幕多年来一直受到阻碍。Olivetti和同事们采用了一种新颖的、数据驱动的方法来绘制材料合成图,并为我们能够通过计算识别材料做出了重要贡献,这些材料不仅具有令人兴奋的特性,而且还可以在实验室中实际制作。”

这项研究得到了美国国家科学基金会、加拿大自然科学与工程研究委员会、美国海军研究办公室、麻省理工学院能源倡议和美国能源部基本能源科学计划的支持。

发表:Edward Kim等,“基于深度学习的无机材料合成参数的虚拟筛选”,npj计算材料3,文章编号:53 (2017)内政部:10.1038/s41524-017-0055-6

第一个发表评论关于“麻省理工学院开发一种新的用于分析材料的机器学习系统”

留下你的评论

电子邮件地址是可选的。如果提供,您的电子邮件将不会发布或共享。