En
科研动态
首页 - 科学研究 - 科研动态

 北理工智能光子学团队在纳米晶数据库与大模型领域取得重要进展


 

最近,北京理工大学智能光子学团队在“大语言模型+纳米合成”的交叉研究方面取得重要进展。他们通过建立一个包含近16万条对齐数据、涵盖了合成步骤、反应物以及纳米晶物化性质等关键特征的综合数据库,构建了用于结构化提取和生成式逆向设计的大语言模型,实现了对特定目标产物候选合成路线的精准逆向生成。该研究结果以"A Large-Scale Nanocrystal Database with Aligned Synthesis and Properties, Enabling Generative Inverse Design"为题发表于期刊《ACS Nano》。

 

研究背景:

随着人工智能技术的飞速发展,深度学习在材料结构预测方面取得了令人瞩目的进展,科学家们能够以前所未有的精度预测出具有优异潜在性能的新型材料结构。然而,在这些激动人心的成果背后,材料化学领域依然面临着一个严峻的困境——“知其结构不知其造法”。即便我们在计算机中设计出了一种极具潜力的纳米晶,想要在真实的实验台中上合成出来,仍需依赖传统且低效的“试错法”。

由于纳米晶的合成参数与其最终的物理化学性质之间存在着复杂的关联,这种耗时耗力的传统模式极大限制了新材料的落地效率。因此,发展能够直接输出合成路线的“逆向合成设计”成为了亟需突破的目标。

 

文章亮点:

1.信息提取与大容量数据库构建

为了解决缺乏高质量对齐数据的痛点,研究团队开发了名为NanoExtractor的大语言模型,专为结构化化学信息的提取和对齐而生。通过研究人员精心设计的四种数据增强策略,它能够从海量且非结构化的科学文献中,精准提炼出复杂的合成路线及其对应的产物性质(图1)。

 

图片1.jpg


图1. 利用NanoExtractor构建数据库的流程示意图

 

研究团队针对大语言模型提取精度问题,定制了四种数据增强策略来增加数据的多样性、学会自我纠错、抑制幻觉和置信度校准策略(图2)。NanoExtractor在测试集评估中的加权平均分提升至92%(不使用数据增强,模型得分仅为20%),不仅远超其他化学专用大模型(仅为 9%),也大幅领先于通用大语言模型(57%)。

 

图片2.jpg


图2. 对于NanoExtractor的四种数据增强策略(a)和提示词设计(b)

 

基于这一强大的信息提取工具,研究团队成功构建了规模庞大的纳米晶合成-性质数据库(NSP数据库)。汇集了近16万条高质量的对齐数据条目,广泛覆盖了水热合成法、热注入法等各种金属纳米晶、量子点和纳米复合材料合成方法。NSP数据库不仅为纳米晶领域提供了一座数据富矿,更为后续训练逆向设计模型奠定了基石。

 

2.NanoDesigner逆向合成设计模型

利用NSP数据库,研究团队进一步开发了专用于生成式逆向合成设计的大模型NanoDesigner。只需向模型输入目标产物、限定的反应物以及期望的性质,NanoDesigner 就能在复杂的化学空间中进行高效计算,直接生成具体的、可执行的合成路线(图3)。在整体性能评估中,研究团队引入F1得分用于评估模型是否准确包含了用户限定的反应物; ROUGE得分则用于量化生成的合成序列与参考输出之间的重叠度。评估结果显示,NanoDesigner的F1得分达到了0.85,ROUGE得分也达到了0.42。这意味着模型生成的步骤与真实的合成路线具有极高的一致性,有效克服了基线模型虽然F1得分高(0.95)但ROUGE得分极低(仅为0.07)、无法生成连贯正确路线的弱点。

 

图片3.jpg


图3. NanoDesigner大模型针对目标产物、限定反应物和目标性质,输出具体的、可执行合成路线的例子

 

为了验证模型的设计路线并非纸上谈兵,研究团队对多个纳米晶系统(包括CsPbBr3、PbS、PbSe以及极少被报道的MgF2)进行了实验验证(图4)。在MgF2纳米晶的合成中,NanoDesigner详细说明了合成方法、后处理步骤,但推荐了一种反常规的非化学计量比(Mg:F=1:1)前驱体浓度(如图3所示)。后续的实验结果证实,这个反化学直觉的条件,对于抑制副产物NaMgF3的形成起到了至关重要的作用。相比之下,目前最先进的通用大模型(如GPT和Grok-4)由于依赖于常规的化学直觉进行推理,未能发现这一关键的合成条件。

 

图片4.jpg


图4. (a) MgF2胶体纳米晶TEM图像、(b) 非计量比和 (c) 计量比的产物XRD图样;(d) CsPbBr3量子点的吸收和发射曲线;(e) PbS和 (f) PbSe纳米晶的TEM图像

 

总结与展望:

研究团队指出,尽管目前的NanoDesigner在生成复杂的核壳结构路线时仍有提升空间,但NSP数据库的建立已经为开发正向预测和逆向设计模型打下了最为关键的基础。随着该数据库的开源、逆向设计算法的快速迭代,以及命名实体识别技术的深度整合,在不久的将来,材料科学家将真正实现纳米材料高效、精准的“所想即所得”。

 

论文链接:https://pubs.acs.org/doi/full/10.1021/acsnano.6c03070

DOI:10.1021/acsnano.6c03070

数据库与模型:https://github.com/ime1452/Synthesis-Properties-Database-for-Nanomaterials