可跨学科理解、多尺度建模，MIT LAMM发布微调的大语言模型 MechGPT_AI应用

可跨学科理解、多尺度建模，MIT LAMM发布微调的大语言模型 MechGPT

发布时间：2023-11-15

点击量：

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

编辑 | 萝卜皮

在过去的几个世纪中，研究人员一直在寻找将不同领域知识联系起来的方法。随着人工智能的出现，我们现在有机会去探索跨领域（例如力学和生物学）或不同领域（例如失效力学和艺术）之间的关系

为了达到这个目标，麻省理工学院（MIT）原子与分子力学实验室（Laboratory for Atomistic and Molecular Mechanics，LAMM）的研究人员利用经过微调的大型语言模型（LLM）来获得多尺度材料失效的相关知识子集

这种方法的步骤是先使用通用的LLM从原始来源中提取问答对，然后对LLM进行微调。利用这个微调后的MechGPT LLM基础模型进行一系列计算实验，以探索其在知识检索、各种语言任务、假设生成以及跨不同领域连接知识方面的能力

尽管该模型具有一定的能力来回忆训练中的知识，但研究人员发现 LLM 对于通过本体知识图提取结构见解更加有意义。这些可解释的图形结构提供了解释性见解、新研究问题的框架以及知识的视觉表示，这些知识也可用于检索增强生成。

该研究以「MechGPT, a Language-Based Strategy for Mechanics and Materials Modeling That Connects Knowledge Across Scales, Disciplines and Modalities」为题，于 2025 年 10 月 19 日发布在《Applied Mechanics Reviews》。

对物理、生物和形而上学概念进行建模一直是许多学科研究人员关注的焦点。早期的科学家和工程师往往深深扎根于从科学到哲学、物理到数学以及艺术的多个领域（例如伽利略·伽利莱、列奥纳多·达·芬奇、约翰·沃尔夫冈·冯·歌德），但是随着科学的发展，专业化在如今已经占据主导地位。部分原因是跨领域积累了大量知识，这需要人类花大量的精力去研究实践。

现如今，大型语言模型（LLM）的出现对科学研究的范式提出了挑战。它不仅带来了基于人工智能/机器学习的新建模策略，还为跨领域连接知识、想法和概念提供了机会。这些模型可以补充传统的多尺度建模，用于分析和设计分层材料以及力学中的许多其他应用

图：工作流程示意图。（来源：论文）

在这里，LAMM 的研究人员以最近提出的 LLM 在力学和材料研究和开发中的用途为基础，并且基于 Llama-2 based OpenOrca-Platypus2-13B 的通用 LLM，开发了一个经过微调的 MechGPT 模型，该模型专注于模型材料失效、多尺度建模以及相关学科。

选择 OpenOrca-Platypus2-13B 模型的原因是因为它在推理、逻辑、数学/科学和其他学科等关键任务上表现出色，能够以适中的模型大小提供丰富的、可应用于多学科的知识和通用概念，并且具备高效的计算能力

LLM 在科学领域有着强大的应用。除了能够分析大量数据和复杂系统之外，在力学和材料科学领域，LLM 用于模拟和预测材料在不同条件下的行为，例如机械应力、温度和化学相互作用等。正如早期工作所示，通过在分子动力学模拟的大型数据集上训练 LLM，研究人员可以开发能够预测新情况下材料行为的模型，从而加速发现过程并减少实验测试的需要。

此类模型对于分析书籍和出版物等科学文本也非常有效，使研究人员能够从大量数据中快速提取关键信息和见解。这可以帮助科学家识别趋势、模式以及不同概念和想法之间的关系，并为进一步研究产生新的假设和想法。

请查看下图，这是用于构建MechGPT的自回归解码器transformer架构概述。（来源：论文）

在这里，该团队将重点放在后者的开发上，并探索 MechGPT 的使用，这是基于 Transformer 的 LLM 系列中的一种生|成人|工智能工具，专门针对材料失效和相关的多尺度方法进行了训练，从而评估这些策略的潜力。

该研究提出的策略包括几个步骤。首先是蒸馏步骤，研究人员使用LLM从原始数据块中提取的文本（例如一个或多个PDF文件）生成问答对。接下来，在第二步中利用这些数据来微调模型。这项研究还专门训练了初始的MechGPT模型，在材料失效的原子建模领域展示了其在知识检索、通用语言任务和假设生成等方面的有用性

图：所使用的建模策略概述。（来源：论文）

这篇论文介绍了一个总体的建模策略，研究人员采用特定的语言建模策略来生成数据集，以从源中提取知识，并利用新颖的力学和材料数据集对模型进行训练。研究人员对MechGPT的三个版本进行了分析和讨论，这些版本的参数大小从130亿到700亿不等，上下文长度超过10,000个token

在对模型、提示以及训练方式进行一些一般性评论之后，研究人员应用该模型并在各种设置中测试其性能，包括使用 LLM 进行本体图生成和开发有关跨学科复杂主题的见解，以及代理建模，其中多个 LLM 以协作或对抗的方式交互，以产生对主题领域或问题回答的更深入的见解。

图：开发本体知识图表示，以在超音速断裂和蛋白质展开机制的背景下关联超弹性。（来源：论文）

同时，该团队进一步提供了不同抽象级别的语言模型和多粒子系统之间的概念比较，并解释了如何将新框架视为提取管理复杂系统的普遍关系的手段。

重写内容：上图展示了LLM和多粒子模拟之间的概念类比。（图源：论文）

总体而言，该研究提出的工作有助于开发更强大、更通用的人工智能模型，这些模型可以帮助推进科学研究并解决特定应用领域的复杂问题，从而可以深入评估模型的性能。与所有模型一样，它们必须经过仔细验证，它们的有用性存在于所提出的问题的背景、其优点和缺点以及帮助科学家推进科学和工程的更广泛的工具中。

而且，人工智能工具作为科学探究的工具，必须被视为理解、建模和设计我们周围世界的工具集合。随着人工智能工具的快速发展，它们在科学背景下的应用才刚刚开始带来新的机遇

论文链接：https://arxiv.org/ftp/arxiv/papers/2310/2310.10445.pdf

相关报道：https://twitter.com/llama_index/status/1723379654550245719

标签：# 这是 # 几个 # 约翰 # 进行了 # 歌德 # 芬奇 # 麻省理工学院 # 伽利略 # 在这里 # 架构 # 多个 # llama # https # transformer # 人工智能 # Token # for

上一篇：S-LoRA：一个GPU运行数千大模型成为可能

下一篇：全新上市|舒华V9+智能商用跑步机，AI引领科学运动

可跨学科理解、多尺度建模，MIT LAMM发布微调的大语言模型 MechGPT

发布时间：2023-11-15

点击量：

返回

400 8905 500