大模型如何学会推理——及其在跨学科科学百科构建中的应用
报告人:陈锟(中国科学院理论物理研究所)
时间:2025-11-19 10:00-11:00 am
地点:北京大学静园六院211会议室
摘要:
人类对世界的理解依赖于严密的逻辑推理,但传统的知识载体——教科书、论文与百科——往往只给出压缩后的结论,而将“推理过程”这部分“知识的桥梁”大幅省略,使得结论不仅难以校验,还难以跨学科交叉应用。与此同时,新一代大语言模型(LLM)也是在这种被压缩的互联网语料上训练出来的:它们在参数中记忆了海量相关性与事实,却很少直接接触到完整、显式的推理链条。因此,一个核心问题是:LLM 的推理能力究竟是如何在这种语料上涌现出来的?我们又能否把这种“隐形推理”系统地外显出来,并反过来服务于科学知识的整理与重构?
本报告首先以DeepSeek/Kimi等工作的最新进展为背景,讨论通过可验证奖励强化学习(RLVR)在仅有“System 1”直觉的基础上,如何涌现出类似“System 2”的通用推理能力。我们提出“概念网络(concept web)”这一粗粒化的推理图像,并发现统计物理玩具模型(CoNet)和真实大模型训练中涌现出的、平均度数约为 2 的近树状结构,可以为一系列现象提供相对统一的解释,包括快/慢学习阶段、RL 训练过程中推理链长度先缩短后再延长的演化行为,以及监督微调中的灾难性遗忘,从而为理解“大模型如何学会推理”提供了一个有启发性的统计物理视角。
在此基础上,报告进一步展示如何利用长思维链(Long Chain-of-Thought, LCoT)作为一种超越互联网语料的新型语料来“解压缩”人类科学知识。我们构建了一个覆盖数学、物理等多个学科、约数百万可验证问答对的长链推理知识库,并在其之上实现了反向知识搜索与高质量知识合成,最终形成一个约20万条目、具备强交叉学科能力和显著低幻觉率的科学百科系统——Sciencepedia。因此,本工作可作为“通用人工智能在科学中的应用(AGI for Science)”的一次具体探索。
报告人简介:
陈锟,中国科学院理论物理研究所副研究员。他的研究兴趣包括物理与AI,致力于研究大语言模型逻辑推理能力的涌现问题,并探索通用人工智能在基础科学研究中的新范式。他在中国科学技术大学获得学士学位后,在合肥微尺度国家实验室和美国马萨诸塞州立大学分别获得了量子信息与凝聚态物理的博士学位。博士后期间,他受西蒙斯基金会资助,在罗格斯大学和Flatiron研究所深造。陈锟受国家引才计划青年项目支持。任国家重点研发子课题负责人。担任SciencePedia项目的首席科学家。
