文 I 奕萱
编辑 I 萌萌
随着 2022 年 11 月 ChatGPT 的推出,全球范围内掀起了大模型发展的浪潮。在短短两年半的时间里,大模型领域以前所未有的速度涌现出大量创新,涵盖模型架构、训练范式、应用等多个技术层面,推动着人工智能技术不断迈向新的高度。
7月27日,世界人工智能大会(WAIC)“大模型技术演进与发展之路” 的圆桌论坛,聚焦大模型技术的前沿动态与未来走向,邀请了阶跃星辰首席科学家张祥雨博士、上海人工智能实验室书生大模型负责人的陈恺博士、智谱华章总裁王绍兰、第四范式首席科学家陈雨强以及英伟达副总裁 Neil Trevett参与讨论。
圆桌围绕技术范式迁移、强化学习的挑战与演进、模型架构变革、数据瓶颈破局、基础模型研发与行业落地的平衡、开源生态发展等关键议题展开深入探讨,各位嘉宾结合自身实践与研究,分享了极具洞察力的观点,为理解大模型技术的演进逻辑与发展路径提供了重要参考。
WAIC大模型圆桌实录:技术演进、数据瓶颈与开源生态以下为对话内容实录整理:
林达华:大模型技术发展至今,在繁荣背后已进入十字路口,技术路径各层面存在诸多不同声音。过去大半年,大模型发展出现重要范式迁移:从 OpenAI 开创的 “预训练为主、监督学习为辅”,逐渐转向 “显著提升推理能力的强化学习” 范式。
OpenAI 前首席科学家伊利亚在 2024 年大会上提出 “预训练时代即将结束”。这种范式转移对大模型未来发展有何影响?
事实上,推理范式、强化学习范式在大幅提升模型能力和推理能力的同时,也面临诸多挑战,如幻觉、冗长的思考过程,以及在数学、编程之外领域的适用性是否能同等提升等,这些都是大家关注的问题。
祥雨博士、陈恺博士近期发布的模型,均以推理为重要亮点。那么,如何评价这一范式转移,以及强化学习当前面临的挑战?
张祥雨:今年以来范式的演进让模型推理能力提升了一个大档次。
范式的合理性在于,预训练通过压缩数据原料,在模型内部形成更紧凑(compact)的表示,对模型学习世界知识、建模内在知识结构作用重大。但预训练基于 “行为克隆(behavior cloning)” 范式,传统上认为行为克隆的所有问题,在如今的预训练中依然存在。
无论使用多少数据、多大模型,都难以解决 “压缩” 与 “推理(找到逻辑自洽的因果链以达成目标的能力)” 的区别。因此,O1 等强化学习范式应运而生,从逻辑上看,它朝着目标最大化方向优化,其最了不起的是提出带反思的思维链,一定程度上解决了 Transformer 架构在预训练时过度压缩的问题 —— 因缺乏反思,过于复杂的决策(decision)无法完成。
我认可这套范式的科学性,其未来发展有两条关键路径:一是进一步扩展,接受自然语言反馈,而非仅数学、代码等确定性反馈。有了自然语言反馈,向上游可迁移至大规模预训练,向下游可延伸至更广泛场景,这对实现自主学习、自主探索环境的智能体(agent)至关重要,要求反馈信号能接受非确定性的自然场景信号。
林达华:陈恺博士的分享提到了技术范式的重要拓展:将强化学习延伸至大规模预训练,以及用强化学习增强推理性能,这很有启发性。
我们注意到上海人工智能实验室过去大半年在强化学习方向做了很多工作,还推出了InternBootcamp(加速训练营)。陈恺博士,在你看来,强化学习当前的挑战及未来演进方向是什么?
陈恺:近一年,强化学习越来越受认可,但也让研究者从另一视角重新认识到预训练的重要性。强化学习能大放异彩,依赖于一个好的冷启动模型,过去可能是预训练、 SFT、强化学习,而现在对预训练的重视程度仍在提升 —— 它为强化学习提供了良好基底,支持模型探索多种未来可能性。
如今,SFT 阶段逐渐被压缩,部分能力被强化学习替代。预训练的重要性被重新认知后,将进一步推动强化学习发展。
当前强化学习面临两大挑战:
1. 奖励与反馈问题:目前强化学习多解决有确定答案的任务,但多数有价值的任务没有唯一确定答案,需要新的评价标准或实际交互反馈来形成奖励机制,这是其拓展至更多任务的关键。
2. 基础设施(infrastructure)问题:强化学习效率不高,需要大量算力支持模型探索和学习;若未来向交互反馈方向发展,对基础设施的挑战将更大。
林达华:模型研发中,训练范式很重要,而高效的模型架构是基础。今年年初,Deepsek v3 推出引发广泛关注,其核心是提出更高效的模型架构,大幅降低训练和推理成本。如今进入多模态时代,模型架构层面是否有创新机会?是否存在超脱于现有 Transformer 标准架构的根本性转变。
张祥雨:从模型发展历史看,对超大型模型而言,架构并非最重要的性能决定因素,而是为系统和算法服务。过去,大模型训练方法主要是next token prediction,Transformer 具有很多优良的特性适合系统和算法。因此 Transformer 架构经各种改进后,仍为经典架构。
但如今问题发生变化:算法逐渐向更重的智能体(agent)迁移,应用从推理(reason)时代向智能体(agent)时代迁移。智能体的核心特性是自主性 —— 主动与环境交互、从环境中学习,这意味着架构需要像人类一样,具备建模 “无限流” 或 “无限上下文” 的能力。
因此,我认为传统 Transformer 架构已遇到阻碍,未来短期内,类似循环神经网络(RNN)的架构可能成为主流设计方向。
当前很多线性 Transformer(linear transformer)设计虽看似能处理无限流,但存在缺点:序列增长时,每个预测 token 对应的神经网络仅宽度增加,深度不变(因注意力机制始终与上一层交互)。而未来架构应像传统 RNN那样,引入从深层到浅层的反向交互,这可能会破坏并行性,需通过分块(trunk)等聪明方法解决,这是未来需重点尝试的方向。
林达华:模型研发中,数据是基础驱动力。昨天的论坛中提到,互联网数据在大模型初期发展中作用关键,但目前已逐渐枯竭。面对数据瓶颈,如何破局以推动人工智能向通用人工智能(AGI)突破?这不仅是技术问题,还涉及生态。从产业方角度,先请 Neil Trevett 分享。
Neil Trevett:在训练和视频领域,英伟达试图通过专业知识帮助行业。我们最初是图形公司,在图形和物理模拟方面有丰富经验。
毫无疑问,数据缺乏是关键问题,尤其是难以收集、成本高、涉及不道德或危险的私人数据,以及需准确标注的数据 —— 这类数据对训练至关重要,尤其适用于生成碰撞、机器人异常场景等难以模拟的情况。
但不能仅依赖合成模拟数据,否则会导致模型存在空白、错误和偏见。因此,需要建立反馈循环:结合真实世界基准测试和验证,可能引入人类参与,使用自监督学习减少数据需求,让训练系统自主导向最有用的场景,仅在需验证和纠正时引入人类,以避免模型崩溃。
林达华:英伟达通过模拟(simulation)产生增量数据以打破存量数据瓶颈,很有价值。智谱服务了众多行业企业,想必也遇到不少数据相关挑战,王总对此有何看法?
王绍兰:从行业应用实践看,数据尤为重要。对预训练而言,互联网数据 “耗尽” 是量的概念,更关键的是质的问题 —— 互联网数据准确性不足,而数据质量对模型输出影响巨大,尤其对未来推理中正确路径的生成至关重要。因此,提升预训练数据质量是下一步重点。
我们不认为数据已耗尽,因大量行业数据仍沉淀在行业中,需通过行业场景激发。大模型应用于行业需预训练行业数据:基座模型如同培养大学的通识能力,进入企业后需学习企业知识库(后训练),再通过 “师傅带徒弟” 式的强化学习实现对齐 —— 这与人类学习路径一致。
行业数据是垂类模型公司的最大壁垒,包括行业沉淀数据和有经验的强化训练知识,这能避免被基座模型公司碾压。
关于模拟数据合成:大模型应用拓展至自动驾驶、机器操作、等领域时,缺乏实际数据,需依赖合成和仿真,但仿真对真实世界的模拟程度至关重要,且合成数据不能解决所有问题,面临诸多工程挑战。
最后,我建议行业内建立联盟,共享非关键非秘密的核心数据,为大模型场景应用提供更多资源。
林达华:王总提到了行业落地中数据壁垒的重要性,以及基础模型与行业的生态角色差异。当前业内有一重要讨论:大模型应用已进入深入阶段,存在 “向左走(持续投入基础模型研发,成本高昂)” 与 “向右走(快速构建商业闭环、深入落地)” 的选择。
智谱既做基础研究也做行业应用,如何平衡两者?它们之间的关系是什么?
王绍兰:智谱一方面研发基座模型(包括语言、多模态、智能体基座),另一方面推动行业应用,这是两件事:
首先,基座模型仍在快速发展。若将大模型向 AGI 的发展分为五级,目前仅处于第三级(完成预训练、对齐和推理,进入自我学习即深度推理阶段),距离 AGI 还有很长路要走,可能不到一半。因此,需持续投入基座模型研发,智谱将坚持自主算法,直至 AGI 实现。
智谱其实从清华处转移转化出来之后,在基座模型上一直秉承着自主算法的路。如果说AGI没有实现,那么这个自主算法就会持续的发展下去。从公司来讲,我们也会愿意持续在基础研究上投入更大的力量。
大模型比传统企业增加了研究的部分,但是研究又具有巨大的不确定性。但我们会持续的推动基座模型研发,这是一个决心。
其次,我们也会持续的推动商业化的应用。大模型就是用来用的,如果大模型一直纯理论研究,不去做商业化的落地,我们怎么样证明大模型真正改变产业呢?
我们其实也不需要等到大模型真的变成生产力的那一天。因为大模型的能力在不断的扩充、发展,今年已经开始做智能体了,我们看到大模型的应用越来越广。对于智谱来讲,必须作为一个践行者、实践者,去推动整个大模型的落地。
当然,我们也希望各个行业中的生态一起来做这件事情,一起努力把大模型用下去。我们希望各个行业中的领军企业,各个行业中的领导,能够一起来学习大模型,用大模型的思维来改变这个世界。我觉得大模型在推广过程中的最重要的是思维的改变。
林达华:谈到场景落地,范式在金融等行业的人工智能应用中走在前列。从陈雨强博士角度看,商业落地、行业深耕对大模型时代技术发展的价值是什么?如何看待基座模型发展与行业落地的关系?
陈雨强:我们在行业落地中做了很多应用,也看到学界模型与行业落地存在鸿沟,试图解决这些问题:
1. 企业竞争力:在技术快速发展的背景下,如何保证行业竞争力是企业 IT 团队的关注点。中国作为人工智能大国,具有优势。企业怎么能将开源、闭源的模型,统一调度和使用,是比较关键的问题。
2. 基础模型能力要求:数据问题关键,因模型产生价值,30% 以上流量来自大模型结果而非传统搜索引擎,导致出现专门针对模型植入商业意图的 “GEO” 行业(不同于 SEO)。我们尝试解决数据问题,例如发明了 “arena”,但它有成功也有问题 —— 普通人使用 arena 时,更关注答案 “看起来更好”(如排版、格式),而非实际正确性。
3. 企业落地的复杂问题:例如金融领域反欺诈场景中,无法将日均 10 亿用户交易数据输入大模型判断欺诈,技术和数据层面均需突破。
林达华:人工智能的发展走到今天,已经不是一个单纯的技术问题,也不是某公司做一个产品应用的问题。它是我们整个的community共同去创造一个通用人工智能未来的全人类的伟大事业。
在这个过程中的话,生态是发挥着非常重要的作用。人工智能与其他领域的不同之处在于开源的重要作用,过去大半年,开源模型很大程度上重塑了行业生态。
从产业角度,开源与闭源产品的博弈将如何演进?开源模型对人工智能产业和技术发展的终极意义是什么?
陈恺:这是一个深刻的问题。开源在大模型时代作用重要:它不一定能产出最好的模型,但能促使资源合理调配,避免重复投入,让企业聚焦需解决的问题。
开源是行业的鞭策。对持续向 AGI 发展的公司而言,若模型不如开源模型,需思考自身存在的意义和价值。因此,开源虽未必做到最好,但能鞭策行业以更高效率共同前进。
林达华:最后请 Neil Trevett 分享,英伟达作为提供先进芯片的领导者,一直支持全球生态系统发展,如何看待支持未来生态系统持续发展的路径?
Neil Trevett:英伟达在确保行业成功和开源方面投入巨大。开源的力量在 AI 领域前的行业中已得到证明,它将在 AI 领域发挥作用,但每个公司需自行权衡:开源是节省精力和资金、推动生态前进,还是削弱自身准备和竞争优势,没有统一答案。
行业需在开源与闭源之间找到平衡,采用混合模式,同时需考虑模型发布后的分叉、碎片化及滥用风险,这些因素需纳入考量,行业将在发展中逐步解决。
林达华:因时间关系,今天的论坛到此结束。各位嘉宾从技术前沿、数据瓶颈、行业落地痛点及生态发展分享了深刻观点,希望能让大家看到人工智能未来的新可能。