2025-09-29
当AI大模型的浪潮席卷各行各业,我们究竟该如何穿透技术喧嚣,看清产业落地的真实路径?
近日,北京大学人工智能专家——袁粒教授做客 “不止MBA” 讲座,带来一场题为 “AI 大模型的困境与产业挑战:从单模态走向多模态统一” 的思想盛宴。袁粒教授带领大家穿越人工智能七十载的 “时光长廊”:既拆解了那些曾振奋人心的技术 “吹牛” 与逐一兑现的现实突破,也揭开了单模态技术狂欢背后的局限,更直面多模态发展路上的重重荆棘;从国产算力打破垄断的 “破冰时刻”,到产业落地中暗藏的 “隐形暗礁”,他以深入浅出的解读,将复杂的技术与产业命题清晰呈现,为在场听众拨开迷雾,指明AI技术与产业融合的未来航向。

回顾历史:AI的每一次跃迁都始于“吹牛”
讲座开篇,袁粒教授将时钟拨回1956年的达特茅斯会议。正是在这次会议上,麦卡锡、明斯基、香农等学者首次正式提出 “人工智能”一词并大胆预言 “十年内机器将打败国际象棋冠军”、“二十年内将替代人类全部工作”。这些预言虽未如期兑现,却留下了影响深远的七条研究纲领:自动计算机、编程语言(使计算机理解人类语言)、神经网络、计算规模理论、自我改进(机器学习)、抽象概念理解、随机性与创造力。
袁教授指出:“今天大模型的每一条技术脉络,都能在当年的 ‘ 吹牛清单 ’ 里找到注脚。现在我们又在类似的道路上,只不过主角从符号主义换成扩散模型,从单模态换成多模态。GPT5反响平平,不是它变差了,而是我们的需求升级了。”

当多模态大模型走出实验室它先得读懂一杯橙汁
“别被公式吓到,也别被Demo骗到。”这是袁教授反复提醒的一句话。他把单模态狂欢轻轻翻页,将听众带进一条更曲折诱人的赛道——多模态大模型,让AI同时听懂语言、看见图像、理解动作,甚至闻出中药材的年份。
他播放了一段具身机器人倒饮品的Demo视频:“Watermelon juice, orange juice, or water?” 这样简单的动作,机器人却要经历语音识别→意图理解→视觉定位→轨迹规划→抓取策略→力控反馈→对话生成,这一复杂漫长的理解与执行过程,而看起来令人赞叹的机器人Demo,目前实际应用并不如意,且背后需要10万美元的算力、5到10年的工程暗礁、以及尚未出现的多模态大模型。
为让听众更了解底层逻辑,袁教授把课堂搬到了“公式层”:“信息论之父克劳德·艾尔伍德·香农用数学语言阐明了概率与信息冗余度的关系,他给信息的定义是 -Σp·logp,话语的内容越出乎意料,信息量越大。大模型之所以‘说谎’,是因为它在最大化惊喜度。”
例如,诗词“花谢花飞花满天”的最后一个字,模型算出“天”的概率最高,就自动补“天”;可一旦概率第二高的“地”被选中,就会变成“花谢花飞花满地”,听起来也没错,只是意境全变。
由此,袁教授点出要害:概率模型天生会产生“幻觉”,喜欢给惊喜。这是创造力的同义词,也是产业落地的绊脚石。产业需要做的,不是丢弃创意,而是让这份惊喜落到实处、回归实际。

放眼当下:冰山之下的产业实践
好在“冰山”已有裂缝,破冰船已在国产算力里起航。国产系列芯片+稀疏DiT在实验环境下实现显存与电费显著下降;华为正通过算力券等形式支持高校开源生态;两个小闭环案例展示了多模态AI在社媒分析与数据报表中的潜力。通过多个令人振奋的实践,袁教授向大家展示:多模态大模型已悄然在产业侧落子。
互动环节,有听众提问:算力中心建得够大,是否就能让具身大模型快速落地?对此,袁教授认为长期来看,算力不会成为卡点。譬如OpenAI、谷歌,几乎没有算力的限制,但是为什么目前还没有训练出好的具身大模型?其本质在于数据。我们的行业真正缺少的,是批量且高质量的真实动作数据——视觉、语言指令与电机扭矩必须精准对齐。之后,大家又围绕算力瓶颈、智能体泡沫、虚拟世界落地、金融场景破局等方向提问,袁教授皆一一细致解答。
本次讲座在掌声中落幕,但思考才刚刚开始。多模态大模型——这个让机器更接近人类感知世界的领域,已不再是遥远的实验室话题,而是触手可及的商业变量。

