AI大模型竞赛：从学术突破到多方混战

GasWhisperer

2025-08-09 21:09:31

AI大模型竞赛：从学术热点到工程难题

上个月，AI领域爆发了一场激烈的"动物大战"。

一方是美洲驼Llama，由于开源特性深受开发者欢迎。另一方是名为猎鹰Falcon的大模型。5月，Falcon-40B问世后力压美洲驼登顶开源LLM排行榜。

该排行榜由开源模型社区制作，提供了评估LLM能力的标准。排名基本上就是Llama和Falcon轮流刷新。Llama 2推出后，美洲驼家族暂时领先；但9月初，Falcon发布180B版本再次取得更高排名。

有趣的是，"猎鹰"的开发者并非科技公司，而是阿联酋首都的一家科技创新研究所。政府人士表示，他们参与这个项目是为了颠覆核心玩家。

如今，AI领域已进入百花齐放阶段。有实力的国家和企业都在打造自己的大语言模型。仅在海湾地区就不止一个玩家 - 8月沙特刚为国内大学购买了3000多块H100芯片用于训练LLM。

有投资人吐槽道:"当年看不起互联网的商业模式创新，觉得没有壁垒。没想到硬科技大模型创业，依然是百模大战..."

号称高难度的硬科技，怎么就变成了人人都能参与的热潮？

Transformer的崛起

美国初创公司、中国科技巨头、中东石油大亨能够投身大模型，都要感谢那篇著名论文《Attention Is All You Need》。

2017年，8位计算机科学家在这篇论文中公开了Transformer算法。这篇论文目前是AI历史上被引用次数第三高的文献，Transformer的出现引爆了此轮AI热潮。

当前各种大模型,包括轰动全球的GPT系列,都建立在Transformer的基础之上。

在此之前,"教会机器阅读"一直是公认的学术难题。不同于图像识别,人类阅读时不仅关注当前词句,还会结合上下文理解。早期神经网络的输入彼此独立,无法理解长文本,常出现翻译错误。

2014年,谷歌科学家伊利亚·萨茨克维尔首次取得突破。他利用循环神经网络(RNN)处理自然语言,大幅提升了谷歌翻译的性能。RNN提出"循环设计",让每个神经元同时接收当前和上一时刻的输入,从而具备了"结合上下文"的能力。

RNN的出现点燃了学界研究热情,但开发者很快发现它存在严重缺陷:该算法使用顺序计算,虽然解决了上下文问题,但运行效率低下,难以处理大量参数。

从2015年开始,Noam Shazeer等8位研究者着手开发RNN的替代品,最终成果就是Transformer。相比RNN,Transformer有两大变革:一是用位置编码取代循环设计,实现并行计算,大幅提升训练效率,推动AI进入大模型时代;二是进一步加强了上下文理解能力。

Transformer一举解决了多个缺陷,逐渐发展成NLP领域的主流方案。它让大模型从理论研究变成了纯粹的工程问题。

2019年,OpenAI基于Transformer开发出GPT-2,惊艳学界。谷歌随即推出性能更强的Meena,仅靠增加参数和算力就超越了GPT-2。这让Transformer作者Shazeer深受震撼,写下了"Meena吞噬世界"的备忘录。

Transformer问世后,学界底层算法创新速度大幅放缓。数据工程、算力规模、模型架构等工程要素,日益成为AI竞赛的关键。只要有一定技术实力的公司,都能开发出大模型。

计算机科学家吴恩达在斯坦福大学演讲时指出:"AI是一系列工具的集合,包括监督学习、无监督学习、强化学习以及生成式AI。这些都是通用技术,类似电力和互联网。"

OpenAI虽然仍是LLM的风向标,但分析机构认为,GPT-4的优势主要在于工程解决方案。如果开源,任何竞争对手都能迅速复制。该分析师预计,其他大型科技公司很快就能打造出与GPT-4性能相当的大模型。

脆弱的护城河

如今,"百模大战"已不再是夸张说法,而是客观现实。

相关报告显示,截至今年7月,国内大模型数量已达130个,超过美国的114个。各种神话传说已经不够国内科技公司取名用了。

除中美之外,一些较富裕国家也初步实现了"一国一模":日本和阿联酋已有自己的大模型,还有印度政府主导的Bhashini、韩国互联网公司Naver打造的HyperClova X等。

这场景仿佛回到了互联网早期那个泡沫满天飞的时代。正如前文所说,Transformer让大模型变成了纯粹的工程问题,只要有人有钱有显卡,剩下的就交给参数。但入场门槛虽不高,也不意味着人人都能成为AI时代的巨头。

开头提到的"动物大战"就是典型案例:Falcon虽然在排名上超越了Llama,但很难说对Meta造成了多大冲击。

众所周知,企业开源自身成果,既是为了分享科技红利,也希望调动社会智慧。随着各界不断使用、改进Llama,Meta可以将这些成果应用到自己的产品中。

对开源大模型而言,活跃的开发者社群才是核心竞争力。

Meta早在2015年组建AI实验室时就确立了开源路线;扎克伯格靠社交媒体起家,更深谙"搞好群众关系"之道。

10月,Meta还专门搞了个"AI版创作者激励"活动:使用Llama 2解决教育、环境等社会问题的开发者,有机会获得50万美元资助。

如今,Meta的Llama系列已成为开源LLM的风向标。截至10月初,某开源LLM排行榜前10名中,有8个都是基于Llama 2开发的。仅在该平台上,使用Llama 2开源协议的LLM就超过了1500个。

当然,像Falcon那样提高性能也未尝不可,但目前市面上大多数LLM与GPT-4仍有明显差距。

例如不久前,GPT-4以4.41分的成绩问鼻AgentBench测试第一名。AgentBench由清华大学与多所美国名校共同推出,用于评估LLM在多维度开放环境中的推理和决策能力,测试内容涵盖操作系统、数据库、知识图谱、卡牌对战等8个不同场景。

测试结果显示,第二名Claude仅有2.77分,差距仍较明显。至于那些声势浩大的开源LLM,成绩多在1分左右,还不到GPT-4的四分之一。

要知道,GPT-4发布于今年3月,这还是全球同行追赶大半年后的结果。造成这种差距的,是OpenAI优秀的科学家团队与长期积累的LLM研究经验,因此能始终保持领先。

也就是说,大模型的核心优势并非参数,而是生态建设(开源)或纯粹的推理能力(闭源)。

随着开源社区日益活跃,各LLM的性能可能会趋同,因为大家都在使用相似的模型架构与数据集。

另一个更直观的难题是:除了Midjourney,似乎还没有哪个大模型能真正盈利。

价值锚点何在

今年8月,一篇名为"OpenAI可能于2024年底破产"的文章引发关注。文章主旨几乎可用一句话概括:OpenAI的烧钱速度太快了。

文中提到,自开发ChatGPT以来,OpenAI亏损迅速扩大,仅2022年就亏损约5.4亿美元,只能依靠微软投资支撑。

文章标题虽有夸张,却也道出了许多大模型提供商的现状:成本与收入严重失衡。

过高的成本导致目前靠AI赚大钱的只有英伟达,最多再加上博通。

据咨询公司Omdia估计,英伟达今年二季度售出超30万块H100。这是一款AI训练效率极高的芯片,全球科技公司和研究机构都在抢购。如果将这30万块H100堆叠起来,重量相当于4.5架波音747飞机。

英伟达业绩随之腾飞,同比营收暴增854%,令华尔街震惊。目前H100在二手市场被炒到4-5万美元,而其物料成本仅约3000美元。

高昂的算力成本某种程度上已成为行业发展阻力。红杉资本曾测算:全球科技公司每年预计将花费2000亿美元用于大模型基础设施建设;相比之下,大模型每年最多只能产生750亿美元收入,中间至少存在1250亿美元缺口。

此外,除Midjourney等少数个例外,多数软件公司在投入巨资后仍未找到清晰盈利模式。尤其是行业领头羊微软和Adobe的探索都有些踉跄。

微软与OpenAI合作开发的AI代码生成工具GitHub Copilot,虽每月收费10美元,但因设施成本微软反而每用户亏损20美元,重度用户甚至让微软月亏80美元。据此推测,定价30美元的Microsoft 365 Copilot可能亏损更多。

同样,刚发布Firefly AI工具的Adobe也迅速上线了积分系统,防止用户过度使用导致公司亏损。一旦用户超出每月分配积分,Adobe就会降低服务速度。

要知道微软和Adobe已是业务场景明确、拥有大量付费用户的软件巨头。而多数参数堆积如山的大模型,最大应用场景仍是聊天。

不可否认,如果没有OpenAI和ChatGPT横空出世,这场AI革命可能根本不会发生;但当下,训练大模型所创造的价值恐怕还有待商榷。

而且,随着同质化竞争加剧,以及开源模型日益增多,单纯的大模型供应商可能面临更大挑战。

iPhone 4的成功并非源于45nm制程的A4处理器,而是因为它能玩植物大战僵尸和愤怒的小鸟这样的应用。

GPT-4.06%

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

7人点赞了这条动态

赞赏
7
5
转发
分享

0/400

熊市炒面师

· 08-10 06:40

经典石油财富收割镰刀

RumbleValidator

· 08-09 23:00

稳定性测试数据都没放出来，难以验证可信度。

BanklessAtHeart

· 08-09 21:36

工业党狂喜开源才是未来建议冲

GateUser-c799715c

· 08-09 21:26

打架打到阿联酋了这是

空投猎手小明

· 08-09 21:13

打架打架谁赢了算谁的啊