百“模”大战时代,AI大模型创业的硬核问题是什么?

2023-08-15 13:54

AI大模型的创业热潮其实刚刚开始,但又好像风云变幻了很多次,短时间内,国产AI大模型已经接近100个。

在全球性的产业趋势面前,较短的时间里,中国市场已经形成了不同组织形态的创业团队,它们在短时间内发布了多款AI大模型,以及与之相关不同类型产品。产业进度如此之快,也给了行业观察者提供了较好的观察样本。

目前,AI大模型创业正面临“百模大战”,如何甩开竞争对手取得优势?下一步要看创业者是否能啃下“硬核”问题。所谓 “硬核”问题,是指在创业过程中难啃、难以解决,但同时又是创业团队可以独立突破的行业核心问题,某一家企业一旦突破,就能够迅速甩开其它竞争对手。

当前,AI大模型创业和AIGC等应用层面的创业有很大的不同,它的硬核问题其实只有一个……

一、同一个AI梦想

风浪越大,AI大模型越多。

环球同此凉热,这一波AI大模型创业已经形成了产业趋势。在美国,AI大模型相关创业掀起热潮,而媒体给中国的AI大模型创业现象用的词是“狂飙”。5月底,《中国人工智能大模型地图研究报告》发布称,中国目前已经发布了AI大模型79个,几乎每个省都有自己的AI大模型,几乎每个大厂都有自己的大模型。中国本土的AI大模型创业狂飙半年,盘点当前形势,实际上形成了三类团队:

一是大厂团:中大型科技企业(所谓“大厂”)内部组建的AI大模型研发部门/团队,如百度组建的团队发布了文心一言,该团队为李彦宏亲自带队;阿里云代表阿里系发布了通义千问等,而腾讯、华为、蚂蚁、字节、美团的大模型据称都已在路上。

值得注意的,除了这些市值(估值)在数千亿甚至上万亿的互联网大厂之外,在中国A股、港股市场上市的一些上市公司也发布了或号称将发布AI大模型,这些公司有些是为炒作股价,暂时不做讨论,有些公司我将合并到“大厂团队”中,在后文讨论。

二是独立团:各类独立的创业、融资进行AI大模型研发的团队,这类团队目前多数聚集在北京上海。如搜狗创始人王小川成立的百川智能,以及最近成为融资市场明星团队的MiniMax。这类团队的创始人多是前一波互联网创业热潮中取得成功的创业者,身后也有一些大厂的身影。

三是学院派:它们的组织构成、战略目标等企业团队都有所区别,例如今年初就发布了MOSS大模型的复旦大学计算机学院团队,MOSS号称是国内首个类ChatGPT大模型。

对于AI大模型创业可能遇到的困难,一般的观点往往会将困难聚焦在算力和语问题上,但在白熊观察员看来,这两个问题在当前阶段还不是三种创业团队的核心问题。现阶段有一个硬核问题,将拦在AI大模型创业团队面前,成为区分不同团队能力的核心问题。

二、什么是硬核问题?

先定义一下“硬核”问题。“硬核”问题是指在创业过程中难啃、难以解决,但同时又是创业团队可以独立突破的行业核心问题,某一家企业一旦突破,就能够迅速甩开其它竞争对手。

对于AI大模型创业团队而言,可能不久之后,他们就将面临真正的硬核问题 —— 如何自主探索AI大模型领域的创业方向问题。

这里又包括两个细分问题,一是如何自主探索技术路线;二是如何探索合适的商业模式、保持良好的商业化节奏等。现阶段,大模型领域最高优先级仍然是技术路线的探索,因为技术提升的空间仍然非常大,技术提升带来的产品差异也非常大。

从创业的一般规律来看,在一条技术赛道上,当先行者技术路线已经比较成熟时,虽然双方差距较大,但追赶者完全可以学习别人的成功经验,即所谓“抄作业”。在这个阶段,追赶者往往能迅速缩小差距,以超预期的速度将差距缩小至一代以内,创造看似“奇迹”的发展速度。

当差距缩小到一代以内之后,抄作业的模式往往失效,因为即使是领先者,他所采用最新的技术路线和商业模式也包含较大探索成分,本身不一定是正确,跟追赶者的情况也很可能不适配。甚至可能最终领先者可能要自我否定多次,最终跑出来的技术路线,很可能是一开始并不被看好的。

这也意味着,从技术路线到商业模式,中国AI大模型创业前将充满对未知领域的探索,在这条赛道上,真正能抄的作业不多。

目前中美的差距有多大?通过新闻能看到一些企业家的预估,如李彦宏判断中美在AI大模型领域差距是两三个月,刚刚卖掉搜狗又重新下场创业的王小川则认为中美差距达到三年,双方还互打了口水仗。当然,最自信的是科大讯飞的董事长刘庆峰,他则认为很快就能给ChatGPT一点来自A股上市公司的震撼,甚至提出了“_今年10月将整体赶超ChatGPT”_的豪言。

不过你怎么看,反正白熊观察员选择在手机里看。不过总体而言,中美的差距仍有可能很快缩短(或已经缩短)至一代以内。这时候才真正结束热身,切入了大模型创业的正赛。

最近有条值得关注的新闻,图林奖得主、Meta的首席科学家杨立昆(Yann LeCun)多次批评自回归模型,认为这一技术路线没有前途。在北京举办的2023世界人工智能大会上,杨立昆通过视频参会发言。他延续了之前在其它场合多次提到了观点,认为以ChatGPT为代表的自回归模型永远无法解决事实错误、逻辑错误等各种错误,同时也不了解世界的底层事实(也就是不能真正认知世界)。杨立昆之前的PPT中旗帜鲜明地指出:自回归模型是注定失败的(Auto-Regressive LLMs are doomed)。

目前,对杨立昆的观点,业界并无激烈的反对与交锋,因为对于AI大模型未来的技术路线,行业仍在探索中,现在正处于“迷茫期”。

这正是没有作业可抄的一种表现,对于中国的创业者,是往GPT的方向继续走,还是寻找新的技术路线。或者更进一步说,国内的AI大模型创业团队,是否有自主探索技术路线的能力?

除了技术路线之外,商业化路线的探索也是一道硬核问题。与太平洋对岸的美国队长Open AI类似,中国的AI大模型团队也有不少已经开放了API接口,可以接受用户付费接入,但看看有些企业的价格标准,高得有点离谱,似乎只是在讲某种资本故事。

最近一款名为妙鸭相机的应用出圈,这应该是国内AI大模型领域第一款真正意义上出圈的应用。妙鸭相机采取了前置付费的模式,用户需要先支付9.9元才能使用它的AI生成照片功能。从它的人气来看,这一波应该收入不错。从应用本身的玩法来看,妙鸭相机让用户上传十几张个人照片,可能是在后台训练了一个LoRa模型,这或是基于Stable Diffusion的技术应用。

这一波妙鸭相机的出圈算是给大模型的商业化打了样,但显然它跟国产AI大模型暂时还没有什么关系。因为最近妙鸭相机举行了一场媒体见面会,印证了之前外界的报道,它们正是阿里大文娱旗下孵化的创业团队。不过,会后各类媒体的报道中,并没有提到它们具体的使用的具体技术来源,重点还是介绍了一下企业的产品理念。如果这是一款运用了某种国产大模型的技术产品,媒体见面会的重心显然就不会是那些内容。

所以妙鸭相机的出圈,是否对国内AI大模型创业产生一些启发,希望实践中会有证明。

三、为什么其它问题不是硬核问题

“自主探索”这个问题其实比较抽象,相对而言,此前被谈论最多的其实是两个具象的问题,一个是算力问题,特别是高端显卡问题,另一个是语料问题。这两个问题很重要,并且在某些发展阶段也会成为硬核问题,但目前仍然不是。

先说说算力问题,这是最早的热点问题,一方面是因为目前GPU领域一家独大,而国际关系上的问题又严重影响了高端显卡的进口。目前来看,无论是解决外部国际关系的问题,还是解决GPU生产制造的问题,短时间内都不太可能。因此GPU会一直制约AI大模型行业的发展,提升了大模型的训练能力。

不过从实操来看,现阶段仍然有办法。一是高端显卡仍然有替代品可用,如英伟达的H800,又如英特尔已经发布了面向中国特供的面向中国“特供”的7nm工艺深度学习芯片Habana Gaudi2,近期AMD首席执行官苏姿丰也明确表示要通过定制产品绕开相关的出口限制,寻找机会向中国客户提供对应的人工智能解决方案。市场竞争的压力给了中国AI大模型创业团队一丝喘息的机会,从目前国产大模型的普遍参数量来看,这为产品仍然够用。

当然,即使是A100这样的芯片,创业团队仍然可以小批量通过各种方式购买到,而依托大厂的一些创业团队,甚至可以直接在海外搭建办公室,把算力资源放在海外。

从当前大模型的发展现状来看,不管对大模型吹的有多厉害,多数团队还处在样本验证阶段,这一阶段对算力的需求仍然是有限的,随着模型参数量的增大,算力的需求才会不断增大。不过,无论是大厂团队,还是独立创业的团队,目前这些解决方案基本上是适用的。算力的制约是行业性制约,任何一种类型的头部团队,都有可能借助资本的力量获得算力,而在发展过程中的落伍者,即使你身在大厂内部,也一样会被无情砍掉。

因此,算力问题基本上不存在说某个团队可以单独突破,从而形成竞争上的独家优势的局面。

同样的原因也存在于语料这个问题上。语料这个问题其实形式更为严峻,半年前ChatGPT刚刚爆红的时候,语料问题就被认为是将是中文AI大模型发展的一大障碍。

对于中文语料质量问题,目前已经有诸多讨论,这里不做进一步讨论。这里想说的是,为什么中文语料问题目前暂时不被我列为国产AI大模型创业的硬核问题,主要原因仍然是上面这两个:一是当前大模型的阶段,中文语料还没有成为死结(本人近期和朋友一起横向评测了几个中文大模型的能力,后续另撰文详述);二是这个问题和显卡问题类似,目前看不出哪家有可能单独突破。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

四、新的征程即将开始

数据显示,5月至6月期间,OpenAI 的ChatGPT 网站的全球流量下降了10%,这是自2022 年11月以来的ChatGPT首次出现访问量下降。

关于这个新闻有诸多原因解释,有人认为是用户的使用效率更高了,也有人认为用户有更多大模型可供选择。但在白熊观察员看来,考虑到AI大模型在全球范围的渗透率跟各种国民级应用完全不在一个量级上,如果是用户觉得大模型“更好用”了,那么无论如何ChatGPT作为头部应用,只会成倍地吸引更多用户。

在这个阶段用户数量下滑,几乎可以说只有一个解释,那就是那些出于尝鲜目的使用ChatGPT的用户兴趣逐渐退潮。

当前的ChatGPT,从某种程度上很像PC互联网时代的一些应用,仍然缺乏一个支点,让它能撬动广大普通用户。或许,正像杨立昆所说的问题,自回归模型本身的局限,导致他还无法封装出一个国民级应用?因此AI大模型创业者需要探索新的技术路线吗?

“我现在越用GPT,越感觉杨立昆的观点可能是对的。”崔博士是清华的一位

对于大厂团、独立团、学院派三个类型无数AI大模型创业团队,这是硬核挑战,也是甩开竞争者的一个重大机遇。

从近期中国A股中的“AI概念股”(包括AI大模型概念、AIGC概念等)的走势来看,一大堆这类概念股已经舒舒服服地泡在泡沫之中,这往往也正是泡沫即将破裂的时候,至少在中国是。