今天偶然间和几个朋友聊到未来几年AI的发展趋势问题。关于AI 未来几年的看法,核心观点是:大众对AI的发展可能有些“过度乐观”,当前对AI能力的估计过高。如果缺乏“杀手级”的应用场景,AI的热潮是否可能在两到三年后消退,最终刺破一个“巨大泡沫”?

我也认为现如今AI的真实表现其实远不如大众心里的预期,新兴媒体的推波助澜,让大模型显得无所不能,但在实际应用中却处处受限,距离理想效果还有很长的路要走。至于AI产业的未来发展,我相信工业界的评估更多是从管理、商业、技术等多个方面结合过往经验来全面考量的。我作为一名纯技术理论背景的学生,只能从个人背景的角度出发,分享对某个“点”的看法,舍弃我不懂的商业和管理角度,单从理论和技术出发,谈一些不成熟的见解。

当下学术界对于大语言模型的研究主要集中在如何降低算力需求,即提升模型效率,亦或是提高模型内部的知识密度,同时结合外挂的各种形式的知识库来提高大语言模型的表现,比如说大火的vLLM,和其他各种微信公众号广泛传播的开源项目。诚然,在如此飞速的发展下,在2-3年后也许真的会进入瓶颈期,即模型内部的知识密度已经非常大,外挂知识库的形式也有了被广泛认同的“best practice”解决方案。到那时,我们或许再也不像2022年-2023年那样,隔三差五就能看到大语言模型每一次都比上一次要“聪明”很多的情况。这通常意味着基础理论或模型架构需要新的突破。

现如今的大模型普遍采用Transformer架构,那么到时候面临的问题就会是:Transformer是最优解吗?其实这个问题在近两年已经被得到广泛讨论,关注度比较高的当然是Mamba和TTT。由于算力和数据的限制,我个人没有条件对这两个架构进行深入实验,但我猜想工业界已有所尝试。然而,到目前为止,还没有基于Mamba架构的成熟大模型出现,我猜测是因为效果不如预期。但即便如此,Transformer应当也不是最优解。

Transformer的拥护者们认为多头注意力机制,或自注意力机制是“大道至简”的解决方案。既然传统方法的缺陷是难以捕捉长距离依赖,那么干脆就舍弃时序建模,转而计算每对tokens的相关性,这样不就解决了距离的问题吗?转到空间模型还能实现并行计算,可谓是一举多得。然而,也有一部分人认为Transformer的解决方式是不够优雅的,甚至可以说是“丑陋”的。人类语言本身具有天然的时序性,阅读时也是按顺序进行的。Transformer这种抛弃语言本身时序性的方式,可以说是一种“暴力”解法,并不符合自然规律。我本人其实更倾向于后者,即Transformer是一种高效的暂时解法,或类似“曲线救国”的方案,但我个人并不认为这是最终解法。至于为什么“返璞归真”的Mamba并没有得到广泛应用,它到底还存在什么缺陷,这一点也许还需要更深入的研究。

回到最初的问题,当大语言模型陷入瓶颈,我认为总是会有下一个Transformer出现。之前David Barber教授也提到大语言模型中还存在许多“不优雅”的方法,例如被许多人诟病的teacher forcing。这也说明目前的许多解法都是折中方案,而当下一个足以颠覆游戏的基础架构应运而生的时候,第二波AI浪潮或许会再次掀起。我们可以回顾一下被广泛应用的神经网络架构及其出现的时间:RNN(1986年),LSTM(1997年)、CNN(1998年)、ResNet(2012年)、GAN(2014年)、Transformer(2016年)。新架构出现的时间间隔呈现缩短的趋势,以上每一个架构在其时都具有颠覆性意义,甚至至今仍被广泛使用。现在已是2024年,距离Transformer的提出已经过去了8年,谁能保证在未来两到三年内不会出现下一个更加优雅的game changer呢?

以上只是一些回家路上的随想,先挖个坑,等时间充裕些了再补一篇详细的分析吧。