你一生的故事

上周我心血来潮又学了一下Transformer架构。今天阅读一篇文章的时候,突然一个闪念:Transformer架构中的多头注意力机制和位置编码,跟《你一生的故事》中外星来客七肢桶的语言原理太像了!我很喜欢这个念头,于是有了今天这篇使用AI一起写完的文章。

Transformer:多头注意力与位置向量

多头注意力:分成好几双眼睛去看句子

你可以把一句话想象成一行文字,每个词语都可能跟其他词语产生各种各样的“关联”。在传统的循环神经网络(RNN)里,信息是按照时间步一步步传递的,这就像你只能从左往右(或从右往左)一格一格地扫视整条句子。而在 Transformer 的注意力机制里,它直接给了模型同时关注所有词语的能力。更进一步,“多头”就好像给了模型好几双不同视角的眼睛:每一双眼睛(也就是一个 Attention Head)会学到一套自己的关注模式——有的眼睛擅长捕捉主谓之间的语义关联,有的眼睛则更关注修饰成分与中心词之间的联系,诸如此类。最后再把这些视角的结果拼在一起,模型就能兼顾更多维度的信息,这正是 Transformer 在序列建模上的重大突破。

位置编码:给每个词语加坐标

既然注意力机制可以让模型同时看到整句,岂不是把时间顺序都抛掉了?确实,如果没有任何位置信息,就无法区分“他爱她”和“她爱他”。因此,Transformer 给每个词语都加上一段位置向量,数学处理上用一套固定频率的正余弦曲线把每个位置映射成一个向量,再把它加到词向量上。这样一来,即便注意力机制本身并不关心顺序,这段“编码”也会让模型知道“这个词在第 5 个位置”“那个词在第 20 个位置”。

跟“老一套”比一比

RNN/LSTM 里,模型必须一个时刻一个时刻地处理序列,算力花费往往跟序列长度成几何关系,而且遇到很长的句子时,信息要么记不住、要么更新过慢。

CNN(卷积网络)用一堆卷积核去滑动捕捉局部特征,也能搞一些序列处理,但感受野(Receptive Field)成长得比较慢,还得层层叠加才能看到全局。

Transformer 跳过了以上限制:多头注意力让它同时看到全句,位置编码让它不丢失顺序信息,残差链接和层归一化让它不会在层数变多时“卡壳”。整体下来,它不仅速度更快,效果也更好,尤其在机器翻译、文本生成等 NLP 任务里几乎称霸了整个领域。

《你一生的故事》:光线寻路与七肢桶的语言

这是一部很好的科幻小说,简单介绍两个模块。

光入水自动寻找路径

水面上一束光折射进水里,会自动寻找“最短时间”的路径,物理学里叫它“费马原理”。光子不需要“计算”每一步拐弯,而是直接“一念通达”,在所有可能路线上一眼就选出最快的,就好像它能预知未来。

这与 Transformer 的注意力机制有点神似:Attention 让模型在“全局”中一次性看到所有可能的关联,而不是像 RNN 那样一步一步、从左到右去“慢慢试探”。就像光子不需要先走一小段再测量角度再走下一段,注意力也不需要先读前面再读中间再读后面,而是同时感知所有位置的特征强度和关联度,然后“一步到位”地决定哪里更重要、该往哪儿聚合信息。

七肢桶的非线性时间与“语言即思维”

外星来客七肢桶的文字不像我们写一本书那样从上到下、从左到右,而是一个个圆形符号,里面的笔画径直延展,相互交织,仿佛没有“先后”之分。正是这种书写方式,让他们的思维可以不沿着时间线性展开——过去、现在、未来在一个圆形里同时存在。学会了他们的语言,女主角班克斯就开始看到“未来的记忆”,哪怕还未发生的事情,却仿佛在当前的思维中与过去重叠。这其实是一种“整体观”的思维方式:时间不再是一条直线,而是一个圆环,所有时刻都彼此映射。

如果把 Transformer 的全局注意力看作“非线性地扫视整个句子”,再加上位置向量让模型知道每个词在序列里的“坐标”,某种意义上,就像给计算机也装上了一种“七肢桶式”的思考框架:它不必一步一步等“时间”过完才回顾过去,而是在每个层面同时关注全局信息,然后再去加上位置信息进行推理。

过去决定未来?

当我把 Transformer 的技术细节与《你一生的故事》里对时间与语言的深刻隐喻联系在一起时,突然有些悲观。

涌现的背后,是否是“过去决定未来”?

现代 AI 模型、尤其是大型语言模型之所以能够“涌现”出某些近似人类思维的能力,核心就在于它们在海量的历史数据上训练。当下任何一次预测和生成,都是对过往信息和概率分布的“重组”。这似乎在告诉我们:过去决定未来。

换句话说,人类社会如果过度依赖这些由历史数据驱动的工具,我们生成的内容、衍生的结论,都有可能深深打上“过往既定”的烙印。某种程度上,我们仿佛被困在一个巨大的图书馆里,任何灵光乍现,都是在历史书架里翻出来的笔记。真正的“创新”会不会因此受到限制?

线性时间的幻象与轮回的可能性

如果《你一生的故事》告诉我们,时间或许不是简单的 A→B→C,而是一个圆环,那么当前人类对于 AI 的依赖又透露了另一层含义:我们以为自己可以“跳出”过去,用这些工具做任何我们想做的事,但实际上工具本身仍扎根于那条线性时间。所以,哪怕我们觉得自己站在“未来”的起点,也未必已经摆脱了对过去的束缚。

如果历史数据注定决定了模型的行为,那么我们会不会陷入一种“历史循环”?我们常常把未来想象成一条新的线,如同跑道的延伸,可事实上,未来与过去是互为镜像:未来早已在某种潜在的可能性里蕴藏,而过去也可能在“未来”的某次涌现中再度成型。

也许应该换个视角

在忧虑之外,我也产生了一种乐观的视角

未来的可塑性

诚然,当前的 AI 模型依然依赖于“既有数据”,但我们每一次日常的输入、每一行代码、每一次论文发表,也都会重新“累积进”未来的训练集。当我今天用 AI 辅助写作,让它基于过去的海量经验给出建议,那其实也是在“塑造未来的模型”。

我们每个人都在用自己的行为,往未来的图景里写入一点细节,我们不再只是“被过去决定”,而是在AI 帮助下将未来提前捕捉。

思考范式的跃迁:不再是线性,而是网状、圆环

如果真正学会将“非线性时间”的思考方式和 Transformer 这类强大的全局建模能力结合,也许我们就能更好地跳出那条一成不变的时间线:在某个维度里,未来与过去是对等的。

未来与过去互为因果,彼此渗透。我用 Attention 看全句就像七肢桶在一个圆环里同时书写过去与未来;我用位置向量厘清了时序,就像我是观察者,在光线原本的折射路径里,提前预见最短路径。

过去与未来不断重叠、演化,最终形成一个更大的、共生的知识闭环。

个人不必再被自身过往束缚

过去,一个人的成就往往和他个人的成长经历、受过的教育、拥有的资源紧密相关。可现在,通过 AI,每个人都可以直接获得人类历史上一切公开的知识我的“出发点”不再是自己曾经走过的那条路,而是“全人类曾经走过的无数条路”之和。

多么让人振奋:停止一切无意义的自怨自艾,你的未来和全人类的未来结合在一起。


写到这里,我觉得差不多了。

关于未来,我曾经有无数的想象。半年前决定重新选择重新出发时,根本动机也是冥冥中觉得自己有另外一个目的地。

我们一生的故事,也许早已有了答案。

阅读更多