大模型到底是怎么"理解"每个词的?

作者:大模型到底是怎么"理解"每个词的?

你有没有想过——ChatGPT 打出"帮我写一封辞职信",它是怎么知道"帮"指的是你、"写"要接"信"、"辞职"修饰的是"信"? 答案在一篇只有 8 页的论文里。2017 年 Google 大脑发表《Attention is All You Need》,到今天被引用了 20 万次以上。GPT、Claude、文心一言、通义千问——所有大模型的底层都是同一套机制:自注意力。 🔑 注意力之前:RNN 的困境 循环神经网络像打字机,一个词一个词串行读。读到第 50 个词,第 1 个词快忘光了。1000 字文章要循环 1000 步,完全没法并行。训练一次翻译模型,RNN 要 3 天。 🔑 Q · K · V:三个向量读懂一句话 每个词都生成三个向量:Q(我要找什么)、K(我是什么)、V(我的内容)。每个词的 Q 去和所有词的 K 算相似度分数,分数高的关系密切、分数低的无关。最后用分数对 V 加权求和,得到上下文向量。公式就是 Attention(Q,K,V)=softmax(QKᵀ/√dₖ)×V。 一个经典例子——"银行":在"我去银行取钱"里 Q 关注"取钱"→金融机构;在"河边的银行"里 Q 关注"河边"→河岸。同一个词,不同上下文,注意力自动调整理解。 🔑 多头:8~32 个头同时工作 单个注意力头只能关注一种关系。但语言里有主谓、动宾、修饰、指代等 N 种关系。多头的每个头专门负责一种——GPT-3 有 96 个头,GPT-4 推测 128 个。拆开看就是专家团队审阅机制。 🔑 为什么改变了 AI 并行计算:不串行,一次性处理整个序列,训练速度提升几十倍。长距离依赖:无论相隔 10 词还是 1000 词,注意力直接建立联系,有效上下文 64K token。可解释性:注意力权重天然形成热力图,能看到模型在"看"什么。 代价是计算复杂度 O(n²)——序列长度翻倍,计算量翻四倍。 2026 年前沿:Depth-Attention 跨层融合、HSM 分层混合、Softpick 消除注意力陷阱。注意力机制的下一个十年才刚刚开始。 没有注意力,就没有 GPT,没有 Claude,没有今天的一切 AI。 #Transformer #深度学习 #注意力机制 #AI #科普 #为什么系列 #观界干货科普

📰 返回新闻列表