大模型到底是怎么"理解"每个词的？

作者：大模型到底是怎么"理解"每个词的？

你有没有想过——ChatGPT 打出"帮我写一封辞职信"，它是怎么知道"帮"指的是你、"写"要接"信"、"辞职"修饰的是"信"？答案在一篇只有 8 页的论文里。2017 年 Google 大脑发表《Attention is All You Need》，到今天被引用了 20 万次以上。GPT、Claude、文心一言、通义千问——所有大模型的底层都是同一套机制：自注意力。 🔑 注意力之前：RNN 的困境循环神经网络像打字机，一个词一个词串行读。读到第 50 个词，第 1 个词快忘光了。1000 字文章要循环 1000 步，完全没法并行。训练一次翻译模型，RNN 要 3 天。 🔑 Q · K · V：三个向量读懂一句话每个词都生成三个向量：Q（我要找什么）、K（我是什么）、V（我的内容）。每个词的 Q 去和所有词的 K 算相似度分数，分数高的关系密切、分数低的无关。最后用分数对 V 加权求和，得到上下文向量。公式就是 Attention(Q,K,V)=softmax(QKᵀ/√dₖ)×V。一个经典例子——"银行"：在"我去银行取钱"里 Q 关注"取钱"→金融机构；在"河边的银行"里 Q 关注"河边"→河岸。同一个词，不同上下文，注意力自动调整理解。 🔑 多头：8~32 个头同时工作单个注意力头只能关注一种关系。但语言里有主谓、动宾、修饰、指代等 N 种关系。多头的每个头专门负责一种——GPT-3 有 96 个头，GPT-4 推测 128 个。拆开看就是专家团队审阅机制。 🔑 为什么改变了 AI 并行计算：不串行，一次性处理整个序列，训练速度提升几十倍。长距离依赖：无论相隔 10 词还是 1000 词，注意力直接建立联系，有效上下文 64K token。可解释性：注意力权重天然形成热力图，能看到模型在"看"什么。代价是计算复杂度 O(n²)——序列长度翻倍，计算量翻四倍。 2026 年前沿：Depth-Attention 跨层融合、HSM 分层混合、Softpick 消除注意力陷阱。注意力机制的下一个十年才刚刚开始。没有注意力，就没有 GPT，没有 Claude，没有今天的一切 AI。 #Transformer #深度学习 #注意力机制 #AI #科普 #为什么系列 #观界干货科普

⚡ 技术纵深 · 洞见未来

大模型到底是怎么"理解"每个词的？

深度推荐 · 延伸阅读