Foundations of Large Language Models: Exhaustive Academic Study Notes

语言模型基础架构与理论起源

语言作为一种复杂的符号系统,受音韵、词法、句法约束并承载语义,其本质具有概率性。语言模型(Language Models, LMs)的核心目标是准确预测语言符号的概率。从早期的规则模型到统计模型,再到如今的深度神经网络模型,语言模型经历了显著的演进。在计算语言学和认知科学中,准确预测概率不仅能让计算机掌握语法,更能使其演化智能。早期的 ELIZA 到现今的 GPT-4,标志着模型从机械问答程序向多任务通用智能模型的转变。本章重点讲解了基于统计的 n-grams、循环神经网络(RNN)和 Transformer 架构的发展脉络,以及模型的采样解码与评测体系。

基于统计方法的 n-grams 语言模型

基于统计的语言模型通过对语料库(Corpus)中语言符号出现的频率进行直接统计来预测概率。n-grams 模型基于马尔可夫假设(Markov Assumption)和离散变量的极大似然估计。设文本符号为 w1:N={w1,w2,...,wN}w_{1:N} = \{w_1, w_2, ..., w_N\},n-gram 指长度为 nn 的词序列。计算公式为 Pn-grams(w1:N)=i=nNC(win+1:i)C(win+1:i1)P_{n\text{-grams}}(w_{1:N}) = \prod_{i=n}^N \frac{C(w_{i-n+1:i})}{C(w_{i-n+1:i-1})},其中 C()C(\cdot) 表示词序列在语料库中的频率。当 n=1n=1 时为 unigram,不考虑上下文;n=2n=2 时为 bigrams,考虑前一个词。这些模型虽然具备一定的泛化能力,但随着 nn 增大,极易出现“零概率”现象,需通过平滑(Smoothing)技术改善。

从统计学原理看,n 阶马尔可夫假设定义为当前状态 wNw_N 出现的概率仅与前 nn 个状态相关,即 P(wNw1,...,wN1)P(wNwNn,...,wN1)P(w_N | w_1, ..., w_{N-1}) \approx P(w_N | w_{N-n}, ..., w_{N-1})。离散变量的极大似然估计旨在找到参数 θ\theta 使似然函数 L(θx)=i=1Np(xi;θ)L(\theta|x) = \prod_{i=1}^N p(x_i; \theta) 最大化。通过拉格朗日乘子法证明,频率之比即为对条件概率的极大似然估计。该方法通过显式计数而非学习权重,在处理长序列和复杂语义时存在明显的结构瓶颈。

循环神经网络(RNN)与语言建模

循环神经网络(RNN)通过在网络连接中建立环路,将历史状态累积并叠加到当前状态,实现对时间维度的序列建模。RNN 与前馈神经网络(FNN)的区别在于其具有“螺旋式前进”的推理范式。在 tt 时刻,隐藏状态计算为 ht=g(WHht1+WIxt)h_t = g(W_H h_{t-1} + W_I x_t),输出为 ot=f(WOht)o_t = f(W_O h_t)。这种结构允许模型在不急剧增加参数量的前提下考虑历史信息,但在训练时涉及大量矩阵联乘,容易引发梯度消失(Gradient Vanishing)或梯度爆炸(Gradient Explosion)问题。当参数矩阵 WHW_H 的最大特征值小于 1 时发生消失,大于 1 时发生爆炸。为缓解此问题,引入了门控结构的变体如 GRU 和 LSTM。

基于 RNN 的语言模型通过输入序列预测下一个词的概率 P(wi+1w1:i)=P(wi+1wi,hi1)P(w_{i+1} | w_1:i) = P(w_{i+1} | w_i, h_{i-1})。在预训练时常采用交叉熵损失函数 lCE(oi)=logoi[wi+1]l_{CE}(o_i) = -\log o_i[w_{i+1}]。训练中常用 "Teacher Forcing" 技术,即每轮输入使用标准答案(Ground Truth)而非模型上轮生成的词,以解决错误级联放大和计算串行低效的问题。然而,这会导致曝光偏差(Exposure Bias),即训练与推理过程不一致,可通过计划采样(Scheduled Sampling)等方法缓解。RNN 的串行本质使其难以在超长序列上进行并行加速。

Transformer 架构与注意力机制

Transformer 是大模型时代的核心架构,完全基于注意力机制(Attention)构建。它由注意力模块(Attention Block)和全连接前馈模块(FFN Block)组合而成。注意力层通过编码输入为查询(Query, QQ)、键(Key, KK)、值(Value, VV)三部分。其计算公式为 Attention(xt)=i=1tαt,ivi\text{Attention}(x_t) = \sum_{i=1}^t \alpha_{t,i} v_i,其中权重 αt,i=sim(qt,ki)j=1tsim(qt,kj)\alpha_{t,i} = \frac{\text{sim}(q_t, k_i)}{\sum_{j=1}^t \text{sim}(q_t, k_j)}。全连接前馈层占据了模型近三分之二的参数,被视为一种“键值存储”模式的记忆模块。公式表达为 FFN(v)=max(0,W1v+b1)W2+b2FFN(v) = \max(0, W_1v + b_1)W_2 + b_2

Transformer 包含残差连接(Residual Connections)和层正则化(Layer Normalization)。常见的结构有 Post-LN(正则化在残差后)和 Pre-LN(正则化在残差前)。Pre-LN 对梯度消失的抵抗更强,但可能面临表征坍塌(Representation Collapse)。原始 Transformer 采用 Encoder-Decoder 架构,包含 6 个编码层和 6 个解码器层。基于其分支,后续衍生出了只含 Encoder 的模型(如 BERT)、只含 Decoder 的模型(如 GPT)以及全架构模型(如 T5)。Transformer 的并行特性极大地提升了训练效率,但其计算规模随序列长度平方次增长,为长序列处理带来了挑战。

语言模型采样解码与评测体系

语言模型的输出为词表概率分布向量,将向量序列还原为文本的过程称为解码。解码方法分为概率最大化方法和随机采样方法。贪心搜索(Greedy Search)每轮选择最大概率词,容易陷入局部最优。波束搜索(Beam Search)通过保留 bb 个候选路径寻找更好的联合概率,但易生成重复平庸的“废话文学”。随机采样方法引入随机性以增强生成内容的创意。Top-K 采样选取前 KK 个高概率词重归一化;Top-P 采样(Nucleus Sampling)通过设定累积概率阈值 pp 动态选择候选集。Temperature 机制通过因子 TT 调整分布:当 T>1T > 1 时,分布更平坦,随机性增加;0<T<10 < T < 1 时,分布尖锐,“强者越强”,随机性减弱。

模型的评测分为内在评测和外在评测。内在评测常用困惑度(Perplexity, PPL),其计算公式为 PPL(stest)=P(w1:N)1NPPL(s_{test}) = P(w_{1:N})^{-\frac{1}{N}},越小说明模型对文本的确定性越高。外在评测依赖具体任务:BLEU 用于翻译,计算多层次 n-gram 精度的几何平均;ROUGE 用于摘要,偏向召回率,包含 ROUGE-N 和基于最长公共子序列的 ROUGE-L。现代评测趋向于利用大模型作为裁判,如基于词嵌入相似度的 BERTScore 或利用 GPT-4 自动评分并生成思维链的 G-EVAL 方法。InstructScore 等变体还能为具体评分提供解释性理由。

大规模预训练与能力涌现

随着计算力和数据的爆炸式增长,模型参数规模跨越阈值,进入大语言模型(LLM)时代。大模型的发展分为萌芽期(2017-2018, BERT/GPT-1)、发展期(2019-2022, T5/GPT-3)和突破期(2022 至今, ChatGPT/GPT-4)。扩展法则(Scaling Laws)揭示了性能随规模变化的规律。OpenAI 的 Kaplan 模型指出计算量 C6NDC \approx 6ND,且模型规模 NN 增长应略快于数据量 DD。DeepMind 的 Chinchilla 法则建议两者应同步增加,且理想数据量应为参数量的 20 倍。这种比例优化的模型在同等计算量下表现更佳。

大模型最显著的特征是“涌现能力”(Emergent Abilities),即某些能力在模型达到特定规模时突然显现,而非线性增长。典型涌现能力包括:上下文学习(In-Context Learning, ICL),无需微调即可从提示示例中学习任务;常识推理,基于逻辑理解现实世界的行为模式;代码生成,自动解析需求编写程序;以及数学推理等。这些能力使得单一底座模型可以泛化至多种下游任务,但也引发了关于模型可解释性、信息隐私和伦理公平的广泛挑战。

大语言模型主流架构对比:Encoder 与 Decoder

当前 LLM 架构演变出了三种路径:Encoder-only、Encoder-Decoder 和 Decoder-only。Encoder-only 架构(如 BERT)采用双向注意力机制,每个 Token 的理解依赖全序列信息,擅长文本分类、语义理解等判别任务(NLU)。但在生成任务中(NLG),因缺乏独立解码组件,需要迭代掩码预测,效率较低。Encoder-Decoder 架构(如 T5, BART)结合双向编码与单向解码,通过交叉注意力(Cross-Attention)交互,适合翻译、摘要等有条件生成任务。然而,该架构模型参数规模庞大且计算复杂度高。

Decoder-only 架构(如 GPT 系列、LLaMA)目前已成为大一统的主流方向。它采用单向因果掩码(Causal Mask),利用自回归机制逐词生成,确保了长文本的连贯性。其优势在于架构极简、易于扩展,且在开放式文本生成中表现自然。历史演进显示,初期 BERT 受益于双向理解能力,但随着算力提升和任务从理解转向生成,GPT 证明了通过单纯增大解码器规模即可激发强大的逻辑和记忆能力。现在的 LLaMA 系列不仅保持开源生态,还引入了 RoPE(旋转位置编码)、SwiGLU 激活函数和 RMSNorm(均方根归一化)等优化技术。

非 Transformer 架构探索:SSM 与 TTT

尽管 Transformer 具有并行优势,但其注意力计算随序列长度平方次增长(O(L2)O(L^2)),面临长序列瓶颈。研究者提出了两类现代 RNN 变体。状态空间模型(State Space Model, SSM)如 RWKV 和 Mamba,旨在实现线性复杂度(O(L)O(L))。SSM 结合了递归和卷积的特性:推理时像 RNN 一样递归更新状态,训练时可离散化为卷积进行并行。Mamba 引入了“选择机制”(Selection Mechanism)和硬件感知算法,允许模型动态选择关注点,在 A100 GPU 上的吞吐量比同规模 Transformer 高 5 倍。

测试时训练(Test-Time Training, TTT)范式提供了另一种解决方案。传统的 RNN 随上下文增长会面临“隐藏状态”压缩上限导致的信息丢失,TTT 则在推理阶段对每一条测试数据进行“边训练边推理”。它采用自监督内部循环,通过重构损失 (Wt1;xt)=f(θKxt;Wt1)θVxt2ℓ(W_{t-1}; x_t) = \|f(\theta_K x_t; W_{t-1}) - \theta_V x_t\|^2 更新模型参数。这种将模型参数直接作为隐藏状态的策略,使得模型能有效地记忆超长上下文(如百万级序列),克服了由于固定状态容量导致的性能饱和问题。

Prompt 工程与 Token 向量化

Prompt 工程(提示工程)旨在设计高质量指令,通过上下文引导模型直接适应新任务。Prompt 通常由任务说明、上下文、问题、输出规范四个要素构成。由于语言模型无法直接处理原始字符,必须通过分词器(Tokenizer)分解为 Token。常用的分词算法有 BBPE(字节级别字节对编码)、BPE 和 WordPiece。中英文分词效率差异显著:DeepSeek、Qwen 等模型针对中文优化,单 Token 承载信息量更大;LLaMA 等英文倾向模型则需更多 Token。分词后的 Token ID 经过嵌入矩阵(Embedding Matrix)转化为向量进入模型空间。

Prompt 技巧极大地提升了模型的实用极限。上下文学习(ICL)通过给出少量示例(Few-shot)显式引导模型。示例选择对效果至关重要,策略包括相似性检索(KATE)和聚类检索。思维链(Chain-of-Thought, CoT)技术针对复杂推理,引导模型输出中间步骤。其范式包括“按部就班”(Zero-Shot CoT: "Let's think step by step")、“三思后行”(Tree of Thoughts, ToT:分解与回溯搜索)和“集思广益”(Self-Consistency:重复采样投票)。善用心理暗示(Role-Playing)如扮演专家,能显著提高输出的专业度。此外,Prompt 工程还支撑了 Agent(智能体)、数据合成(Self-Instruct)和 Text-to-SQL 等垂域应用。

参数高效微调(PEFT)技术

对于垂直领域适配,全参数微调成本过高。参数高效微调(PEFT)旨在更新极少量参数即可达到优异性能。主流方法分为三类:1. 参数附加:Prompt-tuning 引入可学习的软提示嵌入 PP;Prefix-tuning 在注意力层前添加固定前缀;Adapter-tuning 则在 Transformer 块内插入瓶颈结构。Proxy-tuning 则在解码阶段通过两个小模型的 Logits 差异调整大模型输出。2. 参数选择:BitFit 仅调优偏置项;Child-tuning 利用 Fisher 信息选择关键参数子集。3. 低秩适配(LoRA)。

LoRA 是目前应用最广的技术。其理论基础是模型具有“低维固有维度”,即参数更新矩阵 ΔW\Delta W 可以分解为两个低秩矩阵 B×AB \times A。假设模型层权重为 W0Rd×kW_0 \in R^{d \times k},更新公式为 W=W0+αBAW = W_0 + \alpha BA,其中 rmin(d,k)r \ll \min(d, k)。优化器内存和梯度内存因此大幅缩减,使 7B 级模型能在民用 24G 显存 GPU 上运行。衍生技术如 AdaLoRA 实现了动态秩分配;DoRA 分解权重为方向和大小,单独微调方向组件以增强稳定性。LoRA 具有可插拔性,LoRAHub 可在线性权重下融合多个特定任务的插件。

模型编辑:精准修复模型知识

模型编辑旨在精准修改模型中的特定事实、祛除毒性或偏见,而不引发灾难性遗忘。其评估指标包括:准确性(Acc)、泛化性(Gen)、可迁移性(Port)、局部性(Loc,不影响无关知识)和高效性。技术路径分内外两种:外部拓展法通过知识缓存(SERAC)或补丁(T-Patcher)在模型外部或特定层添加神经元。T-Patcher 在最后一层前馈网络(FFN)添加补丁神经元,通过特定的激活损失实现“头痛医头”。

内部修改法通过直接调整参数。元学习法(MEND)训练一个超网络来预测参数更新量。定位编辑法(ROME)则具有更高的精准性。ROME 通过“因果跟踪”实验发现,主体的末尾 Token 的信息在模型中间层 FFN 处达到峰值。它将 FFN 视为线性的键值存储体,通过求解带约束的最小二乘问题 Wk^=vW \hat{k}^* = v^* 得到闭式更新解。这种“手术刀式”的操作能修复“你是谁”这类误答、保护隐私权利(Right to be forgotten),以及通过提升正面概念神经元的权重来祛除大语言模型生成的负面毒性内容。

检索增强生成(RAG)核心机制

大模型虽然知识丰富,但受限于训练数据的时效性,容易产生事实性幻觉。检索增强生成(RAG)通过集成外部知识库(如维基、企业文档)解决此问题。RAG 流程包括知识库构建(清洗与分块)、检索(相似度匹配)和生成(整合上下文)。检索器分为稀疏检索(BM25, 关键词匹配)和稠密检索(Bi-Encoder, 向量化检索)。生成式检索器则直接预测 DocID。为提升效率,常使用向量数据库(Faiss, Milvus)及 HNSW 等索引算法。重排技术(RankGPT)可进一步根据相关性精选候选文档。

生成增强过程涉及复杂的优化:1. 何时增强:通过外部观测(如查看实体流行度)或内部探针检测隐藏状态不确定性来判断是否需要外部援助。2. 如何增强:最常用的是 Prompt 输入端增强,复杂任务需分解式增强(DSP 框架)。3. 多次增强:Tree of Clarifications 用于处理模糊问题。4. 降本增效:冗余文本压缩(LongLLMLingua)可减少输入 Token 量;KV 缓存(RAGCache)能够复用相同文档的计算结果。RAG 不仅极大扩展了大模型的知识边界,也成为 Agent(智能体)执行复杂任务不可或缺的底层支柱。借助医疗、金融等多模态数据的融合,RAG 正在赋能更专业的行业大模型应用。能力增强与幻觉缓解是 RAG 的核心使命。内置分词分块策略、检索索引算法和重排模型共同构成了现代检索系统的技术全景。未来 RAG 架构将向白盒协同微调演进,进一步对齐检索权重与生成需求。通过这种模式,大语言模型实现了静态内部参数与动态外部数据的完美结合。终端用户无需昂贵重训练即可获取最新的实时知识反馈。这种灵活架构决定了它是目前企业级 LLM 应用的首选路径。通过 LangChain 和 LlamaIndex 等开源框架,开发者可以快速搭建高性能生成增强系统。本章内容全面涵盖了从数据底层到上层增强策略的全部技术细节。研究 RAG 的关键在于平衡检索广度与检索精度。精准定位何时不应增强能有效避免模型因检索到无关噪音而产生的干扰。通过这种深度整合,大模型真正成为了具备“外挂大脑”的通用智能引擎。总结而言,RAG 是解决模型事实性缺失与知识滞后的最优技术方案。它将不断演化以适应全球海量数据的动态增长需求。在多模态视角下,RAG 还能辅助模型根据图像或视频检索出更为精准的结构化科学解释。技术链条的每一个环节——从分块重叠到重排层级——都深刻影响着答案的置信度。本章详细论述了其每一个组成模块的功能及其在各种边界情况下的适应策略。这种模块化且可插拔的设计原则贯穿了 RAG 的整个生命周期。它是确保人工生成的智能真正具备解释性与事实性的核心构件。最终,通过检索、增强、生成的协同,RAG 消除了模型知识与真实世界的隔阂。这种范式已经成为当代大模型大规模落地的标准协议。其未来的进步将深刻重塑人类获取与理解知识的方式。通过本系统的设计,LLM 展示了超越单纯数据拟合的卓越逻辑整合能力。开发者应当注重检索器与生成器的深度协同,以追求极致的稳定与准确。在大数据与大模型的相互加持下,新一轮智能革命正在加速推进。本章为研究最前沿的生成增强模式提供了完备的理论基石与工程实践路径。深入掌握其中的时耗比、准确率权衡是通往高级大模型架构师的必经之路。未来,实时数据的流式 RAG 将使得智能系统的知识更新从天、周级进化到分钟级。这是人类迈向实时通用智能的一大步。系统内每个计算向量、每个哈希映射、每个提示句,都在共同谱写这曲智能进化的宏伟交响。本课程通过对各章节的深度剖析,完整勾勒了从模型底层数学到高级应用框架的知识全貌。这是所有从业者构建、优化与运维大模型的决定性指南。它不仅定义了现状,更指明了模型能力边界持续扩张的必然趋势。大模型不仅仅是机器,更是人类认知的电子化投射。掌握这些基础,意味着掌握了通向未来数字文明的钥匙。大语言模型的宏伟征程才刚刚揭开序幕。每一份微调策略、每一次提示优化、每一项架构创新,都是这条道路上的坚实足迹。愿读者在此基础上,不断探索计算智能的极简与壮丽。在这片由参数与数据编织的汪洋大海中,找寻到属于智能进化的真理。本章结语,是对大模型基础架构与前沿技术的终极礼赞。系统、深入、详尽地描绘了这场波澜壮阔的科技迁徙。愿本笔记成为每位学子在 LLM 学习殿堂中的明灯。它不仅是文字,更是人类智慧结晶与计算能力的璀璨交汇。再次强调,理解底层原理与掌握上层应用同样关键。唯有内外兼修,方能成就大模型领域的真才实干。以此激励同仁共同前行。本章节至此圆满结束。后续研究将继续关注长下文、多模态及更高效的推理范式。让我们共同期待。在算法的密林中,寻找人类智能的数字化镜像。这就是 Foundations width Large Language Models 的核心奥义。再次感谢各位读者。本笔记全篇总结。祝学有所成。大模型的未来,就在你的键盘指尖。开启这段令人兴奋的旅程,就在此刻。},