大模型概述
目标:用“工程 + 研究”的视角,快速建立对 LLM 的问题定义、能力边界、常见误区的统一认知。
什么是大模型(Large Model / LLM)
“大模型”在工程语境里通常指:参数量、数据量、训练算力足够大,并在统一的预训练任务上获得“通用表示能力”的模型体系。
对 LLM 来说,最核心的抽象是:用一个参数化分布 (p_\theta) 去建模文本序列的生成过程。最常见的形式是自回归语言建模:
[ p_\theta(x_{1:T}) = \prod_{t=1}^{T} p_\theta(x_t \mid x_{<t}) ]
训练目标(最大似然)等价于最小化交叉熵损失:
[ \mathcal{L}(\theta) = -\sum_{t=1}^{T} \log p_\theta(x_t \mid x_{<t}) ]
你需要抓住的 3 个关键词
规模(Scaling):参数/数据/算力的联合扩展带来“性能可预测提升”,并出现一些涌现现象(但“涌现”本身也存在统计与评估争议)。
通用表征(Representation):预训练不等于“会做任务”,而是获得一个可迁移的表征空间,后续要通过指令微调、对齐、工具使用等把能力“对齐到可用形态”。
生成式接口(Generative Interface):输入输出都变成 token 序列,任务被统一成“条件生成”问题——这是 LLM 能横跨多任务的关键。
常见误解
误解 1:大模型=知识库。LLM 不直接存“事实表”,它存的是对训练分布的统计压缩;检索增强(RAG)/工具调用/外部记忆通常是把“可更新事实”从参数里剥离出去。
误解 2:会说=会做。语言流畅与决策正确是两件事;尤其在高风险场景必须用约束、校验和可审计证据链补齐(你在医疗项目那篇里已经指出了这一点)。
误解 3:只要再训就行。很多失败来自问题定义(reward、标签、约束)不成立,而不是模型容量不够。
大模型的发展历程
这里给一个“对工程最有用”的发展脉络:目标函数如何演进、数据如何组织、对齐如何落地。
1) 预训练时代:从词向量到 Transformer
词向量/上下文表征:word2vec、GloVe、ELMo 等让“语义”从离散符号变成连续向量,但能力有限。
Transformer(2017):注意力机制解决长依赖、并行训练友好,成为 LLM 的主干架构。
2) 规模化时代:Scaling Law 与通用能力
工程上最重要的变化是:当模型、数据、算力按一定比例扩展时,loss 与下游性能更可预测,从而可以做“算力预算下的最优配比”。
3) 指令化与对齐:从“会续写”到“可对话”
把 LLM 变成可用产品,通常会经过:
SFT(指令微调):让模型学会“遵循指令/输出格式/多轮对话”。
对齐(RLHF / DPO / GRPO 等):把“人类偏好、安全性、风格约束”注入模型,使其更符合使用目标。
工具与系统化(Tool use / Agents):把能力拆到系统层:检索、执行、规划、校验、记忆、权限控制。
经验法则:越靠近真实业务,越不要把“正确性/安全性/约束”寄希望于端到端参数学习,而要系统化拆解。
大模型的能力与局限
能力:为什么 LLM “看起来很通用”
从机制上可以这样理解:
上下文学习(In-Context Learning):在 prompt 中给例子,相当于在推理时“临时定义任务”,模型用表征和注意力把模式匹配出来。
组合泛化:语言本身高度组合,使得模型可以在已见片段上重组出新表达。
统一接口:分类/抽取/生成/推理都能被写成“条件生成”。
局限:你必须显式防范的 5 类风险
幻觉(Hallucination):在信息不足时仍然高置信生成;对策通常是 RAG、引用证据、校验器、拒答策略。
不确定性不可见:token 概率不等于“任务置信度”;对策是引入校准、对抗评测、结构化验证(例如规则/单元测试/执行反馈)。
分布外退化(OOD):真实场景 OOD 是常态;对策是监控、数据闭环、回滚与安全兜底。
长上下文与记忆错觉:能看很多 token 不代表能稳定利用;对策是结构化上下文(检索、摘要、分段、计划)。
对齐税(Alignment Tax):安全与服从可能牺牲部分开放域能力;需要分级策略(内部模型/外部模型、不同 policy)。
一个工程视角的检查清单
当你说“我要在业务里用 LLM”,建议先回答:
输入是否可审计:模型依据的事实来自哪里?能否追溯?
输出是否可验证:能否用程序/规则/执行反馈验证?
失败是否可控:失败时是否能安全降级(fallback)?
成本是否可预测:token 成本、延迟、峰值 QPS 下的资源预算?
数据是否会闭环:线上错误能否变成训练数据或规则修正?
多模态大模型简介
多模态大模型(VLM/MLLM)的核心变化不是“加了图片”,而是把不同模态 (x^{(m)}) 映射到同一个可对齐的表示空间,并让语言模型成为统一的“推理与生成接口”。
常见范式包括:
双塔/对比学习(CLIP 系):图像编码器与文本编码器对齐,适合检索与表征。
单塔/融合式(BLIP、Flamingo 等):视觉特征作为条件输入喂给语言模型,适合生成与问答。
统一 token 化(离散视觉 token / patch token):把视觉变成“可被 Transformer 处理的序列”。
工程上最关键的两点:
对齐数据质量:图文对齐数据的噪声、偏差会直接反映在模型行为上。
接口设计:视觉信息以什么形式进入 LLM(prefix、cross-attn、插入 token)会影响可控性与推理效率。
应用场景概览
把应用按“可验证性/风险等级”粗略分层,会更容易落地:
低风险、可容错(优先落地)
文本/代码辅助:写作、总结、翻译、代码补全
知识管理:RAG + 摘要 + 引用
多模态理解:图片说明、OCR 后理解、检索
中风险、需要校验(需要系统化)
工单/客服:必须有工具调用与权限控制
数据分析:需要执行器(SQL/Python)与结果回传校验
自动化工作流:需要可观测性、回滚与审计日志
高风险(强约束 + 人在回路)
医疗、金融、法律、安防等:必须把硬约束与责任链放在系统层,模型只做“候选 + 解释 + 交互”,而不是“决策输出”。
本章小结
LLM 的本质是对序列分布的参数化建模,预训练提供通用表征,但“可用”通常依赖 SFT/对齐/系统化。
工程落地优先考虑:可审计、可验证、可控失败、成本可预测、数据闭环。
多模态的关键不是“多一个输入”,而是对齐与接口设计:让语言模型成为统一推理接口。