# 大模型概述 > 目标:用“工程 + 研究”的视角,快速建立对 LLM 的**问题定义、能力边界、常见误区**的统一认知。 ## 什么是大模型(Large Model / LLM) “大模型”在工程语境里通常指:**参数量、数据量、训练算力足够大**,并在统一的预训练任务上获得“通用表示能力”的模型体系。 对 LLM 来说,最核心的抽象是:用一个参数化分布 \(p_\theta\) 去建模文本序列的生成过程。最常见的形式是自回归语言建模: \[ p_\theta(x_{1:T}) = \prod_{t=1}^{T} p_\theta(x_t \mid x_{ 经验法则:越靠近真实业务,越不要把“正确性/安全性/约束”寄希望于端到端参数学习,而要系统化拆解。 ## 大模型的能力与局限 ### 能力:为什么 LLM “看起来很通用” 从机制上可以这样理解: - **上下文学习(In-Context Learning)**:在 prompt 中给例子,相当于在推理时“临时定义任务”,模型用表征和注意力把模式匹配出来。 - **组合泛化**:语言本身高度组合,使得模型可以在已见片段上重组出新表达。 - **统一接口**:分类/抽取/生成/推理都能被写成“条件生成”。 ### 局限:你必须显式防范的 5 类风险 1. **幻觉(Hallucination)**:在信息不足时仍然高置信生成;对策通常是 RAG、引用证据、校验器、拒答策略。 2. **不确定性不可见**:token 概率不等于“任务置信度”;对策是引入校准、对抗评测、结构化验证(例如规则/单元测试/执行反馈)。 3. **分布外退化(OOD)**:真实场景 OOD 是常态;对策是监控、数据闭环、回滚与安全兜底。 4. **长上下文与记忆错觉**:能看很多 token 不代表能稳定利用;对策是结构化上下文(检索、摘要、分段、计划)。 5. **对齐税(Alignment Tax)**:安全与服从可能牺牲部分开放域能力;需要分级策略(内部模型/外部模型、不同 policy)。 ### 一个工程视角的检查清单 当你说“我要在业务里用 LLM”,建议先回答: - **输入是否可审计**:模型依据的事实来自哪里?能否追溯? - **输出是否可验证**:能否用程序/规则/执行反馈验证? - **失败是否可控**:失败时是否能安全降级(fallback)? - **成本是否可预测**:token 成本、延迟、峰值 QPS 下的资源预算? - **数据是否会闭环**:线上错误能否变成训练数据或规则修正? ## 多模态大模型简介 多模态大模型(VLM/MLLM)的核心变化不是“加了图片”,而是把不同模态 \(x^{(m)}\) 映射到**同一个可对齐的表示空间**,并让语言模型成为统一的“推理与生成接口”。 常见范式包括: - **双塔/对比学习(CLIP 系)**:图像编码器与文本编码器对齐,适合检索与表征。 - **单塔/融合式(BLIP、Flamingo 等)**:视觉特征作为条件输入喂给语言模型,适合生成与问答。 - **统一 token 化(离散视觉 token / patch token)**:把视觉变成“可被 Transformer 处理的序列”。 工程上最关键的两点: 1. **对齐数据质量**:图文对齐数据的噪声、偏差会直接反映在模型行为上。 2. **接口设计**:视觉信息以什么形式进入 LLM(prefix、cross-attn、插入 token)会影响可控性与推理效率。 ## 应用场景概览 把应用按“可验证性/风险等级”粗略分层,会更容易落地: ### 低风险、可容错(优先落地) - 文本/代码辅助:写作、总结、翻译、代码补全 - 知识管理:RAG + 摘要 + 引用 - 多模态理解:图片说明、OCR 后理解、检索 ### 中风险、需要校验(需要系统化) - 工单/客服:必须有工具调用与权限控制 - 数据分析:需要执行器(SQL/Python)与结果回传校验 - 自动化工作流:需要可观测性、回滚与审计日志 ### 高风险(强约束 + 人在回路) - 医疗、金融、法律、安防等:必须把硬约束与责任链放在系统层,模型只做“候选 + 解释 + 交互”,而不是“决策输出”。 --- ## 本章小结 - LLM 的本质是对序列分布的参数化建模,预训练提供通用表征,但“可用”通常依赖 SFT/对齐/系统化。 - 工程落地优先考虑:可审计、可验证、可控失败、成本可预测、数据闭环。 - 多模态的关键不是“多一个输入”,而是对齐与接口设计:让语言模型成为统一推理接口。