跳到主要内容

相关概念

模型参数

定义：神经网络可学习的参数数量，决定"智商"的上限
单位：B（十亿），案例：DeepSeek R1满血版=671B参数
影响：参数越多，理解力/推理力越强，但显存需求高

上下文长度

定义：单次处理最大输入token数，决定“能读多长文本”
典型值：2K~128K，DeepSeek-R1支持128K（～6万汉字)
类比：人类“工作记忆”vs“长期记忆”，上下文不足会“断片”

上下文不够?模型会‘断片’，前文忘后文

思维链（COT）

展示推理步骤,提升可解释性。例如，DeepSeek通过开放内部推理路径，让用户理解AI是如何得出结论的。

最大输出长度

单次生成内容的上限，通常以Token为单位。如R1支持8Ktokens，对于长文本，需分多轮生成。

量化

定义:FP32浮点参数压缩为INT8/INT4整数，牺牲精度换效率
压缩比:体积缩小4-8倍，速度提升2-4倍，能耗降至1/10
代价:精度损失5%~15%，依赖Tensor Core/H100等硬件

类似于，把4k的图片压缩到1080p，得到的是更小的体积，更快的加载速度，失去的是画质

模型蒸馏

定义：大模型(Teacher）通过知识迁移，将其能力传授给更轻量的小模型(Student)。
案例：以DeepSeek-R1作为教师模型，指导Qwen-7B等学生模型，使其在特定任务上表现优异。
优缺点
- 优点：模型更小、运行更快、更节省资源、易于部署。
- 缺点：通常会损失一部分原始大模型的创造性和泛化能力。

Token

定义：处理文本的最小单位，可以是一个词、一个字或一个标点符号，是Al服务计费的基础。
换算：1个英文字符约等于0.3个token，1个中文字符约等于0.6个token。
注意：不同模型的分词策略（Tokenizer)不同，实际token数量需以API返回结果为准。

MOE架构

全称：Mixture of Experts(混合专家模型)
原理：多个“专家子模型”+门控调度器，按任务激活对应的专家
优势：计算高效，如DeepSeek-V3总参大，激活仅37B

RAG

全称：Retrieval-Augmented Generation(检索增强生成)
流程：提问→检索外部知识库→生成答案
优势：解决知识滞后,提升事实准确性,可结合多模态检索

不让AI瞎编——先查资料再说话

强化学习

对比：监督学习(模仿)vs 强化学习(试错+奖励)
机制：答对→奖励→强化路径;答错→惩罚→调整策略
优势：泛化能力强，适合数学/编程等复杂推理

“像孩子学走路——摔倒了,才知道怎么走稳。”

Agent 智能体

定义：感知环境、自主决策、执行任务的Al实体
等级演进：聊天机器人→推理者→智能体→创新者→组织者
2025趋势：智能体元年，案例:AutoGPT、BabyAGl

“从‘动口’到‘动手’——AI真正开始干活了。”

MCP

<<<<<<< HEAD

SKILL

=======

6862796 (feat: 新增文章)

模型参数
上下文长度
思维链（COT）
最大输出长度
量化
模型蒸馏
Token
MOE架构
RAG
强化学习
Agent 智能体
MCP
SKILL