跳到主要内容

相关概念

模型参数

  • 定义:神经网络可学习的参数数量,决定"智商"的上限
  • 单位:B(十亿),案例:DeepSeek R1满血版=671B参数
  • 影响:参数越多,理解力/推理力越强,但显存需求高

上下文长度

  • 定义:单次处理最大输入token数,决定“能读多长文本”
  • 典型值:2K~128K,DeepSeek-R1支持128K(~6万汉字)
  • 类比:人类“工作记忆”vs“长期记忆”,上下文不足会“断片”

上下文不够?模型会‘断片’,前文忘后文

思维链(COT)

  • 展示推理步骤,提升可解释性。例如,DeepSeek通过开放内部推理路径,让用户理解AI是如何得出结论的。

最大输出长度

  • 单次生成内容的上限,通常以Token为单位。如R1支持8Ktokens,对于长文本,需分多轮生成。

量化

  • 定义:FP32浮点参数压缩为INT8/INT4整数,牺牲精度换效率
  • 压缩比:体积缩小4-8倍,速度提升2-4倍,能耗降至1/10
  • 代价:精度损失5%~15%,依赖Tensor Core/H100等硬件

类似于,把4k的图片压缩到1080p,得到的是更小的体积,更快的加载速度,失去的是画质

模型蒸馏

  • 定义:大模型(Teacher)通过知识迁移,将其能力传授给更轻量的小模型(Student)。
  • 案例:以DeepSeek-R1作为教师模型,指导Qwen-7B等学生模型,使其在特定任务上表现优异。
  • 优缺点
    • 优点:模型更小、运行更快、更节省资源、易于部署。
    • 缺点:通常会损失一部分原始大模型的创造性和泛化能力。

Token

  • 定义:处理文本的最小单位,可以是一个词、一个字或一个标点符号,是Al服务计费的基础。
  • 换算:1个英文字符约等于0.3个token,1个中文字符约等于0.6个token。
  • 注意:不同模型的分词策略(Tokenizer)不同,实际token数量需以API返回结果为准。

MOE架构

  • 全称:Mixture of Experts(混合专家模型)
  • 原理:多个“专家子模型”+门控调度器,按任务激活对应的专家
  • 优势:计算高效,如DeepSeek-V3总参大,激活仅37B

RAG

  • 全称:Retrieval-Augmented Generation(检索增强生成)
  • 流程:提问→检索外部知识库→生成答案
  • 优势:解决知识滞后,提升事实准确性,可结合多模态检索

不让AI瞎编——先查资料再说话

强化学习

  • 对比:监督学习(模仿)vs 强化学习(试错+奖励)
  • 机制:答对→奖励→强化路径;答错→惩罚→调整策略
  • 优势:泛化能力强,适合数学/编程等复杂推理

“像孩子学走路——摔倒了,才知道怎么走稳。”

Agent 智能体

  • 定义:感知环境、自主决策、执行任务的Al实体
  • 等级演进:聊天机器人→推理者→智能体→创新者→组织者
  • 2025趋势:智能体元年,案例:AutoGPT、BabyAGl

“从‘动口’到‘动手’——AI真正开始干活了。”

MCP

<<<<<<< HEAD

SKILL

=======

6862796 (feat: 新增文章)