01-AI Agent 开发要学什么?
前言
我们每天都在用各种 AI Agent,比如用 Curosr 写代码,用 Manus 做各种自动化的事情。
那你有没有想过自己开发一个 AI Agent 产品呢?
有同学说,直接调大模型不就行了?
你可以想一下,大模型是不是有这些问题:
- 你上周和它聊过的消息,它是不是记不住?
- 你让它帮你访问一个网页,做一些事情,它是不是只能告诉你思路让你自己做?
- 你想让它基于你公司内部的私密文档来做一些解答,它是不是不知道那是什么?
- 你问他刚发生的一个新闻,它是不是不知道?因为它训练的时候没这些数据
这些问题的解决就需要分别给大模型加上 Memory 记忆能力、Tool 工具调用能力、RAG 文档查询能力等。
不管大模型怎么发展,它都没法解决这些:
- 它的记忆总是有限的,需要开发者做 Memory 管理
- 它可以调的特定领域的工具,需要开发者开发好 Tool 交给它
- 它没办法对不知道的私密文档做解答,需要扩展 RAG 知识库查询能力
这些就是我们要学的 AI 技术,也就是 AI Agent 的开发能力。
Agent 是什么
其实就是给大模型扩展了 Tool 和 Memory。它本来就可以思考、规划,你给他用 Tool 扩展了能力,它就可以自动做事情了,用 Memory 管理了记忆,它就可以记住你想让它记住的东西,还可以用 RAG 查询内部知识库来获取知识。
这样一个知道内部知识、能思考规划、有记忆,能够帮你做事情的扩展后的大模型,就是一个 Agent。
Manus 是什么
Manus 不是一个模型,也不是一个框架 它是一个「通用型 AI Agent 产品」 ——把 Planner / Tool / Memory / Execution 全部打包好,直接给你用。
那 Manus 到底“是什么角色”?
👉 Manus = 一个「跨领域、跨工具的执行型 Agent」
举例
你每天用的 Curosr 等 AI IDE,它是怎么读写文件、执行命令的?
- 比如改代码需要读写文件,帮你运行代码需要执行命令,如何实现的这些功能呢?很明显是扩展了 Tool。
- 帮你做各种事情的 Manus,是怎么唤起浏览器来自动访问一些网页,怎么执行命令,怎么帮你操作各种软件的?
- Manus 是怎么打开浏览器、访问网页,点击元素,帮你总结成文档,写入 md 文件的?也是扩展了 Tool。
支付宝里的理财助手,可以帮你分析基金,推荐基金,它是怎么知道这些基金的数据的?
- 支付宝蚂小财是怎么知道这些基金的数据的?是大模型本身就知道么?
- 肯定不是啊,是基于 RAG 来访问了内部的知识库。
类似的各种需要给大模型扩展能力的场景太多了。
光会和大模型聊天不行,你得能给它扩展各种能力,这样才能满足各种 AI 需求。
这就是我们学习 AI 技术的目标。
学习
那 RAG、Memory、Tool、Agent 等用什么框架呢?
最常用的就是 LangChain,它对这些能力封装好了各种 api,可以直接用。
在公司做 AI Agent 产品,就是基于 langchain 来开发。
它有 python 和 node 版,我们学的是 node 版。
其实语言是次要的,等你学会了 AI 技术,换语言来写也是很简单的事情,逻辑、概念都是一样的。
作为前端,肯定是 js、node 来上手学 AI 更顺滑啊!
LangChain 是用来开发单个 Agent 的,每个 Agent 做一件事情。
但涉及到多个 Agent 协作,用 LangChain 自己维护多 Agent 的交互就比较麻烦了,这时候我们就要学习 LangGraph。
它是基于 LangChain 封装的,用于多 Agent 交互的框架。
学 AI 不要只学用 AI 做一些工具,最好是结合后端技术一起学,也就是 AI 全栈。
因为 AI 代码是在后端跑的,这时候你需要用 redis 存记忆、用 mysql 存知识等,这种就需要后端的知识了。
所以我们是后端 + AI 一起学,做 AI 全栈产品,node 后端框架用 Nest。
GPT AI Agent 学习线路
一、入门认知层(先搞清楚:AI Agent 到底是啥)
目标:不再被名词吓到,知道 Agent 在系统里干嘛
1️⃣ 基础概念(必懂)
- 什么是 LLM(大语言模型)
- Prompt 是什么?为什么它能“指挥”AI
- AI Agent 是什么?
- 和「聊天机器人」的区别
- 和「自动化脚本」的区别
- Agent 的核心能力:
- 感知(输入)
- 思考(规划)
- 行动(调用工具)
- 记忆(存信息)
👉 你可以把 Agent 理解为: “会自己想步骤 + 会用工具的 AI”
2️⃣ 常见 Agent 应用(建立直觉)
- 自动写代码 + 跑测试
- 自动查资料 + 总结
- 自动处理工单 / 审核内容
- 自动跑工作流(比 if-else 聪明)
二、Prompt & LLM 使用层(Agent 的“脑子”)
目标:会控制 AI 的思考方式
3️⃣ Prompt 基础(非常重要)
- 指令式 Prompt(Do X)
- 角色 Prompt(你是一个…)
- 结构化 Prompt(JSON / Markdown)
- 示例驱动(Few-shot)
4️⃣ 思维控制技巧
- Chain of Thought(一步一步想)
- ReAct(Thought → Action → Observation)
- Self-Reflection(自我修正)
你会明白:
Agent ≠ 一次 Prompt
Agent = 多轮 Prompt + 状态控制
三、工具调用 & 自动化(Agent 能“干活”的关键)
目标:让 AI 不只是“说”,还能“做”
5️⃣ Tool / Function Calling
- 什么是工具调用
- LLM 如何决定“用哪个工具”
- 常见工具类型:
- HTTP API
- 数据库查询
- 文件读写
- 代码执行
6️⃣ 现实世界工具整合
- 搜索(Web Search)
- 浏览网页
- 执行脚本
- 调用第三方系统(飞书、GitHub、Jira 等)
👉 到这里,你已经可以做 实用型 Agent 了
四、记忆系统(Agent 为什么“像个人”)
目标:让 Agent 有“上下文”和“长期记忆”
7️⃣ 记忆的几种形态
- 短期记忆(Conversation Context)
- 中期记忆(Session State)
- 长期记忆(数据库 / 向量库)
8️⃣ 向量数据库(轻理解版)
- Embedding 是什么(不讲数学)
- 相似度搜索在干嘛
- 典型用途:
- 知识库
- 项目经验记忆
- 用户偏好
五、Agent 架构模式(从“能跑”到“跑得优雅”)
目标:理解别人写的 Agent 系统
9️⃣ 单 Agent 架构
- 一个 Agent + 多工具
- 优点 / 缺点
- 适合个人项目
🔟 多 Agent 架构(高级但好理解)
- 角色拆分(策划 / 执行 / 审核)
- Manager-Agent 模式
- Planner / Executor 模式
这一步你会意识到:
Agent 本质是 软件架构问题
六、主流 Agent 框架(工具而已,别迷信)
目标:会选、不被框架绑架
1️⃣1️⃣ 常见框架(知道即可)
- LangChain
- LlamaIndex
- AutoGen
- CrewAI
学习建议顺序
- 先 不用框架,自己写
- 再看框架解决了什么问题
- 最后挑一个顺手的
七、工程化 & 落地(90%的人卡在这里)
目标:Agent 能长期稳定运行
1️⃣2️⃣ 工程问题
- 状态管理
- 异常处理(AI 经常胡说)
- 成本控制(Token 爆炸)
- 日志 & 可观测性
1️⃣3️⃣ 安全 & 边界
- Prompt 注入
- 工具权限控制
- 人工兜底(Human-in-the-loop)
八、从普通人出发的【实战项目清单】⭐
学到这里,一定要做项目,否则全忘
初级
- AI 日报生成 Agent
- 代码 Review Agent
- 内容审核 Agent
中级
- 自动 PR 审核 + 评论 Agent
- 知识库问答 Agent
- 简单 AI 助理(有记忆)
高级
- 多 Agent 协作系统
- AI 项目管家
- 面向业务的 AI 自动流程
九、你的背景专属建议(重点)
结合你是前端 + React / Taro / NestJS 👇 非常适合走这条路线:
Agent + 工程 + 前端可视化
推荐组合:
- 后端:Node.js / NestJS(你已经会)
- Agent:Tool Calling + Workflow
- 前端:Agent 状态面板 / 对话 UI
- 自动化:CI / 审核 / 内容生成
你做出来的东西会比纯 AI 博主更值钱。