1 / 12
🤖

AI 学习之旅

从人工智能到大语言模型,从原理到智能体
带你一步步理解 AI 的核心概念

🧠 AI 💬 LLM 🤝 Agent ⚡ Skill
2 / 12

什么是 AI?

AI(Artificial Intelligence)= 让机器具备「智能」的能力

🎮

游戏 AI

游戏中的电脑玩家,能做出决策、追击、逃跑

🐜

传统算法

如生物集群模拟、路径规划等经典算法

🧠

大语言模型

当今人们口中的「AI」,多指 LLM(Large Language Model)

3 / 12

什么是 LLM?

大语言模型 ≈ 一个「文字接龙」的概率模型

今天天气真 🧠 概率预测 好 75% 棒 20% 差 3% 今天天气真好 循环生成下一个字

逐字预测,循环生成

LLM 本质上是一个 文字概率模型:给定一段文字,预测下一个字最可能是什么,然后把新字加入原文,继续预测下一个字……如此循环,最终生成完整回答。

4 / 12

LLM 的训练原理

用海量数据,拟合出一个「足够好」的函数

x y 1 2 4 6 (1,2) (2,4) (4,8) (6,12) f(x) = 2x (5,11) (7,13) 训练数据 新数据(近似)

简单类比 📐

已知数据 (1,2) (2,4) (4,8) (6,12),我们拟合出 f(x)=2x

新数据 (5,11) (7,13) 虽不完全吻合,但足够接近 —— 函数依然有效

💡 LLM 就是用 超大规模 的数据和参数,拟合出一个「预测下一个字」的超级函数

5 / 12

更多维度的 LLM

从简单函数 → 神经网络 → 超大规模语言模型

输入层 隐藏层 隐藏层 输出层 数十亿~ 数千亿个参数(连线)

🧬 神经网络

现实中 LLM 使用多层神经网络,拥有数十亿甚至数千亿个参数(连线),通过海量文本训练,学会预测下一个字。

💬 对话能力:将文字分为「用户」和「AI」两个角色,放入上下文,模型自然学会对话格式。

6 / 12

上下文 Context

LLM 的所有对话历史,就是它的「记忆」

📋 系统提示(System Prompt)
「你是一位专业的厨师,擅长回答烹饪相关问题」
🧑 番茄炒蛋怎么做?
🤖 番茄炒蛋的做法:先将鸡蛋打散炒熟盛出,再炒番茄出汁,最后合炒调味……
🧑 推荐一道菜?
🤖 推荐你试试红烧排骨!做法是……

📑 上下文 = 全部对话历史

LLM 每次回答时,都会读取之前所有对话作为上下文,据此生成下一个字。

🎯 AGENT 雏形:通过在上下文中设定角色(如厨师),LLM 的回答会侧重于该角色的专业领域。

7 / 12

AGENT 智能体

让 LLM 拥有「行动」的能力 —— 感知 → 决策 → 执行 → 循环

🧠 LLM 🧑 用户 提问 🔧 工具 调用 返回结果 回答用户

🔄 Agent 循环

问题:LLM 不知道实时天气、新闻等信息

方案:在上下文中告诉 LLM 「你可以调用查天气工具」

当 LLM 判断需要查天气时,会输出特定格式 → 程序检测到后调用工具 → 将结果加入上下文 → LLM 继续生成回答

🧠 感知 🔧 执行 📝 反馈
8 / 12

通用智能体架构

定义一套协议,让 Agent 能完成各种任务

🧠
LLM 核心
System Prompt 驱动
📋 系统提示词包含:
🎭
角色定义
LLM 扮演什么角色
🔧
工具列表
读写文件、查询网页等
Skill 技能
可用的工作流程
💾
Memory 记忆
重要信息持久化
通过这套协议,Agent 就能理解何时调用工具、何时回答用户、如何记住重要内容
9 / 12

什么是 SKILL?

SKILL = 一份「操作指南」,告诉 LLM 如何完成特定任务

📝
完善大纲
🌐
写成网页
📄
转成 PPT
📁 make-ppt/
  ├── SKILL.md ← 技能说明文档
  ├── 📁 scripts/
  │   └── html2ppt.py ← 转换工具
  ├── 📁 templates/
  │   └── default.html ← 网页模板
  └── examples/

🛠️ 本质:说明文档 + 工具集

SKILL.md 告诉 LLM:

  • 完成这件事的步骤流程
  • 可以使用哪些工具和脚本
  • 每一步的注意事项

LLM 读取 SKILL 后,就能像一个熟练工人一样,按流程完成任务。

10 / 12

记忆 Memory

让 Agent 跨越会话,记住重要的事

💬
会话 1
用户偏好项目结构……
⬇️
💾
Memory
📌 用户偏好:项目结构……
📌 关键决策:使用 xxx……
💬
会话 2
Agent 已记住上次内容
快速上手继续工作 ✅

🧠 为什么需要 Memory?

每次新会话,上下文都会被清空。没有记忆,Agent 就像「失忆」了一样。

Memory 本质是一个持久化文档,LLM 自行判断哪些信息重要并写入。

💡 下次对话时,Agent 读取 Memory 即可快速恢复上下文,让人感觉它「很聪明」。

📌 短期记忆 📚 长期记忆 🔍 记忆检索
11 / 12

主流智能体对比

四款代表性 Coding Agent,各有侧重

🔮
Claude CodeAnthropic

终端 Agent,深度集成代码理解、编辑、测试全流程,适合大型项目

深度理解
🐙
OpenCode开源社区

开源 Agent,支持多模型切换,可自定义 Skill 和工具,社区驱动

开源免费
🦞
OpenClaw开源项目

轻量框架,清晰工具调用协议与简洁上下文管理,快速上手

轻量灵活
🕊️
Hermes研究方向

多智能体协作研究框架,探索 Agent 间高效通信与任务分解

多智能体
特性🔮 Claude Code🐙 OpenCode🦞 OpenClaw🕊️ Hermes
模型支持Claude多模型可扩展多模型
开源
定位专业开发通用开发轻量框架多智能体研究
复杂度⭐⭐⭐⭐⭐⭐⭐⭐
Skill 生态丰富社区驱动基础实验性
适合场景大型项目日常开发快速搭建研究探索
12 / 12

多智能体协作 ⚡ 高级实践

长时间运行 · 任务分解 · Agent 间通信 · 自主决策

🎯 调度 Agent 🔍 调研 Agent 💻 编码 Agent 🧪 测试 Agent 传递 传递 💾 共享 Memory & 知识库 ⏱️ 长时间运行 · 持续迭代 · 上下文持久化

🚀 核心思路

单一 Agent 能力有限,复杂任务需要多个 Agent 分工协作:

  • 🎯 调度 Agent — 拆解任务、分配工作
  • 🔍 调研 Agent — 搜索信息、分析文档
  • 💻 编码 Agent — 写代码、实现功能
  • 🧪 测试 Agent — 验证结果、发现问题

⏱️ 长时间运行:Agent 可持续运行数小时甚至数天,通过共享 Memory 协作,处理超大规模任务(如重构整个项目、自动化测试流水线等)。