侧边栏壁纸
博主头像
牧云

怀璧慎显,博识谨言。

  • 累计撰写 110 篇文章
  • 累计创建 12 个标签
  • 累计收到 8 条评论

目 录CONTENT

文章目录
AI

AI领域术语祛魅

秋之牧云
2026-02-13 / 0 评论 / 0 点赞 / 11 阅读 / 0 字

Agent

一句话定义

AI Agent(人工智能智能体)是具备自主感知、推理、决策与行动能力的软件实体,其核心是“利用 AI 模型与环境交互,解决用户定义的任务”,通过循环调用大语言模型的认知能力与外部工具的操作能力,实现端到端任务闭环 。


为什么需要 Agent?(核心价值)

  • 弥补大模型短板:大模型是“认知天才但无手脚”,Agent 为其赋予工具调用能力(如搜索、计算、操作API),突破纯文本限制

  • 超越传统程序:传统程序是“预设逻辑的傀儡”,Agent 具备动态适应能力(根据环境反馈调整策略),处理模糊、开放性任务

  • 实现任务自动化:将人类意图(如“整理周报”)转化为可执行动作链,减少重复劳动

四大核心组件(缺一不可)

组件

角色

说明

推理引擎(LLM)

“大脑”

负责理解任务、规划步骤、决策判断(如 GPT-4、通义千问)

指令(Instruction)

“任务书”

定义 Agent 的目标、约束与行为边界(系统提示词/上下文工程)

记忆(Memory)

“经验库”

存储历史交互、长期知识(短期记忆:当前会话;长期记忆:向量库)

工具(Tools)

“手脚”

执行具体操作的外部能力(搜索、计算器、API 调用等)

对比项

大语言模型(LLM)

传统程序

AI Agent

能力边界

纯文本生成/推理

预设逻辑执行

感知-推理-行动闭环

环境交互

无(仅文本输入输出)

有限(固定API调用)

动态工具调用

适应性

无记忆(单次对话)

无(硬编码)

记忆+反思优化

任务类型

回答问题、创作文本

确定性任务

开放性、复杂任务

ReAct、Planning、Graph 等均为 Agent 的实现技术或架构模式,而 Agent 本身是更高层的概念——如同“汽车”是概念,“发动机+变速箱”是实现组件。

Copilot

Copilot(副驾驶)是嵌入具体工作流的 AI 辅助工具,核心定位是 “增强人类效率”而非替代人类。典型产品包括:

  • GitHub Copilot:代码补全、注释生成、调试建议(编程场景)

  • Microsoft 365 Copilot:在 Word/Excel/Teams 中总结邮件、生成文档、数据分析

  • Excel Copilot:表格数据可视化、公式建议

  • Copilot for CLI:命令行工具辅助(无需记忆复杂 shell 命令)

核心特点
上下文感知:深度理解当前工作环境(如代码文件、Excel 表格)
人主导,AI 建议:提供选项供人类选择/确认(如“接受此代码建议?”)
轻量嵌入:无缝集成到现有工具(VS Code、Office 等),降低使用门槛
场景聚焦:解决单一领域高频痛点(写代码、处理表格、写邮件)

💡 本质:Copilot 是 “有边界的智能助手” ——它在人类设定的框架内提供精准辅助,但不主动发起复杂任务链 。

Copilot 与 Agent 的关系:光谱而非对立

维度

Copilot

Agent

关系说明

核心目标

辅助人类(人主导)

自主执行(AI主导)

Copilot 是 Agent 的轻量级应用形态

自主性

需人类触发/确认

可自主规划并执行完整任务链

Copilot for CLI 已接近轻量 Agent

任务复杂度

单场景、短流程(如补全代码)

多步骤、跨工具(如“订高铁→写行程单→发邮件”)

复杂 Copilot(如 365 Copilot)开始融合 Agent 能力

用户角色

决策者(接受/拒绝建议)

监督者(设定目标,AI 执行)

边界模糊:Copilot 可视为 “受控型 Agent”

技术底座

均依赖 LLM + Tool Use + 上下文理解

同左

Copilot 是 Agent 技术在垂直场景的落地实践

典型场景对比

任务

Copilot 行为

Agent 行为

写代码

在 VS Code 中实时建议下一行代码,需开发者点击采纳

接收“开发一个待办清单应用”需求,自主规划→生成代码→测试→提交 PR

处理周报

在 Word 中根据草稿生成润色建议

自动扫描邮件/会议记录→提取关键数据→生成完整周报→邮件发送给主管

数据分析

在 Excel 中建议“插入柱状图”,需用户确认

接收“分析销售趋势”指令,自主清洗数据→调用 API 补充信息→生成可视化报告→总结洞察

核心结论

  1. Copilot 是 Agent 的“场景化子集”

    • 所有 Copilot 本质都是特定领域的轻量 Agent(如 GitHub Copilot = 代码生成 Agent),但设计上刻意限制自主性以保障安全与可控

    • Agent 是更广义的概念,Copilot 是其在生产力工具中的成功实践

  2. 演进趋势:边界正在融合

    • 新一代 Copilot(如 Microsoft 365 Copilot)已支持多步骤任务(“总结会议→生成待办→同步日历”),逐步吸收 Agent 的规划与工具调用能力

    • 反之,企业级 Agent 系统也借鉴 Copilot 的上下文感知与用户体验设计(如 Spring AI Alibaba Graph 的可视化编排)

  3. 选择逻辑

    • ✅ 需快速提升单点效率(写代码、写文档)→ 选 Copilot

    • ✅ 需自动化复杂业务流程(跨系统数据整合、多角色协作)→ 选 Agent 框架(如 Spring AI Alibaba Graph)

    • ✅ 未来方向:Copilot 增强为“可控 Agent”,Agent 借鉴 Copilot 的易用性,二者终将统一于“人机协同智能体”范式

🌐 一句话总结:Copilot 是“坐在你副驾的智能助手”,Agent 是“能独自开车抵达目的地的司机”——前者重辅助体验,后者重任务闭环,但技术同源、生态共生。

Skills

一句话定义

Skills(技能)是模块化的“能力扩展包”,通过封装领域知识、工具调用方法与执行流程,赋予通用大语言模型(LLM)解决特定任务的专业能力,本质是“让Agent拥有可复用的专业手脚” 。

关键突破:Skills 将“能力”从提示词中解耦,实现模块化、可复用、可共享的Agent能力构建范式 。

为什么需要 Skills

关键突破:Skills 将“能力”从提示词中解耦,实现模块化、可复用、可共享的Agent能力构建范式 。

LLM 原生局限

Skills 的解决方案

知识截止 & 幻觉

封装最新领域知识/最佳实践(如品牌设计规范)

行动力缺失

提供可执行代码/API/工作流(如PDF处理脚本)

提示词冗长

按需加载技能,避免每次对话重复提供指导

垂直领域适配难

低成本扩展通用Agent为专业Agent(如法律/医疗)

核心组成与结构

Skills 通常以文件系统目录形式存在

设计哲学:自文档化(人类可读)、可移植(跨模型/平台)、渐进式披露(按需加载) 。

组件

作用

示例

SKILL.md

核心文件:YAML元数据(名称/描述)+ Markdown指令

name: PDF-Processor
description: 合并/拆分PDF

脚本/代码

可执行逻辑(Python/Shell等)

merge_pdfs.py

模板/资源

领域参考资料(设计规范、示例等)

brand_guidelines.pdf

依赖配置

运行环境要求(requirements.txt)

pymupdf==1.23.0

pdf-processor-skill/

├── SKILL.md          # 核心文件:YAML元数据 + Markdown指令

├── scripts/          # 可执行代码(merge.py, extract_text.py)

├── resources/        # 领域资料(示例PDF、使用指南)

└── requirements.txt  # 依赖环境

工作原理(三阶段)

  1. Discovery(发现)
    Agent 启动时仅加载 Skills 的名称与描述,判断何时可能需要该技能

  2. Activation(激活)
    当用户任务匹配 Skill 描述时,Agent 读取完整 SKILL.md 指令到上下文

  3. Execution(执行)
    Agent 按指令调用脚本/工具,或参考资源生成结果

示例:用户说“合并这两份PDF” → Agent 激活 PDF-Processor Skill → 执行 merge_pdfs.py → 返回合并文件

与相关概念的关系

概念

关系说明

Tools(工具)

Skills 是 Tools 的超集:Tools 仅指可调用接口,Skills 包含工具+指令+知识+最佳实践

MCP(Model Context Protocol)

MCP 是协议标准(统一调用外部工具的方式),Skills 是能力包(封装具体执行逻辑);MCP 可作为 Skills 的底层通信协议

Agent

Skills 是 Agent 的“能力插件”:通用 Agent 通过加载不同 Skills 变身为垂直领域专家(如加载 Legal-Skill 变成法律助手)

ReAct/Planning

Skills 是这些模式的能力载体:ReAct 中的“行动(Act)”步骤常调用 Skills;Planning 的子任务可映射到具体 Skills

典型 Skills 示例

Skill 名称

功能

应用场景

PDF-Processor

合并/拆分/提取PDF文本

文档处理自动化

Brand-Guidelines

封装企业设计规范(Logo/配色)

自动生成符合规范的海报

Skill-Creator

教 Agent 如何创建新 Skill

降低 Skills 开发门槛

Article-Copilot

素材处理→正文写作全流程

内容创作垂直 Agent

AI-Partner

加载用户记忆与偏好

个性化 AI 伴侣

一句话总结:Skills 是连接通用大模型与垂直领域需求的关键桥梁,让 AI 从“万能但浅薄”走向“专业且可靠”。

ReAct (Reasoning + Acting)

“思考(Reason)→ 行动(Act)→ 观察(Observe)”的动态循环。

就像“边走边问路”——每做一步就看结果、随时调整(比如找钥匙:翻抽屉没找到,立刻换柜子继续找);

Planning

Agent 先全局分解任务为有序子步骤(常基于思维链 CoT),明确依赖关系后执行,强调“先谋后动”。

像“出门前先看地图”——先把完整步骤理清楚再行动(比如做蛋糕:先列好“买材料→打蛋→烤制”流程,再一步步执行)

CoT(Chain of Thought

Planning的“分解引擎”

Reflection(反思)

修正错误,若ReAct执行中某步失败,可触发Reflection重新规划该步骤

ReWOO/LLM Compiler

ReWOO(Reasoning Without Observation,无观察推理)

Planning的效率优化变体,ReWOO解耦规划与执行以提升效率;

“写好菜谱再做饭”:Planner一次性生成完整步骤(含变量占位符),Worker执行后由Solver汇总结果,全程无需LLM中途“看火候”

LLM视为编译器,把用户任务“编译”成任务依赖图(DAG),实现子任务的并行调度与执行,大幅提升复杂任务处理速度。

LLM Compiler将计划转为DAG实现并行;

LLM Compiler是ReWOO的进阶,将串行计划升级为并行DAG。

“智能流水线”:LLM将任务“编译”成任务依赖图(DAG),独立步骤自动并行执行(如同时查多家价格),依赖步骤自动等待结果

演进逻辑:ReAct(边做边看)→ ReWOO(写好菜谱再做)→ LLM Compiler(设计智能流水线并行做)

Tool Use(工具使用)

ReAct的“手脚”

核心协同逻辑

层级

概念

核心角色

关键依赖

基础能力层

Tool Use

Agent的“手脚”:调用外部工具实现真实行动

所有上层模式均需Tool Use落地执行

CoT(思维链)

推理“脚手架”:将复杂问题拆解为可推理步骤

Planning的分解基础;ReAct中“思考”步骤的生成依据

核心模式层

Planning

宏观“路线图”:先全局规划步骤再执行

依赖CoT分解任务;依赖Tool Use执行子步骤

ReAct

微观“导航仪”:边推理边行动,动态调整策略

依赖Tool Use调用工具;每步推理隐含CoT思想

优化增强层

Reflection

质量“安全网”:任务后反思修正,持续优化策略

作用于Planning/ReAct输出,提升后续表现

ReWOO/LLM Compiler

效率“加速器”:优化Planning的执行效率

ReWOO是Planning的串行优化;LLM Compiler是并行升级版

Planning 与 ReAct 互补共生

  • Planning定“做什么”(战略骨架),ReAct管“怎么做”(战术执行)

  • 典型架构:Plan-and-Execute = Planner(生成步骤) + Executor(ReAct循环调用Tool Use执行每步)

  • 例:规划上海3日游(Planning)→ 每步查酒店/门票时用ReAct动态调API

CoT 是 Planning 的“引擎”

  • Planning依赖CoT将任务拆解为子步骤(如“生成图片”→“检测姿势→渲染”)

  • ReAct中“思考(Thought)”步骤也隐含CoT式逐步推理

Reflection 为全链路“兜底”

  • 若Planning步骤错误或ReAct执行失败,Reflection触发修正(如代码生成后检查编译错误)

  • 使Agent从“一次性工具”升级为“持续学习的智能体”

ReWOO/LLM Compiler 是 Planning 的“效率革命”

  • ReWOO:解耦规划与执行,避免中间观察,大幅减少Token消耗(Planning的串行优化)

  • LLM Compiler:将Planning的线性步骤升级为DAG,实现并行调度(如同时查多家酒店价格,提速3.6倍)

  • 二者保留Planning的宏观结构,但用工程思维优化执行流

Tool Use 是行动基石

  • 无Tool Use,Planning/ReAct仅是纸上谈兵;所有“行动(Act)”均需Tool Use实现

  • 是ReAct中“行动”步骤、Planning中“执行子任务”的共同载体

Spring AI Alibaba Graph 和 LangGraph

一句话定义
Spring AI Alibaba Graph 是 Spring AI Alibaba 框架的核心模块,将智能体工作流建模为有向图(Graph),通过声明式方式定义节点(Node)与边(Edge)的流转逻辑,实现工作流、多智能体等复杂AI应用的高效编排 。

Spring AI Alibaba Graph 是 “智能体工作流的操作系统” ——它将零散的 AI 能力(LLM、工具等)通过图结构有机整合,让开发者专注业务逻辑设计,而非底层调度细节,显著提升复杂 AI 应用的开发效率与可维护性

设计定位与目标

  • 区别于 Spring AI 仅提供底层原子能力(如ChatClient、EmbeddingModel),Graph 模块聚焦 “智能体应用层”抽象,降低开发者构建复杂AI应用的门槛

  • 核心目标:让开发者像“搭积木”一样构建智能体工作流,无需手动管理状态流转与节点调度

核心思想

  1. 图结构建模:将工作流抽象为节点(执行逻辑)与边(跳转规则)组成的有向图

  2. 状态驱动执行:所有数据通过全局状态对象(OverAllState)在节点间传递,确保状态一致性与可追溯性

  3. 声明式编程:开发者只需描述“做什么”(定义节点与边),框架自动处理“怎么做”(调度、状态管理、错误处理)

  4. 异步优先:原生支持异步执行与流式处理,适配高并发场景

关键组件

组件

角色

说明

StateGraph

工作流蓝图

定义节点、边、状态策略的容器,编译后生成可执行图

OverAllState

全局状态中枢

贯穿流程的共享数据结构,所有节点输入/输出均基于此

Node

功能单元

封装具体操作(如LLM调用、工具执行),接收State,返回更新后的State

Edge

路由规则

根据当前State决定下一步执行哪个Node(条件分支/固定跳转)

KeyStrategy

状态合并策略

定义多个节点更新同一State键时的处理逻辑(如覆盖、追加)

CompiledGraph

编译后图

StateGraph经.compile()生成,含运行时配置(检查点、中断点等)

工作流程三阶段

  1. 构建(Build):定义OverAllState Schema → 添加Nodes → 添加Edges → 形成StateGraph

  2. 编译(Compile):调用.compile()进行结构校验(如孤立节点检查)、注入运行时配置(如检查点器)

  3. 执行(Execute):传入初始State与配置,框架按图流转执行,自动管理状态传递与持久化

与 LangGraph 的关系

  • 继承:设计理念与核心概念(State/Node/Edge)高度借鉴 LangGraph(Python领域智能体框架)

  • 增强
    Java 原生实现:适配 Spring 生态,支持依赖注入、AOP 等企业级特性
    预置节点库:内置大量常用 Node(如工具调用、RAG 节点),减少重复开发
    简化 State 定义:通过 KeyStrategy 等机制降低状态管理复杂度
    深度集成 Spring AI:无缝调用 Spring AI 的原子能力(ChatClient、Function Calling 等)

典型应用场景

  • 多智能体协作(如客服系统:分类→检索→生成→评估)

  • 复杂工作流编排(如内容创作:需求分析→生成→质检→发布)

  • ReAct 范式智能体(推理-行动循环)

  • 数据分析流水线(数据收集→清洗→推理→可视化)

核心价值:将智能体开发从“硬编码串联”升级为“可视化编排”,显著提升开发效率与可维护性,是 Spring AI Alibaba 区别于基础 Spring AI 的关键创新 。

Skills 与 Graph

一句话定调
Skills 是 “能做什么”(封装单一专业能力的积木块),Graph 是 “如何组合做”(定义多能力协作流程的搭建图纸)——二者是 内容与结构、执行单元与调度框架 的互补关系 。

维度

Skills(技能)

Graph(工作流图)

本质差异

定位层级

能力层(执行单元)

编排层(流程框架)

Skills 解决“原子能力”,Graph 解决“系统协作”

粒度

原子级(单一功能)

流程级(多步骤依赖)

一个 Skill = “合并PDF";一个 Graph = “周报生成全流程”

核心职责

封装领域知识+工具调用逻辑

定义节点流转+状态管理+错误处理

Skills 专注“能力实现”,Graph 专注“流程控制”

技术形态

文件目录(SKILL.md+脚本+资源)

代码定义(StateGraph/Node/Edge)

Skills 是声明式资源包,Graph 是程序化编排逻辑

复用范围

跨项目/Agent 共享(如 Skills 市场)

项目内工作流复用

Skills 可独立发布交易;Graph 通常绑定具体业务场景

深度协同:Graph 如何调度 Skills

  1. Node 即 Skill 容器
    Spring AI Alibaba Graph 中,每个 Node 可设计为调用一个或多个 Skills:

    // 定义“处理PDF"节点,内部激活 PDF-Processor Skill graph.addNode("merge_pdfs", state ->      pdfSkill.execute(state.getFiles()) // Skill 作为 Node 的执行逻辑 );

  2. Skills 是 Graph 的“能力基石”

    • Graph 工作流中的操作步骤(如“搜索”“生成报告”)均由对应 Skill 实现

    • 无 Skills 支撑,Graph 仅是空洞流程;无 Graph 编排,Skills 仅是孤立能力包

  3. 渐进式开发范式

    • Step 1:构建通用 Skills(如 Brand-Guidelines Skill)

    • Step 2:通过 Graph 将 Skills 组合成垂直 Agent(如“营销内容生成工作流”)

终极总结

  • 区别本质:Skills = 能力内容(What),Graph = 流程结构(How)

  • 协同价值:Graph 为 Skills 提供 “舞台与剧本”,Skills 为 Graph 提供 “演员与道具”

  • 生态趋势
    ✅ Skills 市场(如 Mulerun)提供标准化“能力积木”
    ✅ Graph 框架(如 Spring AI Alibaba)提供可视化“搭建工具”

  • 黄金法则

    “没有 Skills 的 Graph 是无米之炊,没有 Graph 的 Skills 是散沙一盘”
    二者融合实现 “标准化能力 × 灵活编排” 的乘数效应,是企业级 Agent 应用的核心范式 。

0

评论区