国产 自拍 Anthropic回想智能体年度警告:最奏凯的≠最复杂的

发布日期:2024-12-31 23:43    点击次数:65

国产 自拍 Anthropic回想智能体年度警告:最奏凯的≠最复杂的

机器之心编译国产 自拍

剪辑:佳琪、张倩

高端的食材,常常需要最朴素的烹调神色。

AI 发展到后半场「大雾散去」,怎么让大模子的才略落实成履行力,智能体似乎成了业界的共同谜底。

从元宝到混元,种种智能体平台如棋布星陈般清楚。上个月,智谱发布 AutoGLM 的发布会上,智能体好像打破了次元壁,一句指示,就拿入部属手机在现场发了一个共计两万块钱的红包。

咱们正在见证一个伏击的更正点:智能体正在将 AI 的才气从「能说会谈」转化为「能作念会干」。

看成最苍劲模子厂商的有劲竞争者,Anthropic 推出的智能体功能也真是惊艳了咱们一把。Computer Use 致使也曾不错作念到跟 Claude 说一声想作念一个 90 年代立场的个东谈主网站,剩下的只需要坐在屏幕前看网页我方作念我方就好了。

在昔日一年中,Anthropic 与数十个行业团队相助,对大模子智能体进行了系统接续。但他们发现,那些施展最出色的 AI 智能体,并非莳植在巨大复杂的框架或专科库之上,而是接受了肤浅、可组合的花式。

Anthropic 将一年的试验警告回想成了这篇博客,机器之心在不改变高兴的基础上进行了编译。

原文衔接:https://www.anthropic.com/research/building-effective-agents

什么是智能体?

「智能体」有多种界说。有东谈主眼中的智能体是一个「万能管家」,约略孤苦念念考、自主决策,纯真诓骗多样器具来完成复杂任务;也有东谈主把它瓦解为一个「规则职工」,安份守己地履行预设的责任流。

Anthropic 将两者统称为智能系统,但对责任流和智能体作念出了差异:

责任流是通过预定代码旅途编排 LLM 和器具的系统智能体则是由 LLM 动态指导本身进程和器具使用的系统,能自主圆寂任务的完成神色

什么时候该用智能体?

在开垦 AI 应用时,Anthropic 的接续团队给出了一个提议:能肤浅就不要复杂。随机候,根蒂不需要建造一个智能系统 —— 因为智能系统固然功能苍劲,但常常会让反应变慢,老本也会更高。开垦者需要量度这种弃取。

当如实需要更复杂的系统时,责任流稳当需要可预计和一致性的明确任务,而智能体则更稳当需要纯真性和模子驱动决策的大范围场景。

不外对好多应用来说,配合检索和高下文示例,拿着一个好的 prompt 去问大模子常常就饱和了。

何时使用框架以及怎么使用

当今,有多个不错匡助开垦者更容易地搭建 AI 智能体的框架,包括:

LangChain 的 LangGraph亚马逊 Bedrock 的 AI Agent 框架拖放式的大模子责任流构建器具 Rivet用于构建和测试复杂责任流的 GUI 器具 Vellum

这些框架如实简化了 AI 开垦进程。但要翔实的是,它们会在代码中增加非常的抽象层,这不仅让底层的运行逻辑变得不够透明,也增加了调试的难度。而且,开垦者可能会在一些肤浅的场景中,不自愿地引入过度复杂的处分决议。

Anthropic 提议开垦者从顺利使用大模子的 API 开动:许多花式只需几行代码就能杀青。如若遴荐使用框架,一定要瓦解其底层旨趣。警告标明,对框架底层机制的瓦解不及,常常是导致开提问题的主要原因。

具体示例请参考 Anthropic 的 cookbook。

手册衔接:https://github.com/anthropics/anthropic-cookbook/tree/main/patterns/agents

构建模块、责任流和智能体

基础构建模块:增强版 LLM

智能系统的基本构建模块是加捏检索、驰念等功能,增强过的 LLM。当今,Anthropic 的模子不错主动使用这些才气 —— 生成我方的搜索查询、遴荐合适的器具,并决定保留哪些信息。

增强过的大模子。

Anthropic 提议作念这些拓展功能的过程中众人不错重心关心两点:

凭证具体的应用场景来定制功能确保为模子提供肤浅且文档完备的接口

除此以外,Anthropic 最近发布的模子高下文合同提供了一种新的杀青神色。这个合同让路发者不错通过简陋的客户端代码,放纵地将 AI 模子与捏续彭胀的第三方器具生态系统进行集成。

责任流:领导链

领导链是一种将复杂任务拆解为多个要领的方法,每个要领代表调用一次大模子,后一步将基于前一步的遣散络续处理。开垦者不错在职意中间环节加入顺次化的搜检点(比如图中的「gate」),以确保进程按预期鼓动。

领导链责任流。

什么时候更稳当用领导链责任流呢?当一个复杂任务约略被理会地拆分红一系列固定的子任务时,领导链即是最好遴荐。这种方法让每个模子只需专注完成一个肤浅任务,固然举座反当令期可能会略长,但准确率会得到权贵提高。

典型应用案例:

先生成营销案牍,再将其翻译成其他言语先写文档大纲并进行合规性搜检,再基于大纲撰写完满文档

责任流:智能分流

分流时间约略判断输入任务的类型,并将其分配给相应的有益模块。这种遐想让每个模块王人能针对特定任务进行优化,幸免了不同类型任务之间的相互烦躁。

如若不接受这种分发机制,仅提高针对某类问题的成果,常常会影响到其他类型问题的处理质料。

智能分流的责任流。

什么时候稳当用这种方法呢?当任务有明显的分类特征时,就很相比稳当。AI 系统不错通过大言语模子或传统算法,准确识别任务类型并作念出分流。

典型应用案例:

在客服系统中,不错将一般盘考、退款恳求、时间相沿等不同类型的问题,分别相易到相应的处理进程。将肤浅 / 常见问题分配到 Claude 3.5 Haiku 等较小模子,将蜿蜒 / 隐秘问题分配到 Claude 3.5 Sonnet 等更苍劲的模子,以优化老本和速率。

责任流:并行

大言语模子不错同期处理任务,并以编程神色团员输出。这种并行化的责任流主要有两个特色:

任务分段:将任务拆分为可并走时行的孤苦子任务,每个子任务不错同期进行处理,临了再整合遣散。投票机制:对统一任务进行屡次运行,获取多个不同版块的输出,从而遴荐最优遣散或概括多个谜底。

并行责任流。

当子任务不错并行履行以提高速率,或需要多角度尝试以获取更高置信度的遣散时,并行化的方法相当有用。关于触及多个要素的复杂任务,让每次调用专注处理特定方面,会获取更好的成果。

典型应用案例:

任务分段:

安全留意:一个模子致密处理用户请求,另一个有益致密内容审核,这比单个模子同期处理两项任务成果更好。性能评估:让不同的模子分别评估系统的各个性能狡计,杀青全面的自动化评估。

投票机制:

代码安全搜检:同期运行多个检测模子,共同发现和标志潜在的代码缝隙。内容审核:通过多个模子从不同角度评估内容安全性,通过调度投票阈值来均衡误判率。

责任流:率领 — 履行者

在这种责任流中,一个中央大言语模子会动态分解任务,分拨给履行者模子,并汇总最终遣散。

率领 — 履行者责任流。

这种责任流最稳当那些难以提前确定具体要领的复杂任务。比如在编程中,一个功能需求可能触及多个文献的修改,而具体要改哪些文献、怎么修改,常常要凭证本色情况来决定。

固然这种神色看起来和并行任务很像,但这种责任流更纯真 —— 任务的拆分不是固定的,而是由 AI 系统凭证具体情况动态决定的。

典型应用案例:

需要对多个文献进行复杂修改的编程应用。需要从多个起头收罗和分析关系信息的搜索任务。

责任流:评估 — 优化

在评估 — 优化责任流中,一个 LLM 调用生成反应,而另一个提供评估和反馈,造成轮回。

评估 - 优化责任流。

何时使用这个责任流:当存在明确的评估范例,何况通过迭代细化不错带来权贵价值时,这个责任流非常有用。

有两个权贵特色:当先,当东谈主类明确抒发他们的反馈时,LLM 的反应不错明显阅兵;其次,LLM 约略提供这么的反馈。这访佛于东谈主类作者在创作一篇全心打磨的文档时所履历的反复修改的写稿过程。

典型应用案例:

文体翻译:翻译模子可能在第一次翻译时遗漏一些细微的言语各别,而评估模子约略发现这些问题并提供有价值的修改提议。复杂搜索:某些信息收罗任务需要多轮搜索和分析才能获取全面的遣散,评估模子不错判断是否需要络续深切搜索。

日本av女优

智能体

智能体在分娩中跟着 LLM 在关键才气上的训导而出现,这些才气包括瓦解复杂输入、进行推理和狡计、可靠地使用器具以及从特殊中规复。

智能体的责任始于东谈主类用户的大喊,或与东谈主类用户的互动斟酌。一朝任务明确,智能体就会孤苦狡计和操作,半途可能需要向东谈主类索要更多信息或让东谈主类作念判断。

在履行过程的每一步,从环境中获取「确凿情况」(举例器具调用遣散或代码履行)以评估其进程至关伏击。然后,智能体不错在搜检点或遭遇梗阻时暂停以获取东谈主类反馈。任务常常在完成后绝交,但也常常包含罢手条目(举例最大迭代次数)以保捏圆寂。

智能体约略处理复杂的任务,但其杀青常常很肤浅。它们常常仅仅轮回中凭证环境反馈来使用器具的大型言语模子。因此,遐想器具集偏执文档理会、玉成至关伏击。作者在附录 2 中彭胀了器具开垦的最好试验。

自动智能体。

何时使用智能体:智能体不错用于灵通性问题,这种问题常常难以或不可能预计所需的要领数目,何况你不成硬编码固定旅途。LLM 可能会操作多个回合,你必须对其决策才气有一定程度的信任。智能体的自主性使它们成为在受信任环境中 scaling 任务的瞎想遴荐。

智能体的自主性意味着老本更高,何况可能存在特殊积累的风险。作者提议在沙盒环境中进行平庸的测试,并诞生适合的留意措施。

智能体的用途示例:

一个代码智能体,用于处分触及凭证任务描述剪辑多个文献的 SWE-bench 任务Anthropic 的「Computer use」功能,其中 Claude 使用计较机完成任务。

代码智能体的 High-level flow。

组合、定制这些花式

这些构建块不是规则性的。开垦者不错塑造和组合这些构建块以适合不同用例。奏凯的关键是测度性能并迭代杀青。翔实:惟有在约略明显改善遣散的情况下,你才应该商量增加复杂性。

回想

在 LLM 领域取得奏凯并不在于构建最复杂的系统,而是在于为你的需求构建正确的系统。检朴单的领导开动,用全面的评估优化它们,同期惟有当更肤浅的处分决议无法杀青时才添增多要领智能体系统。

在部署智能体时,需要尝试解雇三个中枢原则:

在智能体遐想中保捏肤浅;要优先确保智能体的透明度,方法是明晰地展示它狡计中的每一步;通过全面的器具文档和测试全心打造你的智能体 - 计较机界面(ACI)。

更多校服,请参考原博客。



 




Powered by 原神 足交 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群系统 © 2013-2024