为什么只有5%的AI Agent落地成功?
日期:2025-10-19 16:14:22 / 人气:11

上下文工程的关键作用
大多数创始人误以为在打造AI产品,实则是构建上下文选择系统。在旧金山的行业研讨会上,来自Uber、WisdomAI、EvenUp和Datastrato的工程师与机器学习负责人探讨了构建AI Agent的关键,即上下文选择、语义层、记忆编排、治理机制以及多模型路由,强调了上下文工程的重要性。
上下文工程≠Prompt技巧
1. RAG系统的常见问题
◦ 精细调整(Fine - tuning)模型需求少见,设计完善的检索增强生成(RAG)系统通常能满足需求,但大多数RAG系统设计太过初级。
◦ 常见失败模式包括索引所有内容导致检索信息过量迷惑模型、索引内容过少使模型缺乏有效信号、不加区分混合结构化与非结构化数据破坏嵌入向量语义或使关键数据结构丢失。
2. 先进的上下文工程设计
◦ 为LLM量身打造的特征工程:将上下文工程重新定义为“LLM原生的特征工程”,包括选择性上下文修剪(特征选择)、上下文验证(数据结构、类型、时效性检查)、“上下文可观测性”(追踪输入对输出质量的影响)、结合元数据的嵌入增强(带类型的特征 + 条件约束),可将上下文作为可版本化、可审计、可测试的“工件”。
◦ 语义 + 元数据双层架构:多个团队提到双层架构设计,语义层负责传统向量搜索,元数据层基于文档类型、时间戳、访问权限或特定领域本体强制执行过滤,这种混合架构有助于处理杂乱输入格式,确保检索到相关结构化知识。
◦ Text - to - SQL的现实挑战:将文本转SQL系统投入生产环境面临困难,因自然语言歧义和业务术语的领域特性,LLM难以理解企业内部对“收入”或“活跃用户”等定义。成功团队会构建业务术语表与术语映射关系、带约束条件的查询模板、验证层和反馈循环。
信任:人与技术的关键
垂直领域的信任要求
安全性、溯源能力与权限控制是阻碍系统部署的关键障碍,而非可有可无的选项。垂直领域创业者需做到能追溯输入与输出的关联(溯源能力)、支持行级别和基于角色的访问控制(策略门控)、为不同用户提供定制化输出(即使Prompt相同)。例如,两名员工问相同问题,模型输出应因权限不同而异,否则可能导致权限泄露或违反合规要求。主流解决方案是构建统一的元数据目录,并在索引与查询阶段嵌入访问策略。
信任的本质与human - in - the - loop设计
信任的本质是人,而非技术。以特斯拉自动驾驶为例,用户因不信任而拒绝使用。企业级AI Agents在处理敏感信息时也面临同样信任障碍,信任核心在于系统能否表现出一致、可解释、可审计的行为。5%成功部署的AI Agents都采用“human - in - the - loop”设计,将AI定位为辅助工具,构建反馈循环,让人类可验证和否决AI输出。
记忆功能:架构设计的重要性
记忆的多层级与设计
所有人都希望为AI添加记忆功能,但记忆是涉及用户体验、隐私和系统架构的设计决策。记忆有用户级(个人偏好设置)、团队级(高频查询、仪表盘、标准操作手册)、组织级(机构知识、政策规范、历史决策)三个层级。大多数初创公司将记忆硬编码到应用逻辑或本地存储中,优秀团队会将其抽象为独立的上下文层与行为层,实现版本化与自由组合。
记忆的个性化与隐私问题
1. 作为个性化工具的记忆:在应用层面,记忆可定制用户行为、提供主动协助。如Uber构建会话式商业智能工具时,从用户过往查询日志提取记忆,主动推荐相关问题。但个性化可能越界变为“监控式体验”,如ChatGPT推荐家庭电影时涉及用户孩子隐私。
2. 设计中的张力:记忆能提升用户体验与Agents流畅度,但过度个性化会触及隐私红线,共享记忆若范围界定不当会破坏访问控制。目前缺少安全、可移植、由用户掌控的内存层,这是技术栈中缺失的元素。
多模型推理与编排模式
在生产环境中,企业不会将所有任务交给GPT - 4处理,而是根据任务复杂度、延迟要求、成本敏感度、数据本地化/合规要求和查询类型等因素设计智能路由逻辑。典型模式包括简单查询调用本地模型、结构化查询调用领域特定语言或SQL转换器、复杂分析调用前沿模型、采用双模型冗余设计(评判模型 + 响应模型)。这种设计类似编译器设计,可根据查询情况优化模型选择,避免系统随着使用量增长变慢或成本上升,实现自适应策略。
聊天界面并非最佳选择
并非所有任务都需聊天机器人。对话式交互能降低复杂工具的使用门槛,如商业智能仪表盘和数据分析,但用户获得答案后通常更希望通过GUI进行调整。理想的混合模式是以聊天界面为起点实现零学习成本入门,提供GUI控件支持精细化调整与迭代,让用户根据任务和偏好选择交互模式。自然语言处理适用于偶发、情绪化任务和探索性、开放式查询,但不应强行将所有交互都塞进聊天框架。
待解决问题与创业机会
待解决的问题
1. 上下文可观测性:缺乏衡量上下文有效性的系统方法,大多数团队不清楚哪些输入能提升输出质量、哪些上下文会导致模型幻觉。
2. 可组合记忆:记忆应归属于用户而非应用,要安全、可移植,允许用户自由选择开启不同层级的记忆,解决用户在新工具中重建上下文和隐私安全控制权问题。
3. 领域感知的DSL:企业用户需求多为结构化和重复性,应构建语义化业务逻辑层,而非将自然语言解析为脆弱的SQL。
4. 延迟与用户体验:不同任务对延迟要求不同,应利用延迟创造价值,设计异步、主动式AI的用户体验。
创业机会
即将迎来基础设施工具的浪潮,如记忆工具包、编排层、上下文可观测性解决方案。生成式AI领域的下一个“护城河”源于上下文质量、记忆设计、编排可靠性和信任体验。
创始人需思考的关键问题
创始人应思考应用的“上下文预算”(理想上下文窗口大小及优化选择)、“记忆边界”(信息层级、存储位置及用户查看权限)、能否追踪输出来源(通过调试LLM响应找到输入)、使用单一还是多模型(根据复杂度、延迟或成本路由请求)、用户是否放心交出财务或医疗数据(安全性或反馈循环的缺失)这五个关键问题。
作者:耀世娱乐-耀世注册登录平台
新闻资讯 News
- 能量饮料:当代年轻人的“救命水...10-19
- 太突然,任职不到一年,中邮科技...10-19
- 58岁农妇那艺娜:从抖音网红到“...10-19
- 我国医药“创新元年”之问:现状...10-19