前几天我写文章提到,ChatGPT、Grok3、通义千问这些产品,会经历四个发展

王智远吖 2025-03-12 09:39:47

前几天我写文章提到,ChatGPT、Grok3、通义千问这些产品,会经历四个发展阶段,最后一个阶段是“自主智能”。 我们给它一个任务或者想法,它不仅能给出答案,还能主动把各种交互形式加进去,比如生成图表、图片、思维导图之类的,真正变得又自主又实用。 没想到,这个设想这么快实现了。昨天晚上OpenAI推出了它的“智能体全家桶”。 那么,智能体全家桶到底有哪些能力呢? 首先,他们发布了一个新工具,叫Responses API。这是一个把聊天功能和多种工具(比如网页搜索、文件搜索)集成在一起的API接口;这个API还支持多模态响应,像文本、图像、音频都能搞定。 然后,他们又发布了一个开源框架:Agents SDK。 你可以把它理解成一个智能体软件开发包。在这个开发包里,多个智能体可以互相协作,完成复杂任务。就好比有个智能体总指挥官,负责管理和调度各个智能体,确保它们按照既定流程和规则完成任务。 在Agents SDK中,还内置三个强大的工具,分别是 Web Search Tool、File Search Tool 和 Computer Use Tool。 Web Search Tool,能让模型通过互联网获取最新信息。它支持GPT-4o和GPT-4o-mini模型,能快速检索网页内容并提取关键信息。 File Search Tool专门从文档里检索信息。支持元数据过滤和直接文档内搜索,能快速定位和提取文件里的相关内容,特别适合处理大量文档数据。 Computer Use Tool,是AI可以在计算机上直接执行任务。它让智能体有了类似人类的操作能力,比如浏览网页、填写表单、操作软件等,大大扩展了智能体的应用范围。 OpenAI说,相比去年开源的Agent SDK,这个SDK有了新的改进。 那普通用户怎么用这款产品呢? OpenAI会通过API公开支持Operator的CUA模型,让开发者构建自己的智能体。开发者可以用API访问这些功能。不过,这款工具预计要到2026年才会开放,到时候会逐步替换旧的Assistants API。 对于C端用户,可以订阅ChatGPT的Pro会员(200美元/月)、Team或Enterprise计划来使用。从价格来看,确实有点贵。 OpenAI表示,随着模型能力逐渐具备更多智能体属性,他们会继续深化API之间的整合,并提供新工具,帮助用户在生产环境中部署、评估和优化智能体。 真是太卷了。 深度推理模型潮刚过,新一波又接上了。我觉得2025年可能是AI智能体发展的元年,现在各大厂商已经开始纷纷布局了。 昨天我看到Manus和通义千问的合作,接下来,腾讯、Kimi、豆包又有哪些进化呢?这些能力会不见进一步影响到企业软件市场呢? 值得期待持续关注。

0 阅读:3
王智远吖

王智远吖

感谢大家的关注