OpenAI推出ChatGPT智能体,能自主思考和行动,从技能库选工具完成任务
Openai 推出了 ChatGPT 智能体,它能自主思考和行动,从技能库选工具,借助网络完成任务。它融合了 Operator 与网站交互的能力、深入研究整合网络信息的优势,以及 ChatGPT 的对话能力,形成统一系统,能把用户的想法和问题变成实际行动,比如做财务研究、填在线表格、做幻灯片等。
主要功能与特点
✅自主与协作:能独立完成浏览网站、选日期、筛选结果、提示用户安全登录、运行代码等复杂任务。用户始终能控制,可在重要操作执行前中断、接管浏览器或停止任务。
✅多工具融合:整合了 Operator 和深入研究的优势,有可视化浏览器、文本浏览器和直接 API 访问权限,能选最优路径完成任务。
✅动态学习与优化:执行任务时会动态学习,通过优化速度、准确性和效率调整工作方式。
✅迭代式、协作式工作流程:用户可随时中断对话,澄清指令、调整任务方向或引导结果。智能体会在必要时主动询问更多细节,确保任务符合用户目标。
✅安全与隐私保护:执行敏感或重要操作前,会明确获得用户授权;经过训练能抵御恶意指令操纵;用户对数据处理有完全控制权,输入数据会被安全处理,不存于服务器。
性能与评估
✅在《人类的最后考试》中得 43.1 分,创新高。
✅在 DSBench 测试中,超越之前最先进模型,数据分析表现优于人类。
✅在 SpreadsheetBench 平台上,创行业新领先水平,性能比 GPT-4o 提升超一倍。
✅内部基准测试中,处理投资银行分析师任务的能力,显著优于深入研究和 o3 模型。
✅在 WebArena 基准测试中,表现比 o3 驱动的 CUA 好。
✅在 BrowseComp 上,以 68.9 分创 SOTA 纪录,比深入研究高 xx 个百分点。
实际应用场景
✅工作场景:自动处理重复任务,如把截图转成可编辑的演示文稿、重新安排会议、规划预订外出活动、用新财务数据更新电子表格(保持原格式)等。
✅个人生活场景:规划预订旅行、设计预订晚宴、找专业人士并安排预约等。
使用方式
通过编辑器工具下拉菜单,在对话任意阶段选 “智能体模式” 激活。描述想完成的任务,执行时屏幕语音播报会实时展示操作流程,用户可随时中断并接管浏览器。还能设置已完成任务自动重复,比如每周一早上自动生成周度指标报告。
使用权限
即日起向 Pro、Plus 和 Team 版用户开放,Enterprise 和 Education 版用户 7 月可用。
Pro 版用户每月可执行近乎无限的任务,其他付费用户每月 50 次,额外使用可通过积分获取。
可访问用户的连接器,经身份验证后,只读连接器允许查看信息和执行操作,在网站上操作需通过接管浏览器登录。
关键问题
✅ChatGPT 智能体的核心能力和优势体现在哪些方面?
核心能力是能自主思考行动,从技能库选工具,借助网络和自有虚拟计算机处理任务,流畅切换推理与执行,独立完成复杂任务。优势是整合了 Operator、深入研究和 ChatGPT 的优势,形成统一系统,能把想法变成行动,且用户始终可控,重要操作前会获用户许可,用户可随时中断、接管或停止任务。
✅ChatGPT 智能体在不同评估中的表现如何?
在《人类的最后考试》中得 43.1 分新高;DSBench 中超越最先进模型,数据分析优于人类;SpreadsheetBench 中创行业领先,支持.xlsx 格式时总体软限制达 45.5%;内部测试中处理投资银行分析师任务优于深入研究和 o3 模型;WebArena 中表现优于 o3 驱动的 CUA;BrowseComp 中以 68.9 分创 SOTA 纪录。
✅用户如何使用 ChatGPT 智能体,以及它在可用性和安全方面有哪些规定?
使用上,通过编辑器工具下拉菜单选 “智能体模式” 激活,描述任务即可,还能设置任务自动重复,执行时可中断接管。可用性上,Pro、Plus 和 Team 版用户即日起可用,Enterprise 和 Education 版 7 月可用;Pro 版每月任务近乎无限,其他付费用户每月 50 次,额外使用可通过积分获取。安全上,敏感操作前需用户确认,关键任务需用户监督,会拒绝高风险任务,能抵御对抗性攻击和滥用,保护用户数据隐私,用户对数据处理有完全控制权。
OpenAI推出的ChatGPT智能体目前还在早期阶段,能处理多种复杂任务,但可能出错。生成幻灯片功能在测试中,格式和细节处理可能粗糙,且上传电子表格功能暂不适用于幻灯片。未来,其效率、深度和多功能性会持续提升,交互更流畅,同时调整用户所需监督程度,兼顾安全与实用。
相关链接:https://openai.com/zh-Hans-CN/index/introducing-chatgpt-agent/