融入大模型的智慧:Agent的奇妙进化之旅

来源:网络时间:2025-05-16 13:01:33

在人工智能的浩瀚宇宙中,每一次技术的融合都如同星系间的碰撞,既充满未知又孕育着无限可能。今日,我们不再谈“Agent被吃进大模型”,而是讲述一个关于智能体Agent如何巧妙融入大规模模型的精彩故事。这不仅是一次技术的升级,更是AI领域的一次深刻变革。在这个旅程中,Agent不再是简单的数据处理单元,而是变成了能够自主学习、适应复杂环境的智慧核心。它与大模型的结合,仿佛是赋予了AI世界以新的生命,两者相辅相成,共同探索更高级别的智能边界。这一融合,预示着未来AI将更加贴近人类的思维模式,开启智能化的新篇章。我们正见证着一场由内而外的蜕变,Agent的奇妙进化,正引领我们迈向一个更加智能、高效、理解力更强的未来。

  

今天凌晨,奥特曼突然发文宣布推出自家最新的o系列模型:满血版o3和o4-mini,同时表示这两款模型都可以自由调用chatgpt里的各种工具,包括但不限于图像生成、图像分析、文件解释、网络搜索Python

  

总的来说,就是比前一代的性能更强而且价格更低。

  

Agent 要被吃进大模型了

  

消息一出,马上就有网友晒出了两个模型的“小球测试”结果,并配文:“这确实是迄今为止看到的最好的测试结果了。”

  

Agent 要被吃进大模型了

  

也有网友晒出了满血版o3和o4-mini在HLM基准的中的排名,其中OpenAI的两款新模型仅用了几个小时的时间就稳稳的“盘”上了榜单前三,引得网友大呼震惊。

  

Agent 要被吃进大模型了

  

Agent 要被吃进大模型了

  

o3与o4mini全面进化

  

除了网友们的测评结果外,我们也来看一下OpenAI给出的两个模型的官方数据。

  

首先,o3在多个基准测试中表现优异,包括Codeforces、SWE-bench和MMMU等,刷新了多项纪录。除此之外,o3在应对复杂现实任务时,比OpenAIo1减少了20%的重大错误,尤其在编程、商业咨询和创意构思领的方面能力最为突出。

  

Agent 要被吃进大模型了

  

o4mini这边,别看它体量不大,但专为快速、高效的推理任务而设计,可以支持比o3更高的使用频率。

  

在数学、编程和视觉任务上的表现依然非常亮眼。在2025年AIME数学竞赛中,借助Python解释器的帮助,o4-mini取得了99.5%的高分,几乎达到了该测试的满分水平。专家评估同样显示,它在非STEM任务以及数据科学领域的表现已经超越了o3-mini。

  

Agent 要被吃进大模型了

  

此外,o3和o4-mini首次实现了将图像直接融入思维链的能力,它们不仅“看得见”图像,更能“通过图像思考”。这带来了视觉与文本推理的全新融合方式,显著提升了它们在多模态任务中的表现。

  

关于这点,OpenAI图像推理研究员JiahuiYu发文称:“自最初推出o系列以来,“图像思考”始终是我们在感知领域的核心战略之一。早期发布的o1vision,曾为这一方向提供了初步的探索与预览;而如今,随着o3和o4-mini的发布,这一战略终于以更为成熟和完整的形式落地。多模态能力的持续演进,不仅推动了模型在理解世界方式上的跃升,也成为OpenAI实现AGI愿景中不可或缺的关键一环。”

  

Agent 要被吃进大模型了

  

模型性能毋庸置疑,而关于这两款模型可以自由调用ChatGPT里的各种工具的能力,OpenAI首席研究官MarkChen也发文表示:一旦推理模型学会了端到端地使用工具,它们就会变得更加强大,而最新的o系列模型正在“向未来迈出的质的一步”。

  

Agent 要被吃进大模型了

  

所谓“质的一步”,无非是将大模型的能力扩展到目前最火的Agent领域,值得一提的是,这已经不是OpenAI第一次向Agent领域进发了。

  

今年年初,OpenAI接连推出Operator和DeepReSearch两个产品宣告向Agent进发,在此之前,他们还推出过一个类似于代办助手的Agent产品——ChatGPTtasks,来试了试水花。

  

而这次的满血版o3和o4mini则是支持直接调用ChatGPT里的各种工具,从之前的“聪明大脑”直接进化为了“灵巧双手”。

  

有网友在试过了o3最新模型的调用能力后表示,模型帮他做了一些需要跨工具才能完成的工作,这让他感觉到了Agent给人们带来的便捷。

  

Agent 要被吃进大模型了

  

OpenAI做Agent,得天独厚

  

关于如何才能做出真正的Agent,目前坊间的主流观点是:强化学习加基座模型。

  

但在Agent的实际研发中,大多数专注于Agent的公司并不具备自研基座模型的能力,能够组建强化学习团队的更是凤毛麟角。它们唯一的机会,往往在于依靠强悍的工程能力持续打磨产品体验,或通过差异化定位,探索某些功能层面的创新。

  

然而,由于缺乏底层模型的掌控权,这样的努力终究只是为自己在与大模型公司的赛道上争取些许缓冲时间。正因如此,那些具备训练基础模型能力的公司,在开发Agent时,往往能够实现事半功倍的效果,占据天然优势。

  

巧合的是,DeepResearch团队曾在多次访谈中强调,他们认为基于强化学习的端到端训练是当前Agent技术变革的关键所在,原因在于强化学习能够有效突破传统AI系统在复杂场景中面临的灵活性不足和泛化能力受限的问题。

  

在此基础上,叠加OpenAI本身在基础模型上的强大优势,或许不久之后,Agent就会被吃进ChatGTP的某个版本之中。

  

Agent 要被吃进大模型了

  

一位长期从事Agent方向的研究人员曾对AI科技评论表示:“用强化学习训练Agent,本质上更像是将语言模型的能力在特定环境中进行定向强化和适配。也就是说,强化学习更多是在帮助语言模型在某一特定场景中“训得很好”。然而,目前许多学术研究仍停留在使用较基础的basemodel进行环境内训练,这样的工作即便做到极致,其成果也往往只是某个环境下的“特化版本”,难以实现跨环境的泛化能力,因此其实际意义和应用价值仍然有限。”

  

顺着这个点往下看,不难发现其实OpenAI已经同时掌握了基础模型和训练方式,拥有从底层能力到上层产品的完整控制权,也因此在定价方便拥有了更大的自主权。

  

例如,DeepResearch的Agent以每月200美金的价格对外订阅,全部收入可以留在体系内部,而那些依赖第三方模型的独立Agent团队,不仅受到API成本和模型性能波动的限制,在产品定价上也显得捉襟见肘。

  

“略知皮毛”不如洞彻本质,“套壳”并不是长久之计,这么一看,OpenAI做Agent,就得天独厚。

  

开源CodexCLI

  

新模型之外,OpenAI还开源了一款本地代码智能体:CodexCLI。它是一个轻量级的编码助手,可直接在用户的终端命令行中运行,为的是充分发挥o3、o4-mini等模型的推理能力,紧密连接本地开发环境,未来还会支持GPT4.1等其他模型。

  

值得一提的是,它甚至支持通过截图手绘草图进行多模态编程,直接刷新了代码交互与内容理解的边界。

  

Agent 要被吃进大模型了

  

  

  

  

Agent 要被吃进大模型了

以上就是Agent要被吃进大模型了的详细内容,更多请关注其它相关文章!

文章内容来源于网络,不代表本站立场,若侵犯到您的权益,可联系我们删除。(本站为非盈利性质网站) 联系邮箱:rjfawu@163.com