智谱发布AI助理，帮人类敲响AGI的大门

访客 2024-11-01 08:50:00 62272 抢沙发

默认

摘要： 人工智能之父John McCarthy曾说：“只要AI可以开始正常工作，就不会有人再把它当AI了。”如今，这一预言正在逐渐变为现实。10月25日，智谱AI推出了自主智能体AutoG...

人工智能之父John McCarthy曾说：“只要AI可以开始正常工作，就不会有人再把它当AI了。”如今，这一预言正在逐渐变为现实。

10月25日，智谱AI推出了自主智能体AutoGLM，能够模拟人类操作手机，执行各种任务。

同时，智谱AI 还推出了端到端情感语音模型GLM-4-Voice，其能够理解情感，实现高度拟人的情绪表达，并且支持多语速、多语种的内容输出。

图源：智谱官网

产品一经推出，立刻引爆了资本市场，许多关联概念股持续走强：AI视频、AI教育、AI陪伴等多只个股受市场热捧。

在技术进步的支持和资本的热捧下，“个人AI助理”的时代终于要到来了吗？

AI助理概念再次火爆，为什么这次不一样？

谈到AI助理，就不得不提SIri——大部分人最早接触到的AI 助理。

自苹果最初推出Siri时，乔布斯就曾说过：“Siri属于人工智能，而不属于搜索。”但随着乔布斯的离去，如今，Siri的定位更像是一个自带语音功能的搜索引擎，而不是一个AI助理。它的迷失不仅仅意味着乔布斯远大愿景的终结，更意味着移动互联网时代的人类探索AI助理的失败。

当时间来到AI时代，Chatgpt的横空出世让人们再次燃起了对AI助理的幻想。2023年4月，AutoGPT上线，宣称能够在用户完全不插手的情况下自主执行任务。彼时，特斯拉前AI总监、Open AI联合创始人安德烈·卡尔帕西称，AutoGPT是“提示工程的下一个前沿”。更有人称AutoGPT将会替代ChatGPT。

然而，由于底层模型的推理能力不足，AutoGPT 最终也没能实现主动地识别和操作屏幕。它和茫茫多的“对话式AI大模型”一样，被困在一问一答的气泡中，没有自主操作的权力和能力——直到智谱AI 旗下AutoGLM的出现。

从评测博主们分享的画面来看，智谱AutoGLM已经能够精准识别并理解用户指令，无需用户手动操作示范，不受制于简单的任务场景或API调用，可替代用户在电子设备执行操作，可以自动完成点外卖、编辑评论、淘宝购物、朋友圈点赞、总结文章生成摘要等日常活动。

图源：数字生命卡兹克

同时，与其他的语言模型和AI助理不同的是，Auto GLM具备了一定自我纠错能力。据智谱AI团队介绍，基于自进化在线课程强化学习框架WEBRL，AutoGLM克服了训练任务稀缺、反馈信号稀少和策略分布漂移等网页智能体研究和应用难题，能够在迭代过程中不断改进、持续稳定地提高自身性能。

在智谱AI看来，理论上，AutoGLM将来可以完成人类在电子设备上做的任何事。只需要简单的语音指令，它就能够理解用户意图，自动调用工具，使用和人类相似的操作逻辑去操作手机，完成各种任务。

智谱AI将其称为“phone use”能力，有了 AutoGLM 的“phone us”，未来的手机应用将充满想象力，AI 技术也将真正惠及千万家。

从这个角度来看，AutoGLM的出现是里程碑式的。它的出现意味着，在整个AI革命的进程中，AI将不再被局限在聊天框内，而是能够真正地接管人们手中的设备。看似遥不可及的AGI，已经近在咫尺。

越开放、越智能：距离人手一个“贾维斯”还有多远？

在漫威作品《钢铁侠》中，斯塔克的AI助手“贾维斯”似乎无所不能；而反观此前市场上大多数的AI助理：他们似乎不过是垂直领域内“更专业一点”的Chatgpt，并且大多数人仍然不放心将核心工作交给AI助理来完成。

是什么限制了它们的发展？

最核心的原因，还是模型能力的不足。用智谱AI CEO张鹏的话来说，以初代GPT为代表的早期语言模型，“训练优势并不明显”。

直到OpenAI O1大模型、Claude3.5大模型等为代表的强推理模型的出现，才让AI大模型应用从简单对话生成时代，进入到Agent执行操作复杂多步骤任务时代。

过往的AI大模型更注重交互，同时在图像、视频等特定领域提供部分功能，以实现多模态的交互。而如今，大模型更注重理解和整合，即Agent能力。它要求模型具备独立思考、调用工具、完成目标的综合能力，在原有的模型基础之上，增加了规划、记忆、总结的工作流程。因此，只有这一能力得到彻底的提升，才能使得AI助理更泛化、更实用的渗透到用户日常工作和生活中去。

同时，据研究机构Gartner预测，2024年1月，在生产中接入AI助理的企业已经达到21%，到2026年，超过80%的企业都会接入AI助理。麦肯锡预测，到2030年前，它有望为全球经济贡献7万亿美元的价值，中国进一步释放生成式AI总效益的1/3。

由此可见，AI助理的需求仍然旺盛，而目前业界正在积极地对其进行布局和探索，正在努力地提高供给。如Open AI的 Agent，阿里的Mobile Agent、腾讯的App Agent、字节的豆包、荣耀的MagicOS 9.0操作系统、苹果的Apple Intelligence等。

从这个角度来看，随着AI助理渗透率的提高，AI终将成为所有人都可以使用的基础生产要素。彼时，所有的上层建筑都会重构，人类在工作和生活的协作方式、组织方式、商业模式都将迎来彻底的改变。

科技巨头们的“代理人战争”：如何解决通往AGI道路上最大的阻碍？

事实上，不仅是智谱AI，放眼整个AI行业，美国的科技巨头们都已经“转向”，开始加强自己在AI助理这一领域的产品力：

早在2023年，微软就已经开始尝试探索Copilot与办公软件的集成。今年10月，微软再次推出了Dynamics365中集成的10个自主AI助理，能够自动执行跨平台的超复杂业务，帮助企业节省时间和运营成本。

谷歌、Meta、Open AI在最近也同样在测试类似的AI助理产品，开始争夺这个市场。为什么科技巨头们放缓了在模型参数，API价格方面的内卷，转而开始加速布局AI助理？

核心的原因还是与商业化有关：

目前，顶流的AI大模型仍然保持着每年百亿美元级别的烧钱速度。Open AI预计：从2023年到2028年，公司将蒙受440亿美元的损失。如此巨大的投入，换来的却只有34亿美元左右的年化营收。

今年以来。更是有着许多大模型公司已经游走在并购、破产的边缘：Character.AI被谷歌收购；AI独角兽Inflection AI被微软收购；Stability AI单季度亏损超3000万美元，一度传出“卖身”消息。

此前，“红衣大叔”周鸿祎自硅谷交流归来，发出了一句感叹：“硅谷已经没有人在卖大模型了，大家都在卖产品。”当硅谷的创业公司都已经开始考虑推出产品盈利，足以见得盈利对于AI公司的重要性。毕竟，当泡沫逐渐退去，不管是投资人还是用户，最终都要关注自己的投入是否能够值回票价。

而针对商业化这一问题，智谱AI也给出了自己的答案：“全产品矩阵”。