首页 > 今日新闻 > 今日新闻 > 自主操作电脑的多模态Agent升级,智谱GLM-PC开放体验

自主操作电脑的多模态Agent升级,智谱GLM-PC开放体验

发布时间:2025-01-23 22:12:22

 1 月 23 日消息,北京智谱华章科技有限公司今日发文宣布,旗下智谱 GLM-PC 开放体验,宣城“自主操作电脑的多模态 Agent 再升级”。

 

据介绍,GLM-PC 是基于智谱多模态大模型 CogAgent,全球首个面向公众、回车即用的电脑智能体(agent)。它能像人类一样「观察」和「操作」计算机,协助用户完成各类电脑任务。GLM-PC v1.0 于 2024 年 11 月 29 日发布并开放内测,目前最新推出「深度思考」模式、增加专用于做逻辑推理和代码生成的功能、并提供了对 Windows 系统的支持。

IT之家从智谱官方获悉,GLM-PC 具备如下能力:

代码生成与逻辑执行
规划:支持综合分析目标以及可用资源,生成执行路线图,并将大型任务自动分解为可管理的子任务,以构建出清晰的执行路径。

循环执行:规划阶段结束后,支持启动代码生成模块,执行逻辑循环,逐步推进任务完成。该循环机制确保了任务的精确执行与高度自动化,从而实现从输入到输出的完整闭环,无需人工干预

长思考能力:支持实时调整、反思修正和自我纠错,持续优化解决方案。具体表现为:流程因外部因素中断时,可重构逻辑路径;遇到信息缺失时,可主动与用户进行交互,通过提问来完善任务执行方案

图像与 GUI 认知
GUI 图像理解:准确识别图形界面元素(如按钮、图标、布局等),并理解其功能与交互逻辑

用户行为认知:结合对用户界面的学习及历史操作信息的理解,为用户提供当前界面的智能推荐操作

图像语义解析:对复杂图像进行深入语义分析,提取关键信息如文字、标识符及数据可视化图表中的趋势和指标

多模态信息融合:融合图像与文字信息,形成全面感知结果。例如,在用户界面中同时识别按钮位置与文字标签,助力「左脑」制定精准操作计划

今日新闻更多>>

华为重返欧洲高端市场!Mate 80 Pro海外发布:系统不是鸿蒙 机构:2025年12月全球手机平均内存8.4GB创新高 酷比魔方在线询问,平板要不要合作适配魅族Flyme 消息称荣耀600系列工程机现身:采用6.57英寸直屏+骁龙8至尊版 卢伟冰已抵达巴塞罗那!小米大招来了:手机、汽车和AI都有惊喜 马斯克要把数据中心搬上太空!黄仁勋:没有空气流动得造巨大散热器 “小蓝灯”照耀回乡路,春运成智能驾驶最佳普及时机 | 电厂 刚刚,魅族正式回应:手机不会没,全力押宝AI,“煤油”评论区挥泪告别 美团推出“饭团漫社”,布局漫剧赛道 DPO「只看总分不看细节」?TI-DPO用Token重要性重塑大模型对齐 马斯克xAI雪崩!24小时两联创离职,一月内连失三位华人创始人 AI一秒写千言,硅谷为何砸500万年薪疯抢“笔杆子”? 马斯克xAI再失联合创始人,12人创始团队已有6人离场 马斯克最新内部讲话:先上月球放卫星,再去火星 长语音、对话、指令、音效全覆盖!模思智能推出MOSS-TTS Family 揭秘Seedance2.0背后AI关联公司 港股小米集团涨幅扩大至5% 星海图官宣完成10亿元B轮融资 AI红包大战激战正酣,未来到底在拼什么? AI一秒写千言,硅谷为何砸500万年薪疯抢“笔杆子”? Nothing Headphone (a)头戴式耳机被曝3月将上市,价格亲民 消息称内存芯片涨价致部分厂商暂停下代旗舰研发 苹果CEO库克:今年将展现前所未见的创新 英特尔代工iPhone芯片没戏了!行业人士揭开背后原因 小米Civi 6突然曝光:6.59英寸+中高端定位,上半年发布! 阶跃星辰发布开源基座 模型Step 3.5 Flash 顺丰“人格分裂”:一手砸钱扩版图,一手猛砍人力成本 SmarterMail修复CVSS 9.3分关键远程代码执行漏洞 “太空挖矿”过于科幻?中国动真格了 告别磁吸壳!三星Galaxy S26全系手机标配Qi2磁吸充电