发布时间
2025-01
国家/地区
中国
API
可用
自托管
是
GitHub Stars
36,428
最近审查
2026-06
关于 UI TARS Desktop
UI TARS Desktop 是字节跳动开源的多模态 AI 智能体技术栈,将视觉驱动的「computer use」带到你的日常机器上。它不单纯依赖无障碍 API 或脆弱的 DOM 选择器,而是由底层视觉语言模型(UI-TARS / Seed-1.5-VL 系列)感知原始截图和渲染后的 UI 帧,然后决定并执行完成任务所需的点击、输入和导航——很像 Claude Computer Use 或 OpenAI 的 computer-using agent,但它是开源且可自托管的。
该产品覆盖多个场景。UI TARS Desktop 是一个原生 Electron 应用,让智能体接管并操作你的整台电脑;Agent TARS 聚焦浏览器,通过自然语言控制网页并无缝集成 DOM;技术栈还延伸到终端和生产环境。这使其成为一个通用智能体平台而非单一用途工具:你可以让它填写网页表单、编排跨应用桌面工作流,或自动化那些难以用传统脚本处理的重复性 GUI 任务。
本地可部署是它的一大吸引力。UI-TARS-1.5-7B 模型足够小,可在消费级硬件上运行,因此注重隐私的用户可以让智能体执行完全留在自己的机器上,而非把截图传到第三方云端。该项目已成为最重要的开源智能体之一,发布后不久便积累了数万 GitHub stars。
UI TARS Desktop 面向开发者、自动化工程师和高级用户,他们想要一个开放、可审计的 computer-use 智能体——无论是基于该技术栈二次开发、为隐私自托管,还是研究能跨应用泛化的 GUI 自动化。
编辑总评
computer-use 智能体的开源答案。UI TARS Desktop 将视觉驱动的 GUI 控制与本地可部署性、字节跳动的模型实力相结合——对想要可审计、可自托管、能操作真实软件的智能体的开发者而言,是极具吸引力的选择。
功能特性
视觉驱动的计算机操作(截图)
控制桌面、浏览器和终端
Agent TARS 浏览器控制(DOM)
本地部署(消费级 GPU 跑 7B 模型)
自然语言任务执行
开源可审计
详细评分
易用性 7.4
性价比 8.4
功能 8.2
技术支持 7.4
性能 8.0
综合评分
8.0 /10
优缺点
优点
- 真正的开源 computer-use 智能体——封闭方案的替代
- 基于视觉,因此能跨任意 GUI 泛化
- 可在消费级硬件上本地运行,保护隐私
- 字节跳动支持,活跃开发,数万 stars
- 一套技术栈覆盖桌面、浏览器和终端
缺点
- GUI 智能体可能较慢且偶尔不可靠
- 需要技术配置和较强的 GPU 才能本地运行
- 相比成熟的自动化工具,生态仍处早期
应用场景
跨应用桌面自动化浏览器任务自动化重复性 GUI 工作流注重隐私的本地智能体computer-use 智能体研发
适合谁使用?
想要开源、可自托管、通过视觉控制桌面、浏览器和终端的 computer-use 智能体的开发者和高级用户
#计算机使用#多模态#GUI 智能体#开源#视觉语言#自动化#字节跳动#自托管
常见问题
UI TARS Desktop 是什么?
UI TARS Desktop 是字节跳动的开源多模态 AI 智能体技术栈。它使用视觉语言模型感知你的屏幕,并通过自然语言操作你的电脑、浏览器和终端——一个可自托管的「computer use」智能体。
UI TARS Desktop 是免费的吗?
是的。它免费开源。UI-TARS-1.5-7B 模型可在消费级硬件上运行,因此你可以将完整智能体本地自托管。只有在使用云端 GPU 或远程模型 API 时才需为算力付费。
UI TARS 与 Claude Computer Use 有什么不同?
两者都是视觉驱动的 computer-use 智能体。UI TARS 开源、可自托管,使用字节跳动自有的视觉语言模型,而 Claude Computer Use 是封闭的云端能力。UI TARS 还能从一套技术栈覆盖桌面、浏览器和终端。
UI TARS 能在我的机器上本地运行吗?
可以。UI-TARS-1.5-7B 模型大小适合在大多数消费级硬件上运行,因此你可以把截图和智能体执行完全保留在自己的设备上以保护隐私。
相关智能体
热门替代方案
与这些相似工具进行比较
链接与资源
AR Researched by AgentRadar Editorial Team · Our methodology