Claude 3.5 最新更新:可以控制鼠标、打字、查看屏幕!

筋斗云SEO数据研究团队
筋斗云SEO数据研究团队
发布于 2024-10-23 / 215 阅读
0
#AI

Anthropic宣布了Claude 3.5 Sonnet的更新版本,以及新的Claude 3.5 Haiku模型,更新发布于2024年10月22日。

重点是:编码能力大幅提升!新的“computer control”功能 ,使 Claude 能够像人类一样与计算机进行交互:查看屏幕、控制光标、单击和打字。

功能目前处于公开测试阶段!但Anthropic 承认当前的局限性,同时强调潜力。在评估计算机界面导航的 OSWorld 基准测试中,Claude 3.5 Sonnet 在仅屏幕截图测试中取得了 14.9% 的成绩,明显优于次优系统的 7.8%。

这些开发项目经过了严格的安全评估,并与美国和英国人工智能安全研究所合作进行了部署前测试。 Anthropic 认为 ASL-2 标准(如其负责任的扩展政策中详述)仍然适合这些模型。模型在AWS的名字是 Claude 3.5 Sonnet V2 模型

以下是Anthropic的性能对比表格

UPgraded Claude 3.5 Sonnet evaluations

以下是翻译文章 https://www.anthropic.com/news/3-5-models-and-computer-use

Claude3.5模型更新文章翻译

今天,我们宣布升级版 Claude 3.5 Sonnet 和新型号 Claude 3.5 Haiku 。升级后的 Claude 3.5 Sonnet 对其前身进行了全面改进,尤其是在编码方面取得了显着的进步,而在该领域它已经处于领先地位。在与上一代 Haiku 相同的成本和相似的速度的许多评估中,Claude 3.5 Haiku 的性能与我们之前最大的模型 Claude 3 Opus 的性能相匹配。

我们还在公开测试版中引入了一项突破性的新功能:计算机使用。今天在 API 上可用,开发人员可以指导 Claude 像人们一样使用计算机 - 通过查看屏幕、移动光标、单击按钮和输入文本。 Claude 3.5 Sonnet 是第一个在公开测试版中提供计算机使用的前沿人工智能模型。在这个阶段,它仍然处于实验阶段——有时很麻烦而且容易出错。我们将提前发布计算机使用功能以征求开发人员的反馈,并预计该功能将随着时间的推移而迅速提高。

Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已经开始探索这些可能性,执行需要数十个甚至数百个步骤才能完成的任务。例如,Replit 正在使用 Claude 3.5 Sonnet 的计算机使用和 UI 导航功能来开发一项关键功能,该功能可以在为其 Replit Agent 产品构建应用程序时对其进行评估。

升级后的 Claude 3.5 Sonnet 现已可供所有用户使用。从今天开始,开发人员可以使用计算机使用测试版在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上进行构建。新的 Claude 3.5 Haiku 将于本月晚些时候发布。

Claude 3.5 Sonnet:行业领先的软件工程技能

更新后的 Claude 3.5 Sonnet 在行业基准上显示出广泛的改进,尤其是在代理编码和工具使用任务方面取得了显着的进步。在编码方面,它在 SWE-bench Verified 上的性能从 33.4% 提高到 49.0%,得分高于所有公开可用的模型,包括 OpenAI o1-preview 等推理模型和专为代理编码设计的专用系统。它还将 TAU-bench(一项代理工具使用任务)的性能提高,在零售领域从 62.6% 提高到 69.2%,在更具挑战性的航空领域从 36.0% 提高到 46.0%。新的 Claude 3.5 Sonnet 以与其前身相同的价格和速度提供了这些进步。

早期客户反馈表明,升级后的 Claude 3.5 Sonnet 代表了人工智能编码的重大飞跃。 GitLab 测试了 DevSecOps 任务的模型,发现它提供了更强大的推理(跨用例高达 10%),且没有增加延迟,使其成为支持多步骤软件开发流程的理想选择。 Cognition 使用新的 Claude 3.5 Sonnet 进行自主人工智能评估,与之前的版本相比,在编码、规划和问题解决方面经历了实质性改进。 The Browser Company 在使用该模型来自动化基于 Web 的工作流程时指出,Claude 3.5 Sonnet 的性能优于他们之前测试过的每个模型。

作为我们与外部专家持续合作的一部分,美国人工智能安全研究所 (US AISI) 和英国安全研究所 (UK AISI) 对新的 Claude 3.5 Sonnet 模型进行了联合部署前测试。

我们还评估了升级后的 Claude 3.5 Sonnet 的灾难性风险,发现我们的负责任的扩展政策中概述的 ASL-2 标准仍然适合该模型。

Claude 3.5 Haiku:最先进的技术与经济性和速度的结合

  • Claude 3.5 Haiku 是我们最快的下一代型号。在与 Claude 3 Haiku 相同的成本和相似的速度下,Claude 3.5 Haiku 在各项技能上都有所提高,甚至在许多智能基准上超过了我们上一代最大的模型 Claude 3 Opus。 Claude 3.5 Haiku 在编码任务上尤其强大。例如,它在 SWE-bench Verified 上得分为 40.6%,优于许多使用公开可用的最先进模型(包括原始的 Claude 3.5 Sonnet 和 GPT-4o)的代理。

  • Claude 3.5 Haiku 具有低延迟、改进的指令遵循和更准确的工具使用,非常适合面向用户的产品、专门的子代理任务以及从大量数据(例如购买历史记录、定价或库存)生成个性化体验记录。

  • Claude 3.5 Haiku 将于本月晚些时候通过我们的第一方 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 提供 - 最初作为纯文本模型,随后提供图像输入。

负责任地教Claude使用计算机

通过使用计算机,我们正在尝试一些全新的东西。我们没有制作特定的工具来帮助克劳德完成个人任务,而是教它通用的计算机技能——让它能够使用为人类设计的各种标准工具和软件程序。开发人员可以使用这种新兴功能来自动化重复流程、构建和测试软件以及执行研究等开放式任务。

为了使这些通用技能成为可能,我们构建了一个 API,使 Claude 能够感知计算机界面并与之交互。开发人员可以集成此 API,使 Claude 能够将指令(例如,“使用我的计算机上的数据并在线填写此表格”)翻译成计算机命令(例如,检查电子表格;移动光标打开 Web 浏览器;导航到相关网页;使用这些页面中的数据填写表格;等等)。在评估人工智能模型像人一样使用计算机的能力的 OSWorld 上,Claude 3.5 Sonnet 在仅屏幕截图类别中得分为 14.9%,明显优于第二好的人工智能系统 7.8% 的得分。当提供更多步骤来完成任务时,克劳德得分为 22.0%。

虽然我们预计这种能力将在未来几个月内迅速提高,但克劳德目前使用计算机的能力并不完善。人们毫不费力地执行的一些操作(滚动、拖动、缩放)目前给 Claude 带来了挑战,我们鼓励开发人员开始探索低风险任务。由于计算机的使用可能会为垃圾邮件、错误信息或欺诈等更常见的威胁提供新的载体,因此我们正在采取积极主动的方法来促进其安全部署。我们开发了新的分类器,可以识别何时使用计算机以及是否正在发生危害。您可以在我们关于开发计算机使用的帖子中详细了解这项新技能背后的研究过程,以及对安全措施的进一步讨论。

展望未来

这项技术仍处于早期阶段,从其初始部署中学习将有助于我们更好地了解功能日益强大的人工智能系统的潜力和影响。

我们很高兴您能够探索我们的新模型和计算机使用的公开测试版,并欢迎您与我们分享您的反馈。我们相信这些发展将为您与 Claude 的合作方式开辟新的可能性,我们期待看到您将创造什么。