作者:Anthropoic
编译:Peggy
编者按:这篇报告基于约 40 万次 Claude Code 会话,讨论 AI 编程工具正在怎样改变人和代码之间的关系。
文章最核心的发现是:在智能体编程中,人类主要决定「做什么」,Claude 主要负责「怎么做」。用户承担大部分规划决策,Claude 则承担大部分执行工作。也就是说,AI 正在接管写代码、改文件、跑命令、调试等实现环节,但目标设定和结果判断仍然依赖人。
更重要的是,使用 Claude Code 的效果并不只取决于用户是否是程序员。报告显示,在产生代码的任务中,法律、金融、管理、科研等非技术职业用户的成功率已经接近软件工程师。真正影响结果的,是用户是否理解自己要解决的问题。
这意味着,AI 编程降低的是实现门槛,而不是判断门槛。未来,懂业务、懂场景、能清楚提出需求和判断结果的人,可能会比单纯会写代码的人更能用好 AI。AI 不会自动替代领域知识,反而会放大领域知识的价值。
以下为原文:
关键发现
在既有研究基础上,我们提出了一个用于研究交互式智能体编程的框架。该框架基于对 2025 年 10 月至 2026 年 4 月期间约 40 万次 Claude Code 会话的隐私保护分析,评估任务构成、人类与 AI 协作方式,以及任务成功率。
在一次典型会话中,人类负责大多数规划决策,即决定「要做什么」;Claude 则负责大多数执行决策,即决定「如何完成」。用户在某一领域的专业知识越强,每条指令触发 Claude 完成的工作量就越大。在编码任务中,各主要职业群体的平均成功率——即是否完成了用户原本想做的事,并且有通过测试、提交代码等可验证证据——几乎与软件工程师持平。
用户的领域专业能力越强,会话越有可能以成功告终。不过,中级用户与专家用户之间的差距并不大。在我们观察的七个月里,用于调试的会话占比几乎下降了一半,使用方式也转向更端到端的智能体用法:部署和运行代码、分析数据,以及撰写非代码文档。
在这七个月里,典型任务的价值几乎在所有工作类型中都有所上升。我们通过与自由职业岗位发布信息进行对比来估算任务价值,结果显示平均涨幅约为 25%。
引言
智能体编程正在快速兴起。自 2025 年底以来,GitHub 项目中出现编码智能体活动的比例已经翻了一倍多,Claude Code 用户现在平均每周使用该工具 20 小时。没有正式编程经验的人,能否成功指挥一个智能体完成复杂的技术工作?这些工具的快速采用和能力提升,又将如何影响更广泛的知识工作?我们目前还无法给出完整答案,但可以从 Claude Code 的使用数据中看到一些早期信号。
本报告基于对 2025 年 10 月至 2026 年 4 月期间,约 23.5 万名用户、约 40 万次交互式会话的隐私保护分析,提供 Claude Code 实际使用方式的证据。它延续了我们此前关于 Claude Code 会话中自主性指标,以及 Claude Code 如何改变 Anthropic 内部工作的研究。本文将提出一个用于描述交互式 AI 编程助手使用情况的框架:人们在做什么工作,谁在做这些工作,以及工作是否成功。我们关注的是用户通过命令行界面(CLI)、Claude.ai 或 Claude Code 桌面应用使用 Claude Code 的情况。通过追踪智能体编程使用方式如何随着模型能力增强而变化,我们可以更好地理解这些工具对编程专业人士和知识工作者劳动力市场的影响。
Claude Code 上发生的事情,或许预示着知识工作的未来走向:智能体会逐渐嵌入非编码工作。我们发现,Claude 正在处理更复杂、更有价值的任务。与此同时,智能体编程中仍然存在清晰的劳动分工:人类决定要构建什么,智能体决定如何构建。
我们还看到证据表明,真正放大工具使用效果的是领域专业知识,而不是编程熟练度。尤其是领域专家更容易成功,也更容易从错误和误解中恢复过来。不过,专家与中级用户之间的差距并不大。这表明,只要在某一领域具备足够熟练度,就几乎可以像深度专家一样有效地使用这类工具。
这些发现让我们能够初步观察劳动力市场可能发生的转变。在我们的数据中,成功取决于一个人是否理解自己要解决的问题,而不是他是否接受过编程训练。如果这些模式在整个经济体系中成立,那么它意味着,智能体编程工具虽然可能正在吸收一部分偏实现型的工作,但同时也在奖励那些真正理解自己工作中所解决问题的人。编码智能体并不是在替代领域专业知识。相反,一个工作者带给智能体的理解越多,智能体能够完成的高质量工作就越多。
劳动分工
人们用 Claude Code 做什么
为了理解人们如何使用 Claude Code,我们将每一次会话归类到九种工作模式之一,即最能描述该会话目标的单一活动。其中四种模式直接涉及代码编写或维护:构建新东西、修复损坏的东西、测试代码,以及编排其他智能体或自动化流水线。另一类是操作软件,包括部署、配置、运行流水线和监控系统。还有两类更偏向于弄清楚「该做什么」:理解一个现有系统如何运作,以及在动手修改前规划变更。最后两类则与代码无关,或者代码只是最终产物中的辅助部分:分析数据,以及通过演示文稿和其他基于文字的文档进行沟通。
约 56% 的会话由编写代码(25%)、修复代码(26%),或测试和编排代码(5%)构成。操作软件占 17%,规划或探索占 14%,分析或撰写文本占 13%(见图 1)。

图 1:九种工作模式。每一次交互式会话都会被归类为最能描述其目标的单一工作模式。
我们先让模型阅读会话记录,并据此对每次会话进行分类;随后再使用我们的隐私保护分析工具,将分类结果与每次会话自动记录的遥测数据进行交叉验证,包括是否新增或删除了代码行。两类来源之间具有高度一致性。例如,在我们的分类器标记为创建或修改代码的会话中,超过 90% 在遥测数据中也显示存在代码变更。详情见附录。
谁来做决定
Claude Code 的自主性有多强?能力评估显示,其上限已经很高,并且仍在上升。例如在 METR 的时间跨度评估等基准测试中,前沿模型现在已经能够自主完成原本需要人类花费数小时的软件任务,并在过程中自行克服障碍。但在实际使用中,情况到底如何?在这里,我们关注真实会话中,人类和 Claude 各自承担了多少引导工作。
我们从两个角度研究这个问题。第一,我们关注人们在多大程度上把决策交给 Claude;第二,我们观察他们给 Claude 分配了多少行动。为了理解一次会话中的决策分工,我们基于会话内容构建了一个隐私保护的决策归因分类器。我们要求分类器列出会话中所有有意义的决策,并将这些决策分为规划决策和执行决策。规划决策包括要做什么、采用哪种方法、什么算完成;执行决策包括要修改哪些文件、写什么代码、用什么语言写,以及运行哪些命令。随后,分类器会将每个决策归因于 Claude 或用户,并为每次会话生成两个数字:用户承担的规划决策占比,以及用户承担的执行决策占比。
平均而言,人类大约做出 70% 的规划决策,但只做出 20% 的执行决策(见图 2)。在实际使用中,智能体编程形成了清晰的劳动分工:人类决定要构建什么,智能体决定如何构建。
为了理解一次会话中行动的委派程度,我们不看内容,而是看会话结构。Claude Code 会话由 Claude 和用户之间的来回交互构成:用户发送提示词,Claude 执行动作;随后用户再发送下一条提示词,如此往复。在典型会话中,这样的轮次约为四轮。在我们 10 月至 4 月的历史数据中,用户每发出一条提示词,平均会触发 Claude 执行约 10 个动作,有时甚至超过 100 个动作。在每一轮中,Claude 会读取文件、编辑代码、运行命令,并平均输出 2400 个词。
Claude 在两次用户检查之间完成多少工作,很大程度上取决于谁在做决策。当用户保留对执行过程的控制权时,也就是用户做出超过 80% 的执行决策时,Claude 每轮执行的动作更少,约为 8 个。而当 Claude 掌握规划控制权时,也就是 Claude 做出超过 80% 的规划决策时,它承担的动作数量最高,约为 16 个。

图 2:Claude 在规划和执行决策中的占比。该图展示了不同会话中,规划决策(做什么)和执行决策(如何做)归因于 Claude 而非用户的比例分布。在典型会话中,用户做出约 70% 的规划决策,而 Claude 做出约 80% 的执行决策。
专业水平
根据每份会话记录,Claude 会以五级量表评估用户在该任务上的表观专业水平,从新手到专家。专业水平分类器关注三个信号:用户给出指令的精确程度、用户要求 Claude 验证什么,以及是用户更常纠正 Claude,还是 Claude 更常纠正用户。需要注意的是,这里的专业水平与职位或一般能力是完全不同的概念,而且关键在于,它是针对具体任务的。一个资深工程师第一次询问 Rust 问题,在 Rust 任务上仍然可能是初学者。一个从未使用过 Python 的会计,如果能准确告诉 Claude 某个 Python 脚本必须执行哪些对账规则,并能抓住其在月末结账时误处理的边界情况,那么他就是该任务上的专家。
下表展示了我们如何在分类器中定义各级专业水平,并给出来自公开编码智能体会话数据集 SWE-chat 的示例请求。被归类为「新手」的对话给出的是泛泛指令,没有体现特定领域知识;被归类为「专家」的对话则传达了对代码库和技术环境的深入理解。

表 1:专业水平分类器。示例对真实会话进行了改写、匿名化和压缩,相关会话由我们的分类器标注。其中许多示例来自公开的智能体编程会话数据集 SWE-chat。
我们量化了专业水平与 Claude 每条提示词所产生输出和活动量之间的关系。在典型的新手会话中,每条提示词会触发 Claude 执行约 5 个动作,并输出约 600 个词;而在专家会话中,动作链长度超过前者两倍,约为 12 个动作,输出量则达到约 3200 个词,是前者的五倍(见图 3)。这种新手与专家之间的差距,出现在每一种工作类型和每一个任务价值区间中。
这些指标补充了我们此前关于 Claude Code 的自主性研究。此前的研究追踪智能体运行时长,以及用户多频繁地自动批准其行动。相比之下,我们的决策归因指标捕捉的是整次会话中谁在做实质性决策,而每条提示词触发的输出量和动作数,则衡量每条人类指令能够引发 Claude 多大程度的自主活动。

图 3:面对更专业的用户,Claude 每条提示词完成更多工作。专业水平越高,Claude 每条提示词产生的动作数(左侧柱状图)和文本输出量(右侧柱状图)越多。箱体表示四分位区间,并在中位数处切分。须线表示第 5 百分位至第 95 百分位。白点为几何平均值。两个上升趋势均具有统计显著性(p < 0.001),相邻专业级别之间的每一步差异也具有统计显著性。在控制工作模式、任务价值、月份、职业和模型系列,并按用户聚类标准误后,这一趋势仍然显著:专业水平每提升一级,动作数增加 9%,输出量增加 13%。
谁在使用 Claude Code,以及他们用它做什么
用户
为了理解是谁在做这些工作,我们根据会话记录推断每位用户的职业,并将其映射到美国劳工统计局标准职业分类(SOC)体系中的 23 个主要类别之一。分类器被要求只依据如下信号进行判断:智能体在会话开始时加载的项目上下文、文件名称和结构、用户引用的资料或产物,例如法律文件、临床数据、财务报告、课程材料等,以及用户使用的词汇。分类器被明确要求,不得将「正在写代码」本身视为用户从事编程职业的证据。只有在存在明确信号表明软件或数据工作是用户职业时,会话才会被归入编码相关 SOC 类别,即「计算机与数学职业」。如果一名律师构建一个脚本,用于自动检查一组合同中是否缺少某些条款,那么即便这次会话主要是在写软件,它仍会被归入法律职业。如果没有任何关于用户职业的信号,该会话则不分类。
我们能够在约 70% 的会话中推断出职业。在这些可分类会话中,「计算机与数学职业」是最大的群体,这并不令人意外,因为该类别涵盖了大多数软件相关工作。其次是商业与金融运营、艺术设计与媒体、管理,以及生命科学、物理科学和社会科学。在我们的样本中,增长最快的非软件职业群体是管理、销售和法律职业。
工作
从 2025 年 10 月到 2026 年 4 月,人们使用 Claude Code 完成的工作构成发生了显著变化。最明显的变化是,用于修复损坏代码的会话占比从 33% 下降到 19%(见图 4)。取而代之的是更多围绕代码展开的工作。操作软件的占比从 14% 上升到 21%。写作和数据分析大约翻了一倍,从约 10% 上升到约 20%。
任务本身的价值也在上升。我们通过估算同类工作在自由职业市场上的成本来近似衡量每次会话的经济价值,并使用真实公开岗位数据集进行校准。按照这一指标,平均会话的估算价值在 10 月至 4 月期间上升了 27%。这一上升出现在多种工作类型中。构建、操作和修复类任务的价值分别大约增长了 43%、34% 和 32%。这些价格估算较为粗略,因此我们主要用它们来比较不同任务之间随时间变化的趋势,而不是将其作为可直接读取的美元价值。有关任务价值估算器构建方式的详情,见附录。

图 4:2025 年 10 月至 2026 年 4 月 Claude Code 工作构成与价值变化。该图展示了七个月窗口期内,各类工作模式在会话中的占比。修复损坏代码的会话占比从 33% 下降到 19%,而操作软件、分析数据和撰写文档的占比上升。
成功取决于用户带来了什么
估算任务价值,是理解 Claude Code 如何帮助人们完成工作的一种方式。另一个角度,是观察有多少会话成功,以及哪些会话特征与成功相关。在所有成功指标中,我们都看到一个清晰模式:用户在会话中表现出的专业水平越高,会话成功的可能性越大。大部分提升集中在专业水平较低的一端,也就是说,从新手到中级用户的差距,大于从中级用户到专家用户的差距。
在分析成功会话的特征之前,我们需要准确说明如何衡量成功。我们无法观察用户的真实世界结果,也无法直接询问他们是否通过 Claude 完成了自己想做的事。因此,我们依赖两种互补的、基于会话记录的衡量方法。第一种是「判定成功」,由分类器阅读完整会话记录后判断用户是否完成了自己原本设定的目标,选项包括成功、部分成功、失败、无明确目标。随后,两个配套分类器会评估该判断的证据强度,以确定「经验证成功」。成功信号分类器会寻找可验证的成功证据,尤其包括与该工作相匹配的 git 活动,例如提交和拉取请求、测试套件通过,以及用户明确表示认可。它会按照从「无信号」到「弱信号」(1 分)再到「多个硬信号」(5 分)的等级对会话打分。另一个并行的失败信号分类器则会对事情出错的证据进行评分,包括错误、测试失败、反复尝试同一件事,以及用户对输出提出反对等。经验证成功要求两个条件同时成立:会话被判定为成功,并且至少存在一个硬性的可验证成功信号。以下分析关注会话中的成功或失败程度,因此我们排除了被成功结果分类器判定为「无明确目标」的会话,这类会话约占完整样本的 7.7%。
专业水平的回报
那么,哪些会话最容易成功?结果显示,上文所述的会话专业水平评分,对会话成功具有很大影响。
有人可能会担心,专业水平并不是真正的驱动因素。也许专家只是选择了不同的任务,或者在其他方面存在差异。在本节中,我们通过比较相同工作类型、相同估算价值、相同月份、相同主题、来自同一大类职业群体的会话,部分回应了这种担忧,并考察用户专业水平不同会如何影响结果。

表 2:由分类器推导出的成功与失败定义。示例来自公开智能体编程交互数据集 SWE-chat 中的真实会话,经改写和总结后由我们的分类器标注。
在所有成功指标中,用户在会话中表现出的专业水平越高,会话越可能成功。被评为新手的会话,在我们最严格的指标「经验证成功」上达到成功的比例为 15%,达到至少部分成功的比例为 77%。而被评为中级及以上的会话,经验证成功率为 28% 至 33%,部分成功率为 91% 至 92%(见图 5)。
在每一种指标中,大部分收益都来自从新手到中级的提升;从中级到专家,斜率则会放缓。关于图 5 背后的回归分析细节,见附录。

图 5:专业水平与会话结局。该图按照用户在任务中的专业水平评分,从新手到专家五个等级,展示会话结果。左图包含所有会话。中图和右图则仅限于遇到问题的会话,即失败信号大于 3 的会话,并展示这些会话最终达到不同成功和失败定义的比例。每个点都是调整后的比率。我们通过只比较具有相同工作模式、相同任务价值区间、相同月份、相同任务主题,以及相同用户类型,即是否属于软件相关职业的会话,来估计不同专业水平之间的差异。相关回归细节见附录。须线为样本均值的置信区间,大多数由于过小而在图中不可见。这些图排除了被成功结果分类器判定为「无明确目标」的会话。
在遇到挑战的会话中,也可以看到类似的梯度。当失败信号记录到经验证的失败证据时,我们认为该会话「遇到问题」。这可能包括出现错误、测试失败、多次尝试完成同一件事,或者用户表达挫败和不满。在遇到问题的会话中,控制上述所有变量后,经验证成功的比例从新手会话的 4% 上升到专家会话的 15%(见图 5)。如果使用更宽松的成功指标,我们发现至少部分成功的比例,在新手用户中为 60%,在中级至专家用户中则为 80% 至 81%。
我们也追踪了另一种反向关系,即专业水平与各类失败指标之间的关系。需要注意的是,在这项分析中,被判定为失败的会话,是那些连部分成功都没有达到的会话。如果一次遇到问题的会话被判定为失败,并且没有写入任何代码行,我们称之为被放弃。在用户看起来是新手的会话中,有 19% 最终被放弃;而在其他用户群体中,这一比例为 5% 至 7%。换言之,经验最少的用户在努力达成目标却遇到困难时,更容易放弃。专业能力的一部分价值,似乎体现在能够把智能体引导回正确方向。
职业可能不如专业水平重要
软件相关职业用户在所有会话中的经验证成功率约为 30%,其他职业用户约为 26%。在产生代码的会话中,即至少新增或修改一行代码的会话中,这两个数字分别为 34% 和 29%(见图 6)。如果使用更宽松的成功定义,软件相关职业与其他职业之间的差距会进一步缩小。在产生代码的会话中,两类用户达到至少部分成功的比例分别为 89% 和 88%。五个百分点的差距并不大,并且在七个月中既没有扩大,也没有缩小,尽管两个群体的成功率都在提升。在产生代码的会话中,我们数据集里规模最大的十个职业群体,每一个与软件工程师在成功率上的差距都在七个百分点以内。管理类职业在经验证成功率上最高,略高于软件工程类职业。管理者更高的经验证成功率,可能反映了管理技能可以迁移到指挥智能体这一任务上。但这也可能部分来自我们的测量方式:验证在一定程度上依赖会话中用户的明确确认,而管理者可能更习惯在得到自己想要的结果时进行表达。

图 6:按推断职业划分的编码会话判定成功率与经验证成功率。该图展示了在至少新增或修改一行代码的会话中,按照用户推断职业划分的严格成功定义比例,包括判定成功和经验证成功。图中展示的是十个规模最大的职业群体。每个群体与软件/数学类用户,即 SOC 分类中的计算机与数学职业用户,在成功率上的差距都在七个百分点以内。误差线表示基于不同账户计算的 95% 置信区间。
展望
本报告的结果勾勒出一幅正在形成的图景:智能体编程正在放大某些知识和技能,同时替代另一些技能。在产生代码的会话中,各主要职业的成功率都与软件相关职业相差不大。看起来,编码智能体正在让是否具备编程背景,对成功完成编程任务变得不那么重要。
与此同时,成功会话更可能表现出领域专业知识。被评为专家的会话,其经验证成功率是新手会话的两倍以上。当会话遇到问题时,新手放弃的比例也比其他用户高出数倍。协作方式本身让这一图景更清晰:领域专家能够用每一条指令引导 Claude 完成更多工作。因此,将 Claude 引向成功的能力,更多来自对某一领域的掌握,而不是书写代码的能力。任何领域中具备这种掌握能力的人,现在都可能完成过去无法完成的技术工作。而缺乏这种专业理解的人,即使用同样的工具,收获也会少得多。并且,收益主要来自胜任,而不是精通。对某一领域有可操作的理解,就已经能获得大部分收益;深度专业化在此基础上只会再带来少量额外优势。
这些发现仍是初步的。与我们大多数研究一样,我们无法衡量真实世界结果,例如一次会话中写出的代码后来究竟被使用还是被丢弃,或者它是否产出了具有经济价值的成果。此外,本报告排除的非交互式使用,占总体活动中的相当大一部分。开发一个能够衡量这类使用的框架,是未来工作的重点之一。并且,我们对会话的所有分类,都依赖模型对会话记录的阅读。在附录中,我们展示了分类器与独立遥测数据在预期方向上保持一致,并且在多数会话中与强参考模型判断一致。但在大规模场景下,验证分类器仍然很难;Claude Code 会话本身也增加了难度,因为它们可能过长且过于复杂,难以用人工标注作为真实基准。
随着模型、用户以及二者之间的劳动分工不断变化,本报告中的图景也会持续更新。我们希望这些指标能够帮助我们追踪正在发生的重大转变。例如,如果未来专业水平带来的回报开始下降,那将表明模型开始提供用户目前所带来的关键判断,而这些工具的收益也将从领域专家扩展到更广泛的人群。如果软件职业之外的用户成功完成编码会话的比例继续上升,则可能意味着软件生产正在成为各领域普通工作的一部分,而不再是单一职业的产物。这些转变将改变谁能从智能体编程中受益,以及受益多少,并对劳动力市场中最被重视的能力产生影响。

