computer-and-mathematical

AI会取代机器学习工程师吗?AI构建AI的讽刺

ML工程师面临67%的AI暴露度但自动化风险仅40/100。AI推动构建AI的职业的悖论。

作者:编辑兼作者
发布日期: 最后更新:
AI-辅助分析由作者审核与编辑

这是AI对劳动力市场影响的核心讽刺之一:机器学习(ML)工程师——构建AI系统的人——在所有职业中AI暴露度最高。我们的数据显示,2025年AI暴露度为67%,高于2023年的50%。然而他们的自动化风险仅为40%,反映了AI辅助其工作与AI取代他们之间的差距。

当你了解ML工程师实际上做什么以及AI在哪里有帮助而在哪里不足时,这一悖论就说得通了。[事实] 在我们审查的每一项分析师预测中,ML工程一直是2030年前增长最快的职业之一,其薪资和职位发布速度超过已经领先科技领域的更广泛软件工程类别。

AI如何改变ML工程工作

AutoML和自动超参数调整减少了在基础模型配置上花费的时间。过去一周的研究现在可以在几个小时内完成,让工程师专注于更难的问题:哪种建模方法适合这个问题?如何将预测转化为业务价值?系统如何在生产中失败?这些问题需要判断,不仅仅是实验。

代码辅助工具在ML工作流程的几乎每个部分都有帮助——从特征工程到数据管道到模型评估代码。熟练使用AI配对程序员的ML工程师报告效率显著提升,这不会消除工作,而是提高了可以由同等数量的工程师构建的内容的数量和复杂性。[估计] 在评估这些工具对生产力影响的研究中,有经验的ML工程师在接受过AI编码辅助之后,通常报告实验和原型制作阶段速度提高30-50%。

Hugging Face、Papers with Code和其他资源的预训练模型,减少了从头开始训练大型模型的需求。在迁移学习成为标准实践的世界中,ML工程师的工作越来越多地是评估哪个基础模型适合任务、为特定应用微调它,以及工程化高效的服务基础设施——而不是为每个新应用从头设计模型架构。这种转变需要不同的技能,而不是更少的技能。

ML平台工具——MLflow、Weights & Biases、Vertex AI、SageMaker——自动化了实验追踪、模型注册表和部署流水线的许多平凡部分。工程师花更少的时间在管道配置上,更多的时间在实际建模工作上。这些平台内的AI功能——自动实验建议、模型比较分析——进一步加速了开发周期。

ML工程师仍然不可替代的原因

问题定义是ML工程的最难部分,也是不能自动化的部分。将模糊的业务目标——"减少客户流失"、"改善我们的搜索"、"检测欺诈更好"——转化为可以通过建模解决的具体ML问题,需要判断、业务理解和对ML权衡的深刻理解。这个定义工作往往决定了项目是否值得构建,以及它是否实际上服务于业务需求。[主张] 大多数ML项目失败不是因为建模或工程不足,而是因为最初的问题框架与实际需要被解决的东西不匹配——ML工程师对于发现这种错位并推动重新定义至关重要。

生产ML系统需要人工监督。将模型投入生产、监控其随时间的性能、检测分布偏移和模型衰减,以及管理系统在生产中以意外方式失败的情况——这些需要将ML专业知识与软件工程专业知识和业务背景结合起来。AI工具可以标记性能异常,但ML工程师必须确定该怎么办:重新训练、使用新功能更新、完全重新设计系统,或者修改业务流程使问题不那么难。

评估对于应用ML至关重要且不断面临挑战。对于给定任务什么是正确的指标?离线评估(在留出数据集上的性能)如何与在线评估(在生产中的实际用户影响)关联?对于公平性或跨人口群体的鲁棒性需要哪些检查?这些问题没有AI可以提供的通用答案——它们需要领域知识、与产品团队的协作,以及对影响决策的关于什么是"成功"的判断。

[事实] ML模型中的偏差放大了现有的社会偏见,已记录案例出现在简历筛选、信贷评分、刑事判决和医疗诊断中。检测这些问题、了解其原因,并决定如何修复它们,是伦理ML工作,需要人类判断和对应用背景的理解。

跨职能协作需要不能自动化的技能。优秀的ML工程师与数据科学家合作将实验代码转化为生产系统,与产品经理合作将ML功能映射到用户需求,与数据工程师合作构建可靠的特征管道,与DevOps或SRE工程师合作构建健壮的服务基础设施。有效地导航这些关系——了解每个角色带来什么,知道在哪里需要推动,以及如何让ML系统从概念到生产的一切都协调一致——是随着经验发展的软技能。

2028年展望

AI暴露度预计到2028年将达到约78%,自动化风险54%。ML工程师将花更多时间进行高层次的系统设计,更少时间在例行建模任务上。对ML工程专业知识的需求将继续超过AI替代它的速度,因为应用ML的领域范围继续向外扩展。

三种新技能将变得核心。第一,大型基础模型的ML系统设计——如何选择、微调、提示工程化、联合和监控Foundation Model,这是不同于传统端到端ML工程的技能。第二,ML运营(MLOps)的成熟化,正式化了模型监控、再训练触发器和生产ML系统生命周期管理。第三,AI对齐和可靠性工程——确保模型在分布下表现如预期,了解模型何时以及如何失败,以及为高风险应用构建适当的护栏——成为在任何重要业务流程中部署AI的核心要求。

ML工程师的职业建议

建立强大的软件工程基础。构建生产ML系统的ML工程师需要将良好的软件工程实践——版本控制、测试、代码审查、持续集成——应用到他们的工作中,方式与传统软件工程师相同。没有这个基础的ML工程师将花费时间修复可靠性和可维护性问题,而不是构建功能。用于ML的Python是默认的,了解至少一种系统语言(Rust、C++、Go)对于低延迟推理工作很有价值。

深化一个应用领域。ML工程师,就像软件工程师一样,通过专业化增加价值——但正确的专业化是垂直的(一个行业),而不仅仅是横向的(一种ML技术)。了解医疗保健ML的ML工程师,包括监管要求、临床工作流程和患者安全考量,比只了解神经网络架构更有价值。ML工程师在金融欺诈中的专业化,在自动驾驶传感器融合中,在推荐系统中,在NLP应用中——每一个都将通用ML技能与领域特定判断结合起来,使得工作比只有ML专业知识时更有价值。

了解大型语言模型系统。LLM已改变了如何构建AI应用的格局,并且了解如何有效工程化这些系统——提示工程,RAG(检索增强生成),微调,代理系统,评估框架——现在是ML工程师的关键技能。即使你的核心工作是传统ML,理解LLM为什么以这种方式工作,以及它们在哪里有帮助而在哪里缺乏,使你能够更好地推荐何时使用它们以及何时传统方法更合适。[主张] 最有价值的ML工程技能组合在2028年将是:强大的软件工程基础 + 深厚的应用领域知识 + 大型模型系统工程 + MLOps成熟度,以及在生产中监督和改进ML系统的实际经验。

如需详细数据,请参阅机器学习工程师页面


_本分析由人工智能辅助完成,基于Anthropic 2026年劳动力市场报告及相关研究数据。_

更新历史

  • 2026-03-25:首次发布,含2025年基准数据。
  • 2026-05-13:增补Foundation Model系统工程、MLOps成熟化和AI对齐作为核心技能,以及应用领域专业化建议。

相关阅读:其他职位的情况如何?

人工智能正在重塑许多职业:

_在我们的博客上探索全部1,016个职业分析。_

机器学习工程的技术生态系统

现代机器学习工程建立在一个复杂且快速演进的技术生态系统之上。深度理解这一生态系统——知道不同工具适合哪些场景,以及如何将它们组合成可靠的生产系统——是ML工程师专业价值的重要组成部分。

深度学习框架层面,TensorFlow(谷歌)和PyTorch(Meta)是最主要的两个框架,而PyTorch在研究社区和越来越多的生产部署中已取得主导地位。JAX是谷歌推出的更底层的数值计算框架,提供了自动微分、即时编译和函数式编程风格,在研究最前沿和高性能计算场景中受到越来越多的青睐。了解这些框架不仅仅是API的熟练使用,还包括理解其在GPU/TPU等加速硬件上的执行模型、性能特征和内存管理方式。

特征存储(Feature Store)是现代ML工程基础设施中的一个关键组件,它解决了一个在生产ML系统中普遍存在的问题:如何确保在模型训练和在线推理中使用相同的特征计算逻辑,如何高效地为在线预测服务提供低延迟的特征查找,以及如何管理和发现跨多个模型使用的特征。Feast、Tecton、Hopsworks和Databricks Feature Store是该领域的主要工具。设计特征存储架构需要理解在线特征服务(低延迟、高并发)和离线特征生成(高吞吐量批处理)之间的根本权衡,以及如何在这两个环境中保持特征一致性。

向量数据库是随着大型语言模型和语义搜索的兴起而获得极大关注的数据基础设施类别。Pinecone、Weaviate、Qdrant、Chroma和pgvector等工具提供了高效的近似最近邻(ANN)搜索能力,使得检索增强生成(RAG)等应用成为可能。ML工程师需要理解不同向量索引算法(HNSW、IVF、LSH)的性能特征和适用场景,以及如何设计向量数据库的访问模式以满足具体应用的延迟和精度要求。

大规模分布式训练的工程挑战

训练大型神经网络——特别是现代大型语言模型和多模态基础模型——涉及大量专门的分布式计算工程工作,这是ML工程领域中最技术性也最专业化的方向之一。

数据并行训练是最基础的并行化方式,将同一模型复制到多个计算设备上,每个设备处理不同的数据批次,定期同步梯度。这种方式相对简单,但受到单个设备可容纳的模型大小限制。模型并行训练将模型本身分割到多个设备上,允许训练大于单个GPU内存的模型,但需要更复杂的通信协调。流水线并行将模型按层分段,使不同设备上的不同层同时处理不同的微批次,进一步提高硬件利用率。

混合专家架构(Mixture of Experts,MoE)代表了在保持高计算效率的同时增加模型参数数量的有效方法。在MoE模型中,不是所有参数都被每个输入激活,而是通过门控网络动态路由,只激活最相关的"专家"子网络。设计、实施和优化MoE模型的训练和推理需要深度理解其在通信效率和负载均衡方面的特殊挑战。

低精度训练和混合精度技术——使用FP16或BF16进行部分计算以减少内存使用和提高吞吐量,同时使用FP32保持数值稳定性——是现代大规模训练的标准实践。最近的INT8和INT4量化技术则进一步扩展了这些效率技术到推理阶段,使得在消费级硬件上运行大型模型成为可能。ML工程师需要理解这些技术的工作原理、适用条件和潜在精度影响。

ML系统可靠性与监控

将ML系统投入生产是ML工程职业中最困难、也最被低估的部分之一。生产ML系统不仅需要满足传统软件系统的可靠性要求(高可用性、低延迟、可扩展性),还面临ML特有的挑战:模型性能随时间的自然衰减(概念漂移和数据漂移),在不降级服务的情况下更新模型的复杂性,以及难以完全指定的正确性标准(与传统软件中精确的通过/失败测试相比)。

模型监控的最佳实践包括多个层次的检查:数据质量监控(检测输入特征分布的意外变化,这可能表明数据管道问题或真实世界变化)、预测分布监控(检测模型输出分布的变化,可能表明模型性能衰减)、业务指标监控(跟踪ML系统预期影响的业务KPI,以确认模型继续提供价值),以及技术性能监控(延迟、吞吐量、错误率)。

渐进式发布策略——影子模式(新模型在后台处理请求但不影响用户)、金丝雀发布(将小部分流量路由到新模型以验证性能)、A/B测试(将流量随机分配到不同模型以比较其影响)——是ML工程团队的标准工具集,用于在最小化生产风险的同时验证新模型。设计有效的渐进式发布流程,并制定明确的成功标准和回滚条件,是ML工程领导力的重要组成部分。

负责任AI与伦理考量

随着ML系统在越来越多的高风险决策中发挥作用,负责任AI工程已从学术关注演变为ML工程师的实际工作要求。这包括多个维度的考量:

公平性评估要求评估模型在不同人口群体之间的性能差异,并根据应用背景的法律和伦理要求决定如何应对这些差异。统计公平性指标(如均等机会、平等奇偶校验、反事实公平性)提供了量化这些差异的方法,但选择哪些指标以及如何在相互竞争的公平性定义之间取得平衡,是需要人类判断和利益相关者参与的价值问题。

模型可解释性——使ML系统的预测对用户和监管者可理解——在信贷审批、医疗诊断、刑事判决等高风险应用中尤为重要。SHAP(SHapley Additive exPlanations)、LIME(局部可解释模型无关解释)、集成梯度等技术提供了特征重要性和局部解释的方法,但构建真正可解释的系统往往需要在预测性能和可解释性之间做出权衡。

结语:在AI时代构建ML职业

机器学习工程师面临的最有趣的悖论是:他们构建的技术正在以最深刻的方式改变劳动力市场,同时他们自己的职业也在被这同一技术所改变——但主要是向更复杂、更高价值的方向演变,而非向淘汰方向。

随着AutoML工具自动化了曾经手动的建模实验,随着预训练Foundation Model减少了从头训练的需求,ML工程师的工作重心正在向更难的问题转移:如何将AI能力整合到提供真实业务价值的可靠生产系统中,如何在满足监管要求的同时构建公平和可解释的系统,以及如何设计ML基础设施以支持下一代AI应用。这些工作不是AI可以独立完成的;它们需要对商业背景、技术权衡和伦理考量有深刻理解的人类工程师来引领。

在这种背景下,ML工程职业提供了技术深度、智识挑战和商业影响的罕见结合,这种组合在可预见的未来将继续吸引最有才华的工程师,并为他们提供丰厚的职业回报。对于正在考虑或已经在这一领域建立职业的工程师,持续学习的承诺、对系统性思维的投资,以及将技术专长与业务理解相结合的能力,将是在这一不断演进的领域中保持竞争力的核心策略。

机器学习工程师的薪酬结构与市场需求

机器学习工程是科技行业中薪酬最高的职业类别之一,这一现实反映了需求与供应之间的显著失衡。在美国,初级ML工程师的薪资通常在每年12万至18万美元之间,而具有3-5年经验的中级ML工程师通常可以获得18万至28万美元的总薪酬,包括基本工资、奖金和股权激励。高级ML工程师和ML基础设施专家,尤其是在大规模部署大型语言模型方面有经验的人,年薪可以达到35万至60万美元甚至更高,加上大型科技公司或高估值AI初创公司提供的可观股权。

这种薪酬溢价不仅仅存在于美国。伦敦、柏林、多伦多、新加坡和上海等科技中心的ML工程师薪资,在当地也普遍位于软件工程薪资分布的顶端。随着ML工程工作的性质与地理位置越来越不相关,远程工作的普及使得来自不同地区的工程师能够竞争同一职位,这一趋势预计将在未来进一步扩大ML人才市场的地理范围。

认证在ML工程招募中的作用,与其他技术领域相比相对次要。雇主更关注实际能力的证明——已发表的研究论文、Kaggle比赛成绩、GitHub上展示的项目、工业界的实际ML部署经验,以及技术面试中解决实际ML问题的能力。但高质量的教育证书——斯坦福、CMU、MIT、ETH Zurich或其他顶级机构的机器学习相关学位——在顶级科技公司的招募中确实扮演着筛选角色。行业认证(AWS Machine Learning Specialty、Google Professional ML Engineer、Databricks Machine Learning Professional等)可以作为补充信号,但通常不能替代实际经验。

机器学习研究与工程的边界

理解ML工程与ML研究之间的区别,对于在这一领域规划职业路径至关重要。ML研究人员——通常拥有博士学位,在学术实验室或工业研究实验室工作——的核心工作是推进ML方法论的前沿:提出新的模型架构,开发新的训练算法,解决新的理论问题,以及发表研究论文。ML工程师则将研究成果转化为可靠的生产系统:将研究原型转化为可在生产中运行的代码,设计服务数百万用户的推理基础设施,以及建立允许在不降级服务的情况下安全更新模型的MLOps流程。

这两个角色之间存在一个重要的中间地带,有时被称为"应用研究"或"研究工程",这是研究和工程之间的桥梁角色。应用研究人员或研究工程师通常深度参与将研究洞察转化为实际产品的过程,他们可能对现有方法进行有针对性的改进(而非全新发明),或将学术论文中的想法适应到具体业务需求,或为工程团队将新研究成果融入产品提供技术指导。这类角色在大型科技公司的AI产品团队中越来越常见,并且通常提供接近研究科学家的薪酬,同时有更直接的产品影响力。

机器学习工程中的领域专业化

机器学习本身是一个横跨几乎所有应用领域的通用技术,但在实践中,ML工程师通常在特定应用领域发展深度专业知识,因为不同领域的ML系统面临截然不同的约束和挑战。

自然语言处理(NLP)是当前ML工程中最活跃的领域之一,大型语言模型的兴起创造了对既了解大型模型系统架构又能解决具体NLP应用问题(文本分类、信息提取、问答、摘要、代码生成等)的工程师的大量需求。计算机视觉工程师(本文的下一个职业话题,ID 430)处理图像和视频理解任务,涵盖从自动驾驶到医疗成像到工业质检等应用。推荐系统工程师设计在电子商务、流媒体和社交媒体平台上为数亿用户提供个性化内容的系统,这些系统面临极端的规模和实时性要求。

每个领域都有其特有的最佳实践、常用工具和评估方法。专注于一个应用领域的ML工程师,能够建立对该领域特有问题的深度理解,包括领域相关的数据特征、常见的失败模式,以及针对该领域开发的专业化工具和技术。这种领域深度,结合扎实的ML工程基础,是在专业ML工程市场中建立独特竞争优势的有效路径。

开源贡献与社区参与

ML工程社区的开放程度在技术领域中是相当独特的。从深度学习框架(PyTorch、TensorFlow、JAX)到MLOps工具(MLflow、DVC、Airflow)到大型语言模型本身(LLaMA、Mistral、Falcon),大量核心技术都是以开源形式发布的。对这些项目的贡献不仅对整个社区有价值,对个人ML工程师的职业发展也有实际意义——它提供了展示技术深度和协作能力的公开记录,建立了与该项目核心贡献者的关系网络,并且有时直接导致工作机会,因为维护这些项目的公司经常招募活跃的贡献者。

学术论文阅读和复现是ML工程师保持技术前沿的重要方式。ArXiv每天发布数百篇ML相关论文,其中许多代表了将在一到两年内进入生产实践的技术。培养系统阅读和评估新研究的习惯——理解论文的核心贡献,评估其实际应用价值,并在必要时复现关键实验——是保持ML工程技能长期领先的重要机制。Papers with Code等资源将论文与官方实现代码相连接,大大降低了复现和应用新方法的门槛。

ML工程社区的另一个独特特点是公司与公司之间技术分享的相对开放性。谷歌、Meta、亚马逊、微软等公司持续在学术会议(NeurIPS、ICML、ICLR、ACL等)上发表研究,公开其ML系统设计的技术细节,并开源其基础设施工具。这种开放性推动了整个行业的技术进步,并为ML工程师提供了通过学习这些公开分享获取行业最佳实践知识的途径,而无需亲身在这些公司工作。

总结:在AI共同演进中构建持久价值

机器学习工程职业的轨迹,是AI不仅改变了世界,也改变了构建AI工具的人的工作方式的缩影。随着AI工具承担越来越多的实验和实现工作,ML工程师发现自己正在处理更难、更需要人类判断力的工作——设计真正解决重要问题的系统、确保AI行为安全可靠,以及将AI能力转化为对用户有实际意义的产品。

这种共同演进的动态,要求ML工程师以与AI本身相同的持续学习精神来对待自己的职业发展。那些最成功的ML工程师将是那些不仅掌握当前最先进技术,还保持着好奇心、适应性和解决真正困难问题的驱动力的人。在这个技术工具不断更新换代的领域,这种以人为本的专业品质,是比任何特定技术技能都更持久的职业资产。 对于正在规划ML工程职业的人来说,几个关键行动可以显著提升长期职业成功的可能性:首先,构建一个包含端到端ML项目(从数据收集到模型训练到生产部署)的公开作品集,远比任何认证证书更能说明实际能力;其次,在一个特定应用领域(医疗保健、金融、自动驾驶、推荐系统等)建立深度,而不仅仅停留在通用ML技术层面;第三,培养将ML解决方案转化为商业价值的能力,这需要与产品、业务和领域专家的有效沟通技能;最后,保持对ML技术前沿的持续关注,特别是大型语言模型系统和多模态AI等当前发展最快的方向,以确保技术技能与行业需求的持续对齐。[估计] 具备这一综合能力轮廓的ML工程师,在2028年将面临的求职市场中,可以预期比单纯具备技术技能的同行多出30-50

Analysis based on the Anthropic Economic Index, U.S. Bureau of Labor Statistics, and O*NET occupational data. Learn about our methodology

更新记录

  • 首次发布于 2026年3月25日。
  • 最后审阅于 2026年5月14日。

同主题更多文章

Technology Computing

Tags

#machine learning#AI automation#ML engineering#AutoML#career advice