什么是 LLMOps?

复制 URL

大语言模型(LLM)是一种机器学习(ML)模型,可用于执行与语言相关的任务,如翻译、问答、聊天和内容归纳,以及内容和代码生成等。诸如 GPT-3、LLaMA 和 Falcon 等都是创新的 LLM 工具,可以基于数据集进行训练并回答问题。随着这些工具的不断演进,企业和机构需要掌握如何运维这些模型的最佳实践。而这正好就是 LLMOps 的用武之地。

大语言模型运维(LLMOps)指的是对生产环境中的大语言模型进行运维管理的一系列实践方法、技术和工具。LLMOps 专门用于管理和自动执行 LLM 的生命周期,包括使用各种工具和方法进行调优和维护等。通过特定于模型的运维,数据科学家、工程师和 IT 团队可以高效地部署、监控和维护大语言模型。

如果说 LLM 是 ML 模型的一个子集,那么 LLMOps 同样也是机器学习运维(MLOps)中适用于大语言模型的一个子集。作为一组工作流实践,MLOps 旨在简化 ML 模型的部署和维护过程。MLOps 的目标是建立一个不断发展演进的过程,以便将 ML 模型无缝融入到软件开发流程中。同样,LLMOps 也要不断地试验、迭代、部署和改进 LLM 的开发和部署生命周期。

LLMOps 和 MLOps 既有相似之处,也有不同之处。例如:

学习:许多传统的 ML 模型都是从头开始创建或训练,但 LLM 是从一个基础模型开始,然后使用新数据进行调优,以提高其在特定领域的性能。

调优:对于 LLM,调优(Tuning)可以改进模型在特定应用中的性能并提高准确性,使其更加深入地理解某个特定主题的知识。而提示词调优(Prompt Tuning)是一个高效且精简的过程,可以使 LLM 更好地执行特定任务。超参数调优是另一个不同之处。在传统 ML 中,调优侧重于提高准确性或其他指标。而对于 LLM,调优对于降低训练和推理的成本和算力要求也很重要。无论是传统 ML 模型还是 LLM,跟踪和优化调优过程都有好处,但侧重点各不相同。最后,值得一提的是,还有一个叫做“检索增强生成”(RAG)的过程,它可以与调优相结合,共同提高答案的准确性。当用户向 LLM 进行查询时,RAG 会利用外部知识库来确保 LLM 获得的是最新且准确的事实,从而使 LLM 产生更高质量的回答。

反馈:人类反馈强化学习(RLHF)是一种改进 LLM 训练的方法。由于 LLM 处理的任务往往具有开放性,因此来自最终用户的人类反馈在评估 LLM 性能方面发挥着至关重要的作用。LLM 会使用人类反馈来评估提示词回答的准确性和一致性,而传统 ML 模型使用特定的自动化指标来评估准确性。

性能指标:ML 模型有明确定义的性能指标,如准确性、AUC、F1 分数等。而 LLM 则适用一套不同的标准指标和评分体系,如双语评估替换(BLEU)和强调召回率的摘要评估替换(ROUGE)。

随着时间的推移,LLMOps 已逐渐成为监控和增强 LLM 性能的首选方式,它有三大突出优势:

效率:LLMOps 使团队能够更快开发模型和管道,交付更高质量的模型,并更快地部署到生产环境中。由此带来的工作简化可以帮助团队在统一的平台上更好地协作,促进沟通和分享见解。

可扩展性:通过 LLMOps,可以有效地管理和扩展其使用的 LLM 的数量和复杂性,对多个模型进行监督、控制、管理和监控,以实现持续集成和持续交付/部署(CI/CD)。LLM 管道可以促进协作,减少冲突并缩短发布周期。而且,通过改进模型的延迟,LLMOps 还可提供响应更快的用户体验。

降低风险:LLMOps 能够提高透明度,更快地响应请求,并确保更好地遵守企业或行业的政策。高级 LLMOps 可以通过重点保护敏感信息来提高安全性和隐私,帮助防止漏洞和未经授权的访问。

下方列出了 LLMOps 的几个用例。

持续集成和交付(CI/CD):CI/CD 旨在简化、加速和自动执行模型开发生命周期。诸如 Jenkins 等工具可以用来持续构建和测试项目,让开发人员可以更轻松地将变更纳入到项目中,使用户更便捷地获得新的版本。由此可实现无缝的模型更新和回滚,最大限度地减少对用户的干扰。

数据收集、标记、存储:可以从各种来源、领域和语言中提取数据。由人力辅助的数据标记可以做出特定于领域的复杂判断。利用适当的数据库和存储解决方案实现数据存储,可以在 LLM 的整个生命周期中收集和保留数字信息。

模型调优、推理、监控:模型调优可以优化模型,以执行特定领域的任务。模型推理可以基于现有知识来管理生产的内容,并基于推理的信息来执行操作。模型监控(包括人类反馈)可以收集和存储有关模型行为的数据,以了解模型如何使用真实的生产数据。

LLMOps 分为几个阶段,各自都有相应的最佳实践:

探索性数据分析(EDA):通过创建数据集、表格和可视化图表来调查数据,发现、分享和准备机器学习生命周期所需的数据。

  • 数据收集:作为训练 LLM 的第一步,将从各种来源收集数据,例如代码存储库和社交媒体。
  • 数据清理:收集到数据后,就需要对数据进行清理并为训练做好准备,包括剔除错误、纠正不一致和删除重复数据。
  • 数据探索:接着是探索数据,以更好地了解数据特征,包括识别异常值和发现特定模式。

数据准备和提示词工程:使数据在团队之间可见和可共享,并为 LLM 开发结构化、可靠的查询提示词。

  • 数据准备:以特定的方式对用于训练 LLM 的数据进行准备,包括删除禁用词和对文本进行规范化。
  • 提示词工程:创建用于生成文本的提示词,以帮助确保 LLM 能够生成符合预期的输出。

模型调优:使用主流的开源库(如 PyTorch)来调优和改进模型性能。

  • 模型训练:在准备好数据后,通过使用机器学习算法来学习数据中的模式,从而训练或调优 LLM。
  • 模型评估:完成训练后,需要使用未曾用于训练 LLM 的测试数据集来评估 LLM 的性能。
  • 模型调优:如果 LLM 表现不佳,可以对其进行调优,包括修改 LLM 的参数来提高其性能。

模型审查和治理:在开源 MLOps 平台(如 MLflow 和 Kubeflow)的帮助下,来发现、共享和在不同机器学习模型之间进行协作。

  • 模型审查:完成了调优后,就需要对 LLM 进行审查来确保其安全可靠,包括检查偏差、安全性和安全风险。
  • 模型治理:模型治理是指在 LLM 的整个生命周期中管理 LLM 的过程,包括跟踪其性能,根据需要进行更改,以及在不再需要时将其停用。

模型推理和服务:在测试中对模型刷新频率、推理请求时间和类似生产细节进行管理。

  • 模型服务:LLM 经过审查并获得批准后,就可以部署到生产环境中,以便用户通过应用编程接口(API)使用 LLM。
  • 模型推理:相关的应用可以查询 API 来生成文本或回答问题。这可以通过多种方式实现,例如表述性状态传递应用编程接口(REST API)或 Web 应用。

模型监控与人类反馈:创建模型和数据监控管道,同时针对模型漂移和恶意用户行为发出警报。

  • 模型监控:完成部署后,需要对 LLM 进行监控,以确保其按预期执行,包括跟踪其性能、识别存在的问题以及根据需要进行更改。
  • 人类反馈:人类用户对 LLM 生成的文本进行反馈,或者识别出 LLM 性能中的任何问题,从而提升 LLM 的性能。

LLMOps 平台可为数据科学家和软件工程师提供一个高效协作的环境,便于团队进行数据探索、实验跟踪协作、提示词工程以及模型和管道管理。它还可为 LLM 提供受控的模型转换、部署和监控。

LLMOps 平台可以提供更高效的库管理,从而降低运维成本,让并不具备深厚技术背景的人员也能高效完成任务。相关操作包括数据预处理、语言模型训练、监控、调优和部署。LLMOps 会自动完成机器学习生命周期中的运维、同步和监控工作。

作为筑基于 Kubernetes 之上的混合云应用平台,红帽® OpenShift® 可加速 AI 应用在混合云环境中的部署,包括数据中心、网络边缘乃至多云等诸多环境。

借助红帽 OpenShift,企业可以自动化并简化大量运维工作(例如将模型集成到软件开发流程、生产部署、监控、重新训练和重新部署等重复性流程),以保持预测的准确性。

红帽 OpenShift AI 是一个灵活且可扩展的 MLOps 平台,可用于构建、部署和管理 AI 应用。它使数据科学家和应用开发人员能够安全、一致、大规模地简化人工智能(AI)与应用的集成。OpenShift AI 可以为本地环境和公共云中的 AI/ML 实验和模型提供覆盖整个生命周期的支持。

通过将红帽 OpenShift AI 和红帽 OpenShift 的功能结合到企业级 AI 应用平台中,团队可以在一个利于协作的环境中协同工作,从而提高一致性、安全性和可扩展性。

AI/ML 的更多信息

产品

新增文章

可无缝开发、测试和运行适用于企业级应用的 Granite 系列大型语言模型的基础模型平台。

围绕 AI 打造的产品组合可提供工具来训练、调优、提供、监控和管理红帽 OpenShift 上的 AI/ML 实验和模型。

一个企业级应用平台,包含一系列统一经过测试的服务,可基于您选择的基础架构将应用推向市场。 

搭载 IBM watsonx Code Assistant 的红帽 Ansible Lightspeed 是一项生成式 AI 服务,由 Ansible 自动化构工作者、运维人员和开发人员专为自动化同行们设计而成。 

资源

电子书

构建生产就绪型 AI/ML 环境的首要考虑因素

分析师资料

适用于 MLOps 的红帽混合云平台的总体经济影响™

网络培训课堂

借助开源和 Kubernetes 充分挖掘 AI 的价值