红帽 OpenShift 数据科学:AI/ML 云服务

更迅速地推出智能应用

人工智能(AI)、机器学习(ML)和深度学习(DL)正在对无数企业和行业的应用现代化进程产生深远影响。许多企业需要从数据中获取战略价值和新见解,从而进一步扩大智能云原生应用和 DevOps 方法的使用规模。新世界可能会变得非常复杂,并会对包括开发人员、数据科学家和运维人员在内的每个人产生影响。传统方案可能会带来挑战:

  • 从让快速发展的工具和应用服务保持最新且一致,到配置图形处理单元(GPU)等硬件资源,再到扩展智能应用——这一切繁琐复杂的工作可能会令人心生畏惧。
  • 主流云平台提供了规模化且具备吸引力的集成环境和工具集,但这些产品可能会通过限制性工具链和有限的部署选项来有效锁定用户。 
  • 让应用开发人员和数据科学家使用多个不同的平台可能会使协作复杂化并拖慢开发速度。
  • 大规模部署智能应用并非易事,若还需应对不同开发和生产平台只会难上加难。

红帽 OpenShift® 数据科学是一款托管式云服务产品,可为数据科学家和开发人员提供强大的 AI/ML 平台,帮助其构建和部署智能应用。企业可以通过一个通用平台尝试选择多种工具、在通用平台上开展协作,并加快产品上市。OpenShift 数据科学将数据科学家和开发人员需要的自助服务环境与企业 IT 所需的可信度结合在一起。

稳固的基础可以减少生命周期中的摩擦。OpenShift 数据科学提供了一个强大的平台、一个由主流认证工具组成的广泛生态系统以及常用于将模型部署到生产中的工作流程。这些优势可以减少团队协作过程中的摩擦,更高效地推出智能应用,并最终为企业实现更大的价值。

迅速开发、训练、测试和部署

OpenShift 数据科学以社区 Open Data Hub 项目和 Operate First 为基础。Open Data Hub 展示了红帽 OpenShift 上的 AI/ML 平台以及 Apache Kafka 和 Kubeflow 等上游工作。Operate First 将开源概念引入运维,让开发人员和运维人员协作实现卓越运维,避免专有锁定。OpenShift 数据科学在享有全面支持的云服务中提供了 Open Data Hub 工具的子集,并通过可选的独立软件供应商(ISV)产品在 Amazon Web Services(AWS)上进行管理。

尝试选择多种工具

数据科学家可以借助 OpenShift 数据科学尝试并发现将见解引入业务的新方法。作为完全托管的云服务,数据科学家可以在部署之前开发、训练和测试机器学习模型。团队可以使用集成体验中提供的高级工具。数据科学家可以使用其熟悉的工具或访问不断发展的技术合作伙伴生态系统,以获得更深层次的 AI/ML 专业知识,而无需被规定性工具链所约束。无需等待 IT 部门提供必要的资源,无需填写 IT 工单,只需点击一下即可获得按需基础架构。 

在通用平台上开展协作

OpenShift 数据科学基于专为机器学习工作负载和开发工作流程而设计的开源架构而构建,可以缩小数据科学和 DevOps 之间的差距,减少生产过程中的交接麻烦。数据科学家在 Jupyter Notebook 中实时协作。这可以减少摩擦,让开发人员轻松地将容器就绪模型集成到智能应用中。IT 部门不必再因监管而烦心,无需追查恶意云平台帐户。 

加速智能应用上市

OpenShift 数据科学可在共享、一致的平台上以更快的速度将早期试点的机器学习模型引入智能应用。数据科学家可以快速开始选择工具并访问自助服务基础架构。该服务通过其软件合作伙伴生态系统将机器学习生命周期的各个阶段与更深层次的 AI 特性连接起来,广泛提供具有 AI/ML 专业知识的认证工具。您可以将模型部署到混合云环境,从而获得在任何地方运行工作负载的灵活性,并避免商业云锁定。

OpenShift 数据科学

图 1 说明了模型运维生命周期如何与 OpenShift 数据科学的初始产品集成作为通用平台。此云服务已在红帽 OpenShift 专业版(在 AWS 上)和 AWS 上的红帽 OpenShift 服务开放使用,可提供核心数据科学工作流来作为红帽托管服务,并有机会通过 ISV 认证的软件改进功能和协作水平。模型要么托管在 OpenShift 云服务上,要么导出以集成到智能应用中。

要点

  • 专注所选工具,不为基础架构分心。
  • 减少摩擦,更高效地将数据科学家、开发人员和 IT 运维人员聚集在通用平台上开展协作。
  • 加速交付智能应用并缩短上市时间。
  • 为数据科学家提供支持,使其可以从庞大的合作伙伴生态系统中随心选择应用和服务。

图 1. OpenShift 数据科学版本组件

OpenShift 数据科学提供的核心工具和功能奠定了坚实的基础:

  • Jupyter Notebook。数据科学家可以通过访问核心 AI/ML 库和框架(包括 TensorFlow 和 PyTorch),在 JupyterLab 中开展探索性数据科学。
  • 源至镜像(S2I)。模型可以通过 S2I 作为端点发布,以便集成到智能应用中,并且可以根据源 Notebook 的更改进行重建和重新部署。
  • 优化推理。 深度学习模型可以转换为优化的推理引擎以加速实验。

作为服务的一部分,红帽提供了适用于 Tensorflow 和 PyTorch 的 Jupyter Notebook 镜像,帮助团队更轻松地采用这些强大的技术,而无需从头开始。为了保持一致性和灵活性,Jupyter Spawner 可以结合首选的库、工具和语言,将企业的自定义镜像部署到数据科学团队。该服务还包括 JupyterLab 的 Git 插件,这直接减少了 JupyterLab 界面与 Git 集成所需的时间。包含在服务中的其他通用分析包可进一步简化运维,让您更轻松地开始使用适合项目的工具,包括 Pandasscikit-learnNumPy。 

作为托管云服务,红帽为底层 OpenShift 应用平台和 OpenShift 数据科学服务提供站点可靠性工程(SRE)支持。这一支持可以使您更专注于业务分析,无须因底层平台而分心。红帽负责维护红帽 OpenShift 数据科学服务的高可用性,包括底层红帽 OpenShift 托管云服务环境。所有更新、升级和兼容性都作为服务的一部分进行管理,无需跟踪分析工具之间潜在的复杂兼容性矩阵。

复杂模型生命周期工具

OpenShift 数据科学提供服务和软件,帮助企业成功部署模型并将其投入生产(图 2)。除了 OpenShift 数据科学之外,该流程还与红帽 OpenShift API 管理集成。

图 2 典型模型实施生命周期

为了方便采用,红帽 OpenShift 数据科学控制面板中还设计了一个用于发现和访问所有应用和文档的中心位置。智能启动教程为常见组件和集成合作伙伴软件提供了最佳实践指南,可直接从控制面板获取,从而更有效地帮助数据科学家深入学习并迅速开始使用。以下部分介绍了随附于红帽 OpenShift 数据科学的主要分析工具。 

Starburst

Starburst 可以让您的团队更快速、更轻松地利用您的数据来改善业务运作方式,从而加速分析。Starburst 可作为自助式产品或完全托管服务,使数据访问大众化,为数据消费者带来更全面的见解。Starburst 基于开源 Trino(之前称为 PrestoSQL)构建,Trino 是出色的大规模并行处理(MPP)SQL 引擎。Starburst 由 Trino 专家和 Presto 的创造者构建和运维,可让您自由查询各种数据集,无论数据集位于何处,也无需移动数据。

Starburst 与红帽 OpenShift 的可扩展云存储和计算服务集成,以更稳定、更注重安全、更高效且更实惠的方式查询所有企业数据。优势包括:

  • 自动化。 Starburst 和红帽 OpenShift 运维人员提供集群的自动配置、自动调整和自动管理。
  • 高可用性和灵活缩减。 红帽 OpenShift 负载均衡器可以使 Trino 协调器等服务保持始终开启的状态。
  • 弹性扩展。红帽 OpenShift 可以根据查询负载自动扩展 Trino 工作集群。

Anaconda 商业版

Anaconda 商业版精选了大量用于 Jupyter 项目的数据科学软件包,并可直接从红帽 OpenShift 数据科学控制面板获取预构建的 Jupyter 镜像。Anaconda 商业版可为企业提供世界上主流的开源软件包分发和管理体验,且已针对商业用途进行了优化,包括:

  • 开源创新,Anaconda 的高级存储库中包含超过 7,500 个 Anaconda 精选的数据科学和 ML 软件包。
  • 内容可信功能(例如 Conda 签名验证)可帮助您将漏洞和不可靠的软件排除在数据科学和 ML 管道之外。
  • 值得信赖的正常运行时间服务级别协议(SLA),为您的生产工作流提供可靠支持。
  • 完全符合 Anaconda 服务条款中的商业用途规定。

IBM Watson Studio

IBM Watson Studio1 可支持您使用 Watson Machine LearningWatson OpenScale 大规模构建、运行和管理 AI 模型。该平台集合了 PyTorch、TensorFlow 和 scikit-learn 等开源框架和 IBM 及其生态系统工具,用于基于代码和可视化的数据科学。该平台可与 Jupyter Notebook、JupyterLab、命令行界面(CLI)和 Python 语言配合使用。

IBM Watson 帮助实施 AI 并提升从原则到实践的可信程度。透明的流程提供了对 AI 主导决策的见解。IBM Watson 可在高度监管的行业中确保数据隐私、合规性和安全性,为开源的多样化生态系统提供支持,推动负责任地使用 AI。IBM Watson Studio 能够提供:

  • AutoAI 和 AutoML,以自动构建模型管道、准备数据和选择模型类型,以及生成模型管道并对其进行排名。
  • 先进的数据提炼功能,可帮助使用图形流编辑器净化和整理数据。
  • 通过 IBM SPSS Modeler 集成可视化工具,可快速准备数据并以可视化方式开发模型。
  • 模型训练和开发,通过优化的管道快速构建实验。
  • 嵌入式决策优化将预测性模型和规定性模型相结合。
  • 模型管理以及质量、公平性和偏移指标的监控。
  • 模型导出为 Python Jupyter Notebook。

Pachyderm

企业需要数据管理解决方案来促进从笔记本电脑实验到重要企业部署等所有环节的发展。Pachyderm 支持数据科学团队构建和扩展由数据驱动的容器化 ML 管道,并通过自动数据版本控制保障数据沿袭。Pachyderm 旨在解决现实世界的数据科学问题,为团队提供数据基础,使其能够自动执行并扩展其机器学习生命周期,同时保证可再现性。Pachyderm 的用例涵盖非结构化数据、数据仓库、自然语言处理、视频和图像 ETL、金融服务和生命科学,可提供:

  • 自动数据版本控制为团队提供了一种高性能的方式来跟踪所有数据变更。
  • 由数据驱动的容器化管道可加快数据处理速度,同时降低计算成本。
  • 不可变的数据沿袭,为机器学习生命周期中的所有活动和资产提供固定记录。
  • Pachyderm Console 可直观地展示有向无环图(DAG),以帮助进行调试并实现可再现性。
  • Jupyter Notebook 支持 Pachyderm 的 JupyterLab Mount Extension,可为 Pachyderm 版本数据提供指向-点击式界面。
  • 使用强大的工具进行企业管理,用于在企业内的不同团队中大规模部署和管理 Pachyderm。

NVIDIA 加速数据科学进程

可扩展的数据处理、数据分析、机器学习训练和推理都属于高度资源密集型的计算任务。NVIDIA 软件可以利用 GPU 的并行处理能力来全方位加速端到端数据科学进程。扩展本地 GPU 资源或配置 Kubernetes 配置不应分散数据科学家的注意力,以便其能更专注于从数据中提取价值。

众多企业已经使用 NVIDIA 解决方案来进行机器学习和许多其他服务。OpenShift 数据科学降低了支持 GPU 的硬件的复杂性,以加速资源密集型数据科学实验进程。借助 OpenShift 数据科学,企业可以按需使用由 NVIDIA GPU 提供支持的 Amazon ElasticComputing(EC2)实例,根据需要增加或减少计算资源。

英特尔 OpenVINO 工具套件

英特尔 OpenVINO 工具套件可加速高性能深度学习推理应用在英特尔平台上的开发和部署。该工具套件可让您使用随附的模型优化器以及运行时和开发工具来构建、优化、调整和运行全面的 AI 推理应用。

  • 构建:开发人员可以使用 Open Model Zoo 来查找可供推理的开源、预训练和预优化的模型,也可以使用自己的 DL 模型。
  • 优化:模型优化器可以将模型转换为中间表示(IR),从而生成一对描述网络拓扑并包含模型权重和偏差的文件。
  • 部署: 推理引擎可以在多个处理器、加速器和环境上输出结果,支持一次写入、随处部署。

英特尔® AI 分析工具套件

英特尔 AI 分析工具套件为数据科学家、AI 开发人员和研究人员带来了熟悉的 Python 工具和框架,以便加速英特尔基础架构上的端到端数据科学和分析管道。该组件使用 oneAPI 库进行低级计算优化。该工具套件更大限度地提高了通过 ML 进行预处理的性能,并为高效的模型开发提供了互操作性。

英特尔 AI 分析工具套件可以:

  • 在英特尔 XPU 上提供高性能的 DL 训练,并使用英特尔优化的 TensorFlow 和 PyTorch 的 DL 框架、预训练模型和低精度工具,将快速推理集成到您的 AI 开发工作流中。
  • 通过针对英特尔优化的计算密集型 Python 软件包、Modin、scikit-learn 和 XGBoost,无需额外操作即可加速数据预处理和 ML 工作流。
  • 直接访问英特尔的分析和 AI 优化功能,以确保您的软件持续协同工作。

结论

OpenShift 数据科学可以帮助企业进行实验、协作并最终加速其智能应用的发展过程。由红帽管理的云基础附加服务是一个现代容器化 AI/ML 平台,简化并加速了数据科学家的实验,同时具备 AWS 的便利性和可扩展性。为开发人员和数据科学家提供自助服务,帮助企业 IT 在已经使用并完全信任的应用平台上加速创新。与其他替代方案不同,数据科学家可以选择不包含限制性工具链的工具,在获取全新数据见解的同时,不会强行施加任意限制。

 

  1. IBM Watson Studio 和 Watson Machine Learning 是 IBM Cloud Pak for Data 产品的一部分。