蓝耘推理服务具有更快的启动时间,更敏捷的自动扩展能力

推理服务

更快的启动时间,更敏捷的
自动扩展能力

随着需求变化,提供更好的推理服务并在成千上万个GPU上实现自动

扩展,以确保您不会被用户增长所压垮。


通过随用户扩展的解决方案更快地提供推理服务

蓝耘推理服务提供了一种现代化的推理运行方式,具有更好的性能和更小的延迟,同时比其他平台更具成本效益。


看看是什么让我们的解决方案与众不同:



传统的技术堆栈

托管云服务

大多数云服务提供商构建了面向通用用例和托管环境的架构,而不是面向计算密集型用例。

  • 虚拟机(VM)托管Kubernetes(K8s),需要通过虚拟化层运行
  • 难以扩展
  • 启动实例可能需要5-10分钟或更长时间

蓝耘的技术堆栈

在云端进行多模式或无服务器的Kubernetes部署

通过Kubernetes部署容器化的工作负载,以增加可移植性、降低复杂性和总体成本。

  • 无虚拟化层,因此Kubernetes直接在裸金属(硬件)上运行
  • 我们利用Kubevirt在Kubernetes容器内托管虚拟机(VM)
  • 易于扩展
  • 在几秒钟内启动新实例

自动缩放

优化GPU资源以提高效率并降低成本

根据需求自动缩放容器以快速满足用户请求,这比依赖于其他云提供商的管理程序
支持实例的缩放要快得多。只要有新的请求进来,即可尽快处理:


  • 小型模型:5秒
  • GPT-J:10秒
  • GPT-NeoX:15秒
  • 较大模型:30-60秒
优化GPU资源以提高效率并降低成本
蓝耘无服务器Kubernetes,无需担心正确配置底层框架即可部署模型

无服务器KUBERNETES

无需担心正确配置底层框架即可部署模型

KServe在易于使用的界面上实现了基于Kubernetes的无服务器推理,适用于常见
的机器学习框架,如TensorFlow、XGBoost、scikit-learn、PyTorch和ONNX,以
解决生产模型服务的用例问题。

网络

立即获得开箱即用的超现代、高性能的网络

蓝耘基于Kubernetes的网络设计将功能移至网络基础架构中,因此您可以获得所需
的功能、速度和安全性,而无需管理IP和VLAN。


  • 轻松部署负载均衡服务
  • 通过多个一级供应商以每个节点高达100Gbps的速度访问公共互联网
  • 通过蓝耘虚拟私有云(VPC)获取自定义配置
蓝耘网络具有开箱即用的超现代、高性能的网络
蓝耘存储具有轻松访问和扩展适用工作负载的存储解决方案

存储

轻松访问和扩展适用于您的工作负载的存储
解决方案

蓝耘 Cloud Storage Volumes基于Ceph构建,Ceph是一款为企业提供可扩
展性支持的开源软件。我们的存储解决方案可轻松提供机器学习模型,可以
从多种存储后端(包括S3兼容对象存储、HTTP和蓝耘存储卷)获取。


从上到下节省推理成本

从优化的GPU使用和自动扩展到合理的资源定价,我们设计了能够针对您的工作负载实现经济高效的解决方案。
此外,您可以根据部署需求灵活配置实例。




裸金属速度和性能

我们直接在裸金属上运行Kubernetes,减少了额外的开销,提供更高的速度。

成本节约的扩展

在几秒钟内启动数千个GPU,并在空闲时间进行零扩展,既不消耗资源也不产生费用。

入口、出口或API调用均无费用

只需为您使用的资源付费,并选择能够使您以经济有效的方式运行的解决方案。

准备好开始了吗?