推理服务_蓝耘

蓝耘推理服务具有更快的启动时间，更敏捷的自动扩展能力

推理服务

更快的启动时间，更敏捷的

自动扩展能力

随着需求变化，提供更好的推理服务并在成千上万个GPU上实现自动

扩展，以确保您不会被用户增长所压垮。

通过随用户扩展的解决方案更快地提供推理服务

蓝耘推理服务提供了一种现代化的推理运行方式，具有更好的性能和更小的延迟，同时比其他平台更具成本效益。

看看是什么让我们的解决方案与众不同：

传统的技术堆栈

托管云服务

大多数云服务提供商构建了面向通用用例和托管环境的架构，而不是面向计算密集型用例。

虚拟机（VM）托管Kubernetes（K8s），需要通过虚拟化层运行
难以扩展
启动实例可能需要5-10分钟或更长时间

蓝耘的技术堆栈

在云端进行多模式或无服务器的Kubernetes部署

通过Kubernetes部署容器化的工作负载，以增加可移植性、降低复杂性和总体成本。

无虚拟化层，因此Kubernetes直接在裸金属（硬件）上运行
我们利用Kubevirt在Kubernetes容器内托管虚拟机（VM）
易于扩展
在几秒钟内启动新实例

自动缩放

优化GPU资源以提高效率并降低成本

根据需求自动缩放容器以快速满足用户请求，这比依赖于其他云提供商的管理程序

支持实例的缩放要快得多。只要有新的请求进来，即可尽快处理：

小型模型：5秒
GPT-J：10秒
GPT-NeoX：15秒
较大模型：30-60秒

优化GPU资源以提高效率并降低成本

蓝耘无服务器Kubernetes，无需担心正确配置底层框架即可部署模型

无服务器KUBERNETES

无需担心正确配置底层框架即可部署模型

KServe在易于使用的界面上实现了基于Kubernetes的无服务器推理，适用于常见

的机器学习框架，如TensorFlow、XGBoost、scikit-learn、PyTorch和ONNX，以

解决生产模型服务的用例问题。

网络

立即获得开箱即用的超现代、高性能的网络

蓝耘基于Kubernetes的网络设计将功能移至网络基础架构中，因此您可以获得所需

的功能、速度和安全性，而无需管理IP和VLAN。

轻松部署负载均衡服务
通过多个一级供应商以每个节点高达100Gbps的速度访问公共互联网
通过蓝耘虚拟私有云（VPC）获取自定义配置

蓝耘网络具有开箱即用的超现代、高性能的网络

蓝耘存储具有轻松访问和扩展适用工作负载的存储解决方案

存储

轻松访问和扩展适用于您的工作负载的存储

解决方案

蓝耘 Cloud Storage Volumes基于Ceph构建，Ceph是一款为企业提供可扩

展性支持的开源软件。我们的存储解决方案可轻松提供机器学习模型，可以

从多种存储后端（包括S3兼容对象存储、HTTP和蓝耘存储卷）获取。

从上到下节省推理成本

从优化的GPU使用和自动扩展到合理的资源定价，我们设计了能够针对您的工作负载实现经济高效的解决方案。
此外，您可以根据部署需求灵活配置实例。

裸金属速度和性能

我们直接在裸金属上运行Kubernetes，减少了额外的开销，提供更高的速度。

成本节约的扩展

在几秒钟内启动数千个GPU，并在空闲时间进行零扩展，既不消耗资源也不产生费用。

入口、出口或API调用均无费用

只需为您使用的资源付费，并选择能够使您以经济有效的方式运行的解决方案。

准备好开始了吗？