选择开放模型服务选项

Vertex AI 提供多种方式来服务开放的大语言模型(包括 Llama、DeepSeek、Mistral 和 Qwen),如 Google Cloud所示。本文档简要介绍了 Vertex AI 提供的开放模型服务,并可帮助您为自己的使用情形选择合适的选项。

服务选项

Vertex AI 提供以下选项来提供开放模型。这些选项均可提供高可用性,并且默认包含 Google Cloud 安全最���实践:

何时使用 MaaS

在以下情况下,请考虑使用 MaaS:

  • 快速开发和原型设计:MaaS 可帮助您快速将 LLM 功能集成到应用中。这对于初始探索、快速原型设计以及快速上市是关键目标的情况尤其有用。
  • 最大限度地减少运营开销:如果您的团队希望专注于应用逻辑,而不是基础设施管理,请选择 MaaS。Google 会处理所有 GPU/TPU 预配、扩缩和维护事宜,这有助于专注于应用开发而非 MLOps 或 DevOps 的团队。
  • 可变流量:按需付费模式支持具有不可预测的突发流量模式的实验性工作负载或应用。
  • 开箱即用:对于需要稳定性能但不需要对底层模型或服务堆栈进行深度自定义的应用,请使用托管式 API。
  • 安全性和合规性:MaaS 可让企业使用 Google Cloud的内置企业级安全和合规性功能。
  • 标准模型使用:如果标准、非自定义的基础模型能够满足您的需求,请使用 MaaS。

何时使用 Model Garden 中的自行部署模型

自行部署选项包括使用预构建或自定义容器从 Model Garden 进行部署。在以下关键场景中,请考虑自行部署:

  • 自定义权重和微调模型:如果您的应用需要使用自定义权重或模型的微调版本,那么自行部署是最佳选择,因为这样可以更灵活地部署根据您的特定需求量身定制的模型。您还可以构建和部署自己的自定义服务容器。例如,当模型需要独特的预处理���后处理逻辑时,请使用此选项。
  • 可预测的大容量工作负载:对于流量可预测且流量大的生产应用,自行部署是一种经济高效的战略性选择。虽然这需要更大的前期工程投资,但由于大规模优化了每个令牌的成本,因此在应用的整个生命周期内,总拥有成本 (TCO) 可能会更低。
  • 对基础架构进行精细控制:如果您需要通过选择特定的硬件配置来微调性能和预算,请使用自行部署。这包括选择确切的机器类��、GPU(例如 NVIDIA L4 或 H100)或 TPU,以及优化的部署框架。
  • 严格的安全性和合规性:此方法支持必须遵守特定数据驻留政策或禁止使用多租户托管服务的严格法规的应用。借助该功能,您可以在自己的 Google Cloud 项目和 Virtual Private Cloud 网络中安全地部署模型,从而全面掌控数据路径。
  • 对位置进行精细控制:借助专用端点,您可以将模型部署到 Google Cloud 所有区域中的任何 Compute Engine 加速器上。

何时使用预构建容器

在以下情况下,请考虑使用 Vertex AI 预构建容器:

  • 优化性能:Vertex AI 针对 vLLM 等框架优化和自定义预构建容器,以增强 Google Cloud中的性能、可靠性和无缝集成。
  • 易于使用:使用 vLLM、Hex-LLM、SGLang、TGI 或 TensorRT-LLM 等热门服务框架来提供模型,而无需构建和维护自己的容器映像。

何时使用自定义 vLLM 容器

在以下场景中,请考虑构建并使用您自己的自定义容器:

  • 灵活性最高:当现有服务选项和预构建容器无法满足您的需求,并且您需要完全控制容器映像(包括依赖项和配置)时,请选择此选项。
  • 自定义服务逻辑:当您的模型需要预构建容器不支持的独特预处理或后处理步骤时。

后续步骤