MiniMax 模型

Vertex AI 上的 MiniMax 模型以 API 形式提供全托管式无服务器模型。如需使用 Vertex AI 上的 MiniMax 模型,请直接向 Vertex AI API 端点发送请求。由于 MiniMax 模型使用托管式 API,因此无需预配或管理基础设施。

您可以流式传��回答,以降低最终用户对延迟时间的感知度。流式回答使用服务器发送的事件 (SSE) 来逐步流式传输回答。

可用的 MiniMax 模型

MiniMax 提供了以下模型,可在 Vertex AI 中使用。如需访问 MiniMax 模型,请前往其 Model Garden 模型卡片。

MiniMax M2

MiniMax M2 是 MiniMax 的一款模型,专为智能体和代码相关任务而设计。它专为端到端开发工作流而构建,在规划和执行复杂的工具调用任务方面具有强大的能力。该模型经过优化,可在性能、费用和推理速度之间取得平衡。

前往 MiniMax M2 模型卡片

使用 MiniMax 模型

您可以使用 curl 命令通过以下模型名称向 Vertex AI 端点发送请求:

  • 对于 MiniMax M2,请使用 minimax-m2-maas

如需了解如何对 MiniMax 模型进行流式调用和非流式调用,请参阅调用开放模型 API

MiniMax 模型区域可用性和配额

对于 MiniMax 模型,提供该模型的每个区域都有相应的配额。配额以每分钟查询次数 (QPM) 来指定。

型号 区域 配额 上下文长度 输出上限
MiniMax M2
global endpoint
196,608 4,096

如果要增加 Vertex AI 上的生成式 AI 的任何配额,您可以使用 Google Cloud 控制台申请增加配额。如需详细了解配额,请参阅 Cloud 配额概览

后续步骤