MiniMax 模型

Vertex AI 上的 MiniMax 模型以 API 形式提供全托管式无服务器模型。如需使用 Vertex AI 上的 MiniMax 模型，请直接向 Vertex AI API 端点发送请求。由于 MiniMax 模型使用托管式 API，因此无需预配或管理基础设施。

您可以流式传��回答，以降低最终用户对延迟时间的感知度。流式回答使用服务器发送的事件 (SSE) 来逐步流式传输回答。

可用的 MiniMax 模型

MiniMax 提供了以下模型，可在 Vertex AI 中使用。如需访问 MiniMax 模型，请前往其 Model Garden 模型卡片。

MiniMax M2

MiniMax M2 是 MiniMax 的一款模型，专为智能体和代码相关任务而设计。它专为端到端开发工作流而构建，在规划和执行复杂的工具调用任务方面具有强大的能力。该模型经过优化，可在性能、费用和推理速度之间取得平衡。

前往 MiniMax M2 模型卡片

使用 MiniMax 模型

您可以使用 curl 命令通过以下模型名称向 Vertex AI 端点发送请求：

对于 MiniMax M2，请使用 minimax-m2-maas

如需了解如何对 MiniMax 模型进行流式调用和非流式调用，请参阅调用开放模型 API。

MiniMax 模型区域可用性和配额

对于 MiniMax 模型，提供该模型的每个区域都有相应的配额。配额以每分钟查询次数 (QPM) 来指定。

型号	区域	配额	上下文长度	输出上限
MiniMax M2
MiniMax M2	`global endpoint`		196,608	4,096

如果要增加 Vertex AI 上的生成式 AI 的任何配额，您可以使用 Google Cloud 控制台申请增加配额。如需详细了解配额，请参阅 Cloud 配额概览。

后续步骤

了解如何调用开放模型 API。

如未另行说明，那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可，并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情，请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。

最后更新时间 (UTC)：2025-12-10。