Vertex AI 上的 MiniMax 模型以 API 形式提供全托管式无服务器模型。如需使用 Vertex AI 上的 MiniMax 模型,请直接向 Vertex AI API 端点发送请求。由于 MiniMax 模型使用托管式 API,因此无需预配或管理基础设施。
您可以流式传��回答,以降低最终用户对延迟时间的感知度。流式回答使用服务器发送的事件 (SSE) 来逐步流式传输回答。
可用的 MiniMax 模型
MiniMax 提供了以下模型,可在 Vertex AI 中使用。如需访问 MiniMax 模型,请前往其 Model Garden 模型卡片。
MiniMax M2
MiniMax M2 是 MiniMax 的一款模型,专为智能体和代码相关任务而设计。它专为端到端开发工作流而构建,在规划和执行复杂的工具调用任务方面具有强大的能力。该模型经过优化,可在性能、费用和推理速度之间取得平衡。
使用 MiniMax 模型
您可以使用 curl 命令通过以下模型名称向 Vertex AI 端点发送请求:
- 对于 MiniMax M2,请使用
minimax-m2-maas
如需了解如何对 MiniMax 模型进行流式调用和非流式调用,请参阅调用开放模型 API。
MiniMax 模型区域可用性和配额
对于 MiniMax 模型,提供该模型的每个区域都有相应的配额。配额以每分钟查询次数 (QPM) 来指定。
| 型号 | 区域 | 配额 | 上下文长度 | 输出上限 |
|---|---|---|---|---|
| MiniMax M2 | ||||
global endpoint |
|
196,608 | 4,096 |
如果要增加 Vertex AI 上的生成式 AI 的任何配额,您可以使用 Google Cloud 控制台申请增加配额。如需详细了解配额,请参阅 Cloud 配额概览。
后续步骤
- 了解如何调用开放模型 API。