Vertex AI 中 Claude 的安全分类器

Vertex AI 包含一个安全分类器，用于过滤发送给所有托管 Anthropic 模型的请求，这些请求可能包含儿童性虐待内容 (CSAM) 的图片。Vertex AI 的疑似 CSAM 安全分类器与直接随 Anthropic 模型提供的信任与安全 (T&S) 过滤器是分开的。

本文档介绍了可疑 CSAM 安全分类器会过滤请求和响应的哪些部分，以及当分类器阻止请求时会发生什么情况。

安全和内容过滤器可作为屏障，防止有害输出，但不会直接影响模型的行为。如需详细了解模型可操控性，请参阅安全方面的系统说明。

不安全的提示

疑似 CSAM 分类器仅过滤 Vertex AI 中向 Anthropic 模型发出的请求中的图片。疑似 CSAM 分类器不会过滤模型的输出。

触发疑似 CSAM 分类器的请求会被屏蔽，并返回 200 HTTP 状态代码以及以下消息：

{
  "promptFeedback": {
    "blockReason": "PROHIBTED_CONTENT"
  }
}

如果请求被分类器屏蔽，请求流会被取消，并返回以下消息：

"event": "vertex-block-event",
"data": {"promptFeedback": {"blockReason": "PROHIBITED_CONTENT"}}

疑似 CSAM 分类器在所有支持的地区均可使用。