Vertex AI 包含一个安全分类器,用于过滤发送给所有托管 Anthropic 模型的请求,这些请求可能包含儿童性虐待内容 (CSAM) 的图片。Vertex AI 的疑似 CSAM 安全分类器与直接随 Anthropic 模型提供的信任与安全 (T&S) 过滤器是分开的。
本文档介绍了可疑 CSAM 安全分类器会过滤请求和响应的哪些部分,以及当分类器阻止请求时会发生什么情况。
安全和内容过滤器可作为屏障,防止有害输出,但不会直接影响模型的行为。如需详细了解模型可操控性,请参阅安全方面的系统说明。
不安全的提示
疑似 CSAM 分类器仅过滤 Vertex AI 中向 Anthropic 模型发出的请求中的图片。疑似 CSAM 分类器不会过滤模型的输出。
触发疑似 CSAM 分类器的请求会被屏蔽,并返回 200 HTTP 状态代码以及以下消息:
{
"promptFeedback": {
"blockReason": "PROHIBTED_CONTENT"
}
}
如果请求被分类器屏蔽,请求流会被取消,并返回以下消息:
"event": "vertex-block-event",
"data": {"promptFeedback": {"blockReason": "PROHIBITED_CONTENT"}}
位置可用性
疑似 CSAM 分类器在所有支持的地区均可使用。