标签：moderation

怎样利用Moderation API或自建分类器过滤LLM的毒性输出？

2026-01-04andy阅读(134)评论(0)

如何利用分级审核策略高效过滤LLM的毒性输出？随着大型语言模型（LLM）在生产环境中的广泛应用，确保模型输出的安全性和合规性成为了AI基础设施中的核心挑战。用户可能通过提示注入（Prompt Injection）诱导模型生成仇恨言论、暴力...