欢迎光临
我们一直在努力

人工智能和大数据

第3页

如何高效使用DPO/PPO等RLHF技术对开源LLM进行安全微调?

andy阅读(22)评论(0)

深入理解DPO:高效RLHF的替代方案 在使用开源大型语言模型(LLMs)时,安全性和伦理对齐是模型部署前必须解决的核心问题。传统上,我们使用基于强化学习的人类反馈(RLHF),例如近端策略优化(PPO)。然而,PPO存在计算资源消耗巨大、...

如何通过“输入扰动”使LLM生成被禁止的毒性内容?

andy阅读(42)评论(0)

如何通过通用对抗性后缀(GCG)分析与防御大型语言模型的越狱攻击 大型语言模型(LLMs)的安全对齐是一个核心挑战。尽管开发者投入了大量精力来对模型进行安全训练和红队测试(Red Teaming),恶意用户仍能通过构造精巧的“输入扰动”来诱...

怎样利用LLM的上下文学习机制进行有针对性的数据提取?

andy阅读(38)评论(0)

引言:为什么ICL是数据提取的利器? 在大规模语言模型(LLM)的部署场景中,一项常见的任务是从非结构化文本(如邮件、合同、日志)中提取特定的、结构化的信息(如姓名、金额、日期)。传统的做法是依赖正则表达式或训练特定的命名实体识别(NER)...

如何设计一个自动化的工具来生成多样化的越狱攻击提示?

andy阅读(50)评论(0)

深入理解自动化越狱提示生成(SAPG) 在将大型语言模型(LLM)部署到生产环境之前,进行严格的安全性和鲁棒性测试是至关重要的。传统的红队测试往往依赖人工构造提示,效率低下且覆盖面不足。为了系统性地评估和增强模型的防御能力,我们需要一个结构...

怎样利用思维链(CoT)机制来绕过LLM的传统安全防护?

andy阅读(57)评论(0)

导言:CoT攻击的本质 随着大型语言模型(LLM)在生产环境中的广泛应用,其安全防护机制(Guardrails)成为了AI基础设施的关键组件。传统的安全防护依赖于输入/输出关键词过滤、敏感主题分类器等。然而,高级Prompt注入技术,特别是...