欢迎光临
我们一直在努力

人工智能和大数据

第50页

如何高效使用DPO/PPO等RLHF技术对开源LLM进行安全微调?

andy阅读(156)评论(0)

深入理解DPO:高效RLHF的替代方案 在使用开源大型语言模型(LLMs)时,安全性和伦理对齐是模型部署前必须解决的核心问题。传统上,我们使用基于强化学习的人类反馈(RLHF),例如近端策略优化(PPO)。然而,PPO存在计算资源消耗巨大、...

如何通过“输入扰动”使LLM生成被禁止的毒性内容?

andy阅读(302)评论(0)

如何通过通用对抗性后缀(GCG)分析与防御大型语言模型的越狱攻击 大型语言模型(LLMs)的安全对齐是一个核心挑战。尽管开发者投入了大量精力来对模型进行安全训练和红队测试(Red Teaming),恶意用户仍能通过构造精巧的“输入扰动”来诱...

怎样利用LLM的上下文学习机制进行有针对性的数据提取?

andy阅读(359)评论(0)

引言:为什么ICL是数据提取的利器? 在大规模语言模型(LLM)的部署场景中,一项常见的任务是从非结构化文本(如邮件、合同、日志)中提取特定的、结构化的信息(如姓名、金额、日期)。传统的做法是依赖正则表达式或训练特定的命名实体识别(NER)...