mllm | 汤不热吧

怎样通过在图片中植入对抗性像素来欺骗多模态LLM的判断？

2026-01-18andy阅读(127)评论(0)

多模态大型语言模型（MLLM），例如GPT-4V或开源的LLaVA，结合了强大的视觉理解和语言生成能力。然而，正如传统的计算机视觉模型一样，MLLM也容易受到“对抗性攻击”的影响。这些攻击通过向图片添加人眼难以察觉的微小扰动（即对抗性像素）...