标签：模型

第8页

为什么大模型推理的 Prefill 阶段是算力受限，而 Decode 阶段却是访存受限？

2026-02-14andy阅读(140)评论(0)

在大型语言模型（LLM）的推理过程中，通常分为两个关键阶段：Prefill（预填充/处理Prompt）阶段和Decode（解码/自回归生成）阶段。这两个阶段对硬件资源的需求截然不同，理解它们的瓶颈对于优化推理性能至关重要。 1. 概念定义：...

2026-02-14andy阅读(136)评论(0)

在车载AI系统中，模型文件（如ONNX, PyTorch JIT, 或TensorFlow Lite文件）是核心知识产权。一旦这些模型文件被恶意攻击者或竞争对手获取并逆向工程，将导致重大的商业损失。为了“防君子也防小人”，我们不仅需要文件系...

2026-02-14andy阅读(102)评论(0)

引言：为什么形式化验证对AI基础设施至关重要随着AI模型被部署到自动驾驶、医疗诊断和关键基础设施管理等安全敏感领域，仅依靠传统的测试集准确率已远远不够。我们必须能够证明模型在面对预期外的输入或对抗性扰动时，仍然能够保持预期的安全属性（例如...

2026-02-13andy阅读(126)评论(0)

Transformer 模型，如 BERT 或其轻量化版本，在自然语言处理任务中表现出色。然而，由于其复杂的矩阵乘法和注意力机制，它们对移动端性能提出了巨大挑战。iPhone 上的神经引擎（ANE）是实现高性能端侧推理的关键，但需要模型以 ...

2026-02-13andy阅读(124)评论(0)

随着大模型（LLM）被集成到车载娱乐和导航系统，语音助手的能力得到了极大的增强。然而，这种能力也带来了新的安全风险：提示词注入（Prompt Injection，PI）。攻击者可能通过精心构造的语音指令，诱骗LLM绕过安全限制，执行非预期操...

2026-02-12andy阅读(115)评论(0)

在高性能计算和深度学习推理领域，我们经常遇到这样的瓶颈：模型计算量不大，但由于由大量细小、串联的计算操作（Kernel）组成，导致整体性能不佳。瓶颈不在于GPU的计算能力（SMs），而在于CPU与驱动层（Driver）频繁通信以发射（Lau...

2026-02-12andy阅读(105)评论(0)

在AI模型部署中，偏见（Bias）和公平性（Fairness）评估往往是脱节的：数据科学家生成报告，然后需要人工审查来决定模型是否安全。要真正将偏见评估结果转化为业务决策，我们需要将其嵌入到持续集成/持续部署（CI/CD）流程中，作为模型发...

2026-02-11andy阅读(108)评论(0)

模型压缩是AI模型在端侧部署和加速推理的关键步骤。在众多压缩技术中，结构化剪枝（尤其是通道剪枝）因其能直接减少参数数量和计算量（FLOPs），成为实现模型体积减半的有效手段。本文将聚焦于如何结合L1稀疏化训练和通道剪枝，在PyTorch框架...

2026-02-11andy阅读(143)评论(0)

如何解决模型PTQ后在端侧精度断崖式下跌的问题：详解PTQ与QAT量化技术随着AI模型部署到手机、IoT设备等端侧硬件的需求日益增加，模型量化（Quantization）成为了提升推理速度和减少内存占用的关键技术。然而，许多开发者发现，在...

2026-02-11andy阅读(133)评论(0)

在脱离了熟悉的 CUDA 生态后，针对华为昇腾（Ascend）硬件进行深度学习模型推理性能优化，是许多开发者需要面临的挑战。昇腾平台的核心是 CANN（Compute Architecture for Neural Networks）工具链...