人工智能和大数据

第9页

静态离线量化 vs 动态在线量化：在端侧推理时，哪种方案更能降低处理器的功耗开销？

2026-02-15andy阅读(42)评论(0)

在资源受限的端侧设备（如手机、IoT设备）上部署深度学习模型时，模型量化（通常是转换为INT8）是降低延迟和功耗的关键技术。然而，量化方案并非只有一种。本文将对比静态离线量化（Static Post-Training Quantizatio...

2026-02-15andy阅读(44)评论(0)

别只知道 FlashAttention 的效果好，理解其背后的原理——解决显存带宽瓶颈——对于优化深度学习模型至关重要。标准 Self-Attention 机制在序列长度 $L$ 较大时，其性能瓶颈并非是计算量（FLOPs），而是显存的读写...

2026-02-15andy阅读(50)评论(0)

移动端AI应用面临一个常见的挑战：模型迭代速度远快于App发版周期。每次微小的模型优化都需要用户下载新的App包，这极大降低了模型部署的效率和灵活性。本文将详细介绍如何在Android和iOS设备上，通过模型热更新机制，实现在不重新发布Ap...

2026-02-15andy阅读(40)评论(0)

作为架构师，支撑百万级的并发长文本（如大模型推理）请求，同时保证低延时，是一个极具挑战性的任务。长文本推理的挑战在于：推理时间长（Token生成速度慢），且显存消耗大（KV Cache占用）。纯粹的增加服务器并不能解决根本问题，我们需要一套...

2026-02-15andy阅读(48)评论(0)

如何使用TFX Data Validation (TFDV)确保AI训练管道的数据质量和一致性在MLOps实践中，模型性能的衰退往往不是因为模型算法本身，而是因为数据质量或分布发生变化（数据漂移或模式偏差）。“脏数据”进入训练管道是致命的...

2026-02-15andy阅读(40)评论(0)

在 AI 模型部署到端侧设备或采用异构 CPU 架构（如 ARM big.LITTLE 或 Intel P/E 核设计）的服务器时，我们经常面临一个挑战：推理延迟（Latency）的抖动（Jitter）过大，导致 P99 延迟性能不佳。这是...

2026-02-15andy阅读(44)评论(0)

在 Android 端侧推理项目中，我们通常需要集成各种高性能计算库（如 TNN, MNN, NCNN 或 TensorFlow Lite的自定义 Delegate），这些库都以 .so 动态链接库的形式提供。管理这些 .so 文件面临两大...

2026-02-15andy阅读(46)评论(0)

在移动端进行AI推理时，显存（通常是共享内存DRAM或专用的VRAM）往往是瓶颈。对于参数量较大的模型（如轻量级LLM或大型CV模型），其激活值和中间计算结果可能会瞬间占用数百兆甚至超过1GB的内存。本文将聚焦于推理引擎中最关键的优化技术之...

2026-02-15andy阅读(82)评论(0)

vLLM（Virtual Large Language Model）框架凭借其创新的内存管理技术 PagedAttention，极大地提升了LLM推理的吞吐量和效率。PagedAttention借鉴了传统操作系统中的虚拟内存和分页思想，核心...

2026-02-15andy阅读(57)评论(0)

在现代 AI 项目中，数据和模型的规模正迅速膨胀至 TB 甚至 PB 级别。传统的版本控制系统（如 Git）专为源代码设计，无法有效处理如此庞大的二进制文件。将大型文件直接提交到 Git 仓库会导致仓库膨胀、克隆缓慢，并很快触及存储限制。 ...