标签：参数

详解 Android 系统内核参数调优：如何通过修改调度组（Cgroup）提升 AI 任务的优先级

2026-03-14andy阅读(6)评论(0)

如何通过修改 Cgroup 调度组提升 Android 端侧 AI 推理性能在 Android 端侧部署 AI 模型时，开发者常遇到一个棘手问题：推理任务在实验室测试时速度飞快，但在用户复杂的多任务场景下，推理延迟会剧烈波动。这往往是因为...

2026-03-01andy阅读(49)评论(0)

如何通过 ncnn 算子融合黑魔法减少推理时的内存读写在端侧推理优化中，算力往往不是唯一的瓶颈，内存带宽（Memory Bandwidth）才是。在 ncnn 推理框架中，虽然 ncnnoptimize 工具已经能自动处理大部分算子融合（...

2026-02-23andy阅读(81)评论(0)

如何利用 Optuna 结合 Hyperband 算法实现高效的分布式超参数优化在深度学习模型的开发过程中，超参数搜索（HPO）往往是消耗计算资源最多的环节之一。为了在有限的时间内找到最优参数，我们需要解决两个核心问题：一是搜索算法的高效...

2026-02-23andy阅读(77)评论(0)

如何使用 MLflow 与 Weights & Biases 统一管理数千次实验的超参数与指标在 AI 基础设施建设中，实验追踪（Experiment Tracking）是提升研发效率的核心环。当模型训练规模从几个原型扩展到数千次...

2026-02-15andy阅读(69)评论(0)

在移动端进行AI推理时，显存（通常是共享内存DRAM或专用的VRAM）往往是瓶颈。对于参数量较大的模型（如轻量级LLM或大型CV模型），其激活值和中间计算结果可能会瞬间占用数百兆甚至超过1GB的内存。本文将聚焦于推理引擎中最关键的优化技术之...

2026-02-14andy阅读(83)评论(0)

为什么 VRAM 成为大模型训练的瓶颈？在训练参数量巨大的模型（如 Llama-2 70B）时，即使是顶级的GPU（如A100或H100）也面临着显存（VRAM）不足的问题。一个完整的模型训练状态需要存储以下核心组件：模型参数 (P)：...

2026-02-12andy阅读(78)评论(0)

循环分块（Loop Tiling），也称为循环阻塞（Loop Blocking），是高性能计算中优化内存局部性（Temporal and Spatial Locality）的关键技术。通过将大型计算任务分解为可放入缓存（Cache）的小块，...

2026-02-12andy阅读(126)评论(0)

模型量化（Quantization）是端侧推理加速的关键技术之一，它将浮点数（FP32）权重和激活值转换为低比特整数（如INT8），显著减少了模型大小并提高了计算效率。然而，量化方式的选择——特别是对称量化（Symmetric Quanti...

2026-02-04andy阅读(128)评论(0)

在构建复杂的 Python 框架、Web 框架或依赖注入（DI）系统时，我们经常需要动态地知道一个函数需要哪些参数，并根据这些需求从一个可用的资源池中自动提供相应的参数。Python 标准库中的 inspect 模块正是解决这类问题的利器。...

2026-02-01andy阅读(188)评论(0)

在处理大规模向量搜索时，我们通常需要在搜索速度（延迟）和搜索准确性（召回率）之间做出权衡。Faiss 的 IVF（Inverted File Index）系列索引是实现高性能搜索的关键工具，而 nprobe 参数则是控制这种权衡的核心。本...