标签：技巧

怎样利用Prompt Engineering的高级技巧增强Agent的鲁棒性？

2026-03-23andy阅读(36)评论(0)

如何通过高级提示工程（Prompt Engineering）技巧显著增强AI Agent的鲁棒性？在构建基于大语言模型（LLM）的AI Agent时，最常见的痛点是“输出不可控”。无论是一个简单的SQL生成Agent还是复杂的自动化工作流...

2026-03-18andy阅读(60)评论(0)

如何通过算子融合减少解量化开销：详解在移动端将 Dequant 与 MatMul 合并的技巧在移动端部署深度学习模型时，为了追求极致的推理速度和更小的模型体积，INT8 量化几乎是标配。然而，很多开发者在实际部署时发现，虽然权重变成了 I...

2026-03-17andy阅读(78)评论(0)

如何优化大模型首词延迟：详解预填充阶段的量化加速技巧在大语言模型（LLM）的部署实践中，首词延迟（Time to First Token, TTFT）是影响用户交互体验的核心指标。当用户输入较长的 Prompt 时，模型需要经历一个漫长的...

2026-03-12andy阅读(73)评论(0)

如何解决安卓多模型部署时的显存瓶颈：详解权重复用与Backbone共享技巧在安卓移动端部署 AI 能力时，开发者常面临「内存焦虑」。当你需要在一个 App 中同时运行人脸检测、五官定位和属性识别时，如果每个模型都包含独立的骨干网络（Bac...

2026-02-13andy阅读(125)评论(0)

在 Kubernetes (K8s) 环境中，应用的部署速度和弹性与容器镜像的体积息息相关。镜像体积越大，Kubelet 拉取（Pull）镜像所需的时间越长，尤其是在节点首次启动或冷启动时，这可能导致应用启动延迟，影响用户体验和HPA（Ho...

2026-02-01andy阅读(200)评论(0)

在软件开发过程中，我们经常会遇到需要暂停当前工作去处理紧急问题（如生产环境 Bug）或者切换到另一个分支进行验证的情况。如果此时工作区存在尚未完成的代码修改，我们通常不希望提交一个“半成品”的 Commit。这时，git stash 就是解...

2026-01-31andy阅读(174)评论(0)

在深度学习训练和推理过程中，我们经常会发现 GPU 使用率不高，或者训练速度远低于预期。这往往不是 GPU 计算慢，而是因为数据加载和预处理（Data I/O）成为了瓶颈，导致 GPU 必须等待 CPU 准备好下一批数据。这种等待被称为“数...