怎样为LLM生成结果集成不确定性(Uncertainty)指标?
如何在推理服务中为 LLM 生成结果集成不确定性度量? 在生产环境中部署大语言模型(LLM)时,模型生成的“幻觉”(Hallucination)是影响业务落地的核心挑战。为了提升系统的可靠性,在 AI Infra 层面集成不确定性(Unce...
如何在推理服务中为 LLM 生成结果集成不确定性度量? 在生产环境中部署大语言模型(LLM)时,模型生成的“幻觉”(Hallucination)是影响业务落地的核心挑战。为了提升系统的可靠性,在 AI Infra 层面集成不确定性(Unce...
如何使用 MLflow 与 Weights & Biases 统一管理数千次实验的超参数与指标 在 AI 基础设施建设中,实验追踪(Experiment Tracking)是提升研发效率的核心环。当模型训练规模从几个原型扩展到数千次...
如何通过 A/B 测试评估移动端模型性能:除了延时外,你还需要关注哪些工程指标 在将深度学习模型(如基于 ncnn、mnn 或 TFLite 优化的模型)推向千万量级的移动端用户时,实验室内的 Benchmark 结果往往是“理想化”的。由...
在现代MLOps实践中,模型性能监控(如准确率、延迟、数据漂移)已成为标配。然而,仅仅知道模型表现不好是不够的,我们更需要知道为什么。这时,模型可解释性(Explainable AI, XAI)的持续监控就显得尤为重要。 本文将深入探讨如何...