如何通过 A/B 测试评估移动端模型性能:除了延时外,你还需要关注哪些工程指标
如何通过 A/B 测试评估移动端模型性能:除了延时外,你还需要关注哪些工程指标 在将深度学习模型(如基于 ncnn、mnn 或 TFLite 优化的模型)推向千万量级的移动端用户时,实验室内的 Benchmark 结果往往是“理想化”的。由...
如何通过 A/B 测试评估移动端模型性能:除了延时外,你还需要关注哪些工程指标 在将深度学习模型(如基于 ncnn、mnn 或 TFLite 优化的模型)推向千万量级的移动端用户时,实验室内的 Benchmark 结果往往是“理想化”的。由...
在AI模型部署,尤其是涉及信贷、招聘或司法等高风险场景时,确保模型决策的公平性(Fairness)至关重要。传统的公平性指标(如群体平等机会或统计奇偶性)仅能发现群体偏差,但无法解释模型对特定个体的决策是否公平。 反事实分析(Counter...
随着人工智能(AI)在网络安全领域(如EDR、NIDS、恶意软件检测)的广泛应用,传统的红队测试方法已不足以评估这些系统的真实防御能力。攻击者现在不仅攻击代码或配置,更开始攻击系统背后的“大脑”——机器学习模型。设计针对AI安全产品的红队测...
在自动驾驶(Autonomous Driving)或高级辅助驾驶系统(ADAS)等高动态环境中,AI模型的鲁棒性是系统安全运行的基石。传统的单元测试和集成测试难以覆盖现实世界中无限复杂的“长尾”极端案例(Corner Cases)。要确保系...