标签：原生

车载 NPU 的国产化替代：在没有原生 Profiler 的情况下，你如何定位黑盒算子的耗时分布？

2026-02-17andy阅读(107)评论(0)

随着汽车智能化进程的加速，国产化NPU（神经网络处理器）在车载平台中扮演着越来越重要的角色。然而，许多新兴的国产NPU平台在提供模型部署SDK时，往往缺乏成熟的、细粒度的性能分析工具（Profiler）。当遇到模型推理延迟过高，特别是当延迟...

2026-02-14andy阅读(119)评论(0)

在云原生环境中，尤其是 Kubernetes 集群中，日志管理面临巨大的挑战：容器的短暂生命周期、日志输出的分散性以及对高性能、低延迟的需求。日志的统一收集、存储和分析是保障系统稳定运行和快速排障的关键。本文将聚焦于最流行的云原生日志架构...

2026-02-13andy阅读(142)评论(0)

Sidecar 模式是云原生设计中最具影响力且最常用的模式之一。它允许我们将应用主逻辑与非功能性需求（如监控、日志、安全、服务网格代理）彻底解耦，从而极大地提升了系统的可扩展性和可维护性。什么是 Sidecar 模式？在 Kuberne...

2026-02-08andy阅读(174)评论(0)

在深度学习和高性能计算领域，算子（Kernel）的性能往往是模型推理速度的瓶颈。虽然像 cuBLAS 和 cuDNN 这样的厂商原生库已经高度优化，但它们是通用性的。当面对特定维度、数据类型或计算模式时，通过像 Triton 这样的领域特定...

2026-02-04andy阅读(187)评论(0)

在AI模型部署和推理加速过程中，理解模型内部操作的执行时间至关重要。TensorFlow提供了一套强大的分析工具，其中 tf.summary.trace_on 是捕捉计算图级别性能数据，并利用TensorBoard Profiler进行深度...