人工智能和大数据

第27页

怎样为自动驾驶AI部署符合ISO 26262标准的开发流程？

2026-02-10andy阅读(94)评论(0)

引言：ISO 26262对AI部署的挑战自动驾驶系统的核心软件——感知、决策、控制模型——通常要求达到最高的汽车安全完整性等级（ASIL D）。ISO 26262标准要求硬件和软件的开发生命周期必须具备严格的可追溯性（Traceabili...

2026-02-10andy阅读(97)评论(0)

在推荐系统的召回层，我们需要快速地从海量物料中找出与用户画像或查询物品最相似的K个结果。但仅仅依赖向量相似度往往不够，我们还需要结合业务需求进行过滤，例如只召回特定品类、特定库存状态的商品。由于 Faiss 自身不提供复杂的SQL式元数据过...

2026-02-10andy阅读(99)评论(0)

在TensorFlow 2.x时代，我们广泛使用@tf.function来将Python函数编译成高效的TensorFlow计算图（Graph）。然而，当我们在这些被编译的函数内部尝试使用标准的Python print()函数来查看张量数值...

2026-02-10andy阅读(80)评论(0)

在高性能计算领域，特别是深度学习推理和训练中，最大限度地利用硬件（如GPU或TPU）的计算能力至关重要。TensorFlow通过集成XLA（Accelerated Linear Algebra，加速线性代数）编译器来实现这一目标。然而，全局...

2026-02-10andy阅读(139)评论(0)

TensorFlow Serving (TFS) 是生产环境中部署模型的标准工具。在AI应用迭代速度极快的今天，如何在不中断服务的情况下更新模型（模型热更新，或零停机切换）成为了关键挑战。TFS通过其内置的模型版本管理机制，完美地解决了这个...

2026-02-10andy阅读(162)评论(0)

在深度学习模型优化，尤其是移动端（如高通Adreno NPU、华为Ascend NPU等）部署时，我们通常认为1×1卷积（点卷积）由于其极少的浮点运算量（FLOPs）理应比3×3卷积快得多。然而，在实际的NPU性能测试中...

2026-02-10andy阅读(156)评论(0)

在医疗健康领域，AI模型的部署面临比通用AI更严格的挑战，主要是围绕《健康保险流通与责任法案》（HIPAA）、《通用数据保护条例》（GDPR）等合规性要求。核心在于：如何确保病人数据的隐私性（Privacy），同时维护诊断模型结果的可审计性...

2026-02-09andy阅读(147)评论(0)

在大规模数据中心集群中，网络拓扑通常采用多级架构（如Fat-Tree或Spine-Leaf），跨越不同交换机（尤其是跨越核心交换机）的通信，相比同一交换机下的通信，往往具有更高的延迟和更大的带宽开销。对于需要高频、低延迟通信的应用（如分布式...

2026-02-09andy阅读(79)评论(0)

Megatron-LM是由NVIDIA开发的一套用于训练超大规模语言模型的框架。随着模型参数量突破万亿级别，任何单一的并行技术都难以高效地在有限的硬件资源上完成训练。Megatron-LM通过巧妙地结合三种主要的并行策略——张量并行（Ten...

2026-02-09andy阅读(85)评论(0)

作为一名资深搜索工程师，我们深知 Elasticsearch（ES）集群的稳定性至关重要。内存溢出（OOM）是导致 ES 节点崩溃的常见原因，通常由代价高昂的查询、大型聚合或加载过多字段数据引起。ES 的 Circuit Breaker（熔...