andy的文章

第3页

如何解决clion Compiler requires the CUDA toolkit. Please set the CUDAToolkit_ROOT

2025-11-23andy阅读(24)评论(0)

在构建基于 CUDA 的高性能计算或 AI 模型部署项目时，我们经常依赖 CMake 和 CLion 来管理复杂的 C++ 和 CUDA 代码。当 CMake 无法自动定位 CUDA 工具包时，您会遇到以下常见的错误提示： 123456--...

2025-11-23andy阅读(26)评论(0)

在AI模型部署，尤其是涉及到生产环境的HTTPS或gRPC/TLS安全通信时，证书管理是至关重要的一环。许多企业级部署环境（如特定的Kubernetes Ingress Controllers、Java KeyStores或低级网络库）可能...

2025-11-23andy阅读(34)评论(0)

在AI基础设施（AI Infra）领域，模型服务的稳定性和性能直接影响业务成果。传统的系统监控（如CPU负载、内存）已不足以反映用户体验和模型健康状态。本文将聚焦于如何借鉴Google SRE实践中的“黄金指标”（Golden Signal...

2025-11-23andy阅读(36)评论(0)

在AI模型进入生产环境的过程中，版本混乱、元数据丢失和部署流程不规范是常见的挑战。MLflow Model Registry提供了一个集中的存储库，用于管理MLflow Tracking中记录的模型，使其从实验阶段平滑过渡到部署阶段。本文将...

2025-11-22andy阅读(37)评论(0)

在构建基于 Java 的高性能 AI 推理服务时，我们经常需要处理安全通信、数字签名或证书管理等加密任务。如果您的应用依赖于 Bouncy Castle (BC) 库进行复杂的 ASN.1 对象处理（例如解析或生成 PKCS#7 或 X.5...

2025-11-22andy阅读(37)评论(0)

引言：为何需要自动化LLM安全门控随着大型语言模型（LLM）在生产环境中的广泛应用，模型的安全性和对齐性已成为部署流程中的关键环节。传统的手动评估效率低下且覆盖面不足。Aegis 2.0数据集，作为BAAI等机构推出的综合性安全评测基准，...

2025-11-22andy阅读(36)评论(0)

在构建高性能的AI模型部署基础设施时，通常会使用Java或Kotlin等JVM语言作为API网关或推理服务封装层（例如使用Spring Boot或Quarkus）。当这些服务接收到来自前端、数据管道或Python推理内核的JSON或gRPC...

2025-11-22andy阅读(43)评论(0)

引言：IaC驱动的MLOps基石随着AI模型复杂度的提升，对基础设施的弹性和可复制性要求也越来越高。Kubeflow作为Kubernetes上领先的MLOps平台，提供了端到端的机器学习生命周期管理能力。然而，手动部署Kubeflow及其...

2025-11-22andy阅读(32)评论(0)

在高性能计算（HPC）集群或多租户的AI基础设施中，数据科学家通常面临两大挑战：一是确保训练环境的完全可复现性；二是如何在不具备Root权限的情况下，高效、安全地访问NVIDIA GPU资源。Docker和Singularity是常用的解决...

2025-11-21andy阅读(37)评论(0)

深入理解FATE：联邦学习基础设施的核心实践 FATE (Federated AI Technology Enabler) 是由京东/微众银行开源的一套联邦学习框架，旨在实现数据隐私保护下的多方联合建模。对于AI基础设施工程师而言，理解如何...