andy的文章

第38页

K8s 证书过期了怎么办？手把手教你手动更新集群核心组件的有效期

2026-02-08andy阅读(92)评论(0)

Kubernetes集群的证书默认通常具有一年的有效期（通过kubeadm创建的集群）。一旦这些证书过期，集群的核心组件，尤其是API Server，将无法正常通信，导致集群处于不可用状态（例如，kubectl无法连接、节点变为NotRea...

2026-02-08andy阅读(90)评论(0)

在深度学习，尤其是大型语言模型（LLM）的面试中，这是一个非常常见且重要的问题。理解计算瓶颈是优化模型部署和推理速度的关键。对于基于 Transformer 架构的大模型，在推理（Inference）阶段，计算瓶颈确实往往落在存储带宽（Me...

2026-02-08andy阅读(118)评论(0)

对于追求极致纯净和性能的个人站长来说，大部分公有云或VPS服务商提供的官方系统镜像往往集成了大量的监控代理、云服务组件（如cloud-init）以及各种优化工具。这些组件虽然在某些场景下有用，但对于极简配置的网站或需要完全自主控制环境的用户...

2026-02-08andy阅读(100)评论(0)

对于正在从 SQLAlchemy 1.3 或更早版本迁移到 1.4/2.0 的个人站长或技术开发者来说，可能会在使用 case() 表达式构造复杂查询时遇到一个常见的参数错误。这个错误明确指出 whens 参数的用法已发生变化，不再接受一个...

2026-02-08andy阅读(133)评论(0)

简介：为什么批量提交是写入的关键？在Elasticsearch (ES) 中，批量（Bulk）写入是实现高吞吐量数据索引的唯一方法。如果每次只提交一个文档，网络延迟和HTTP/TCP握手开销将导致性能急剧下降。然而，Bulk请求也不是越大...

2026-02-08andy阅读(123)评论(0)

在复杂的云原生环境中，应用故障的排查效率直接决定了系统的可用性。Kubernetes（K8s）提供了强大的工具集，但如何系统地使用它们是关键。本文将介绍一套高效的“线上排障四步走”方法论，即利用 Events、Describe、Logs 和...

2026-02-08andy阅读(130)评论(0)

随着汽车电子电气（E/E）架构向域控制器和区域架构发展，在一个高性能芯片（SoC）上运行多个功能域（如娱乐域、自动驾驶域、动力总成域）成为趋势。这种设计催生了一个关键问题：座舱娱乐系统（通常安全等级较低，如QM或ASIL-B）是否能够访问或...

2026-02-08andy阅读(102)评论(0)

谷歌的张量处理单元（TPU）是专为加速深度学习工作负载而设计的硬件，尤其擅长处理大规模的矩阵乘法和卷积操作。然而，要充分发挥TPU的性能，我们必须确保计算图能够被高效地编译和分发。在TensorFlow中，这主要通过 tf.distribu...

2026-02-08andy阅读(180)评论(0)

训练大型语言模型（LLM）是计算密集型任务，其成本往往以GPU-Hours（GPU小时数）来衡量。准确估算这一指标，是项目规划和预算控制的关键。本文将基于LLM训练的算力基础公式（Chinchilla Scaling Laws），提供一个实...

2026-02-08andy阅读(109)评论(0)

在现代 MLOps 实践中，模型资产的合规性和可解释性变得越来越重要。无论是为了满足内部审计要求还是遵循外部监管法规（如欧盟的《人工智能法案》），为每个模型版本提供一份详尽的合规文档（通常称为 Model Card）是必不可少的。然而，手动...