标签：数据

第2页

如何利用DVC/Git LFS管理TB级数据和模型，实现版本控制？

2026-02-15andy阅读(122)评论(0)

在现代 AI 项目中，数据和模型的规模正迅速膨胀至 TB 甚至 PB 级别。传统的版本控制系统（如 Git）专为源代码设计，无法有效处理如此庞大的二进制文件。将大型文件直接提交到 Git 仓库会导致仓库膨胀、克隆缓慢，并很快触及存储限制。 ...

2026-02-13andy阅读(131)评论(0)

在个人站长的数据保护策略中，无论是选择将数据推送到异地云盘（如Google Drive, OneDrive），还是通过脚本从主服务器拉取数据到另一台机器，目标都是实现异地冗余备份。然而，对于大多数预算有限的站长而言，使用 Rclone 配合...

2026-02-11andy阅读(114)评论(0)

作为Elasticsearch（ES）的资深用户，我们深知数据的删除操作并非简单的“一删了之”。标准的物理删除操作会在ES内部留下“tombstone”（删除标记），这些标记只有在后续的段合并（Segment Merge）过程中才会被清理，...

2026-02-10andy阅读(181)评论(0)

在医疗健康领域，AI模型的部署面临比通用AI更严格的挑战，主要是围绕《健康保险流通与责任法案》（HIPAA）、《通用数据保护条例》（GDPR）等合规性要求。核心在于：如何确保病人数据的隐私性（Privacy），同时维护诊断模型结果的可审计性...

2026-02-04andy阅读(227)评论(0)

在现代的AI基础设施中，模型训练和部署是一个高度迭代的过程。如果无法精确地追溯“哪个模型使用了哪份数据”以及“该数据在哪个时间点经过了哪个预处理脚本”，那么当模型表现下降时，排查问题将变得异常困难。实现数据和模型日志的完整可追溯性（Data...

2026-01-31andy阅读(156)评论(0)

在训练大规模深度学习模型（特别是LLMs）时，单块GPU的计算能力和内存往往无法满足需求。分布式训练是解决这一问题的核心手段。面试中，区分数据并行（DP）、模型并行（MP/TP）和流水线并行（PP）及其切分依据，是考察候选人分布式系统理解能...

2026-01-30andy阅读(112)评论(0)

作为处理大规模日志或时序数据的核心技术，Elasticsearch集群的存储成本和查询性能是需要持续优化的矛盾点。分层存储架构（Hot-Warm-Cold/Frozen）是解决这一问题的标准方案，它允许我们将最新、访问频率高的数据存储在高性...

2026-01-22andy阅读(121)评论(0)

概述：AI训练数据中的“被遗忘权”挑战 GDPR（通用数据保护条例）赋予了用户“被遗忘权”（Right to be Forgotten, RtBF），要求企业在用户请求时永久删除其个人数据。在传统的数据库系统中，这相对简单。然而，在AI基础...

2025-12-25andy阅读(173)评论(0)

在智能制造和工业物联网（IIoT）环境中，传感器数据的完整性至关重要。恶意行为者，无论是内部还是外部，都可能通过注入伪造数据来操纵生产决策、引发设备故障或破坏产品质量。由于传统网络安全手段难以深入到数据有效载荷的语义层面，我们需要一种专注于...

2025-12-21andy阅读(325)评论(0)

1. 背景：表格结构化数据攻击的挑战传统的对抗攻击研究主要集中在图像和自然语言处理领域。然而，在金融风控、医疗诊断和商业决策等场景中，表格结构化数据上的AI模型扮演着核心角色。针对这类数据的攻击更具挑战性，因为：特征约束（Feature...