标签：spark

Spark 自适应查询执行 AQE 原理与生产实战：动态优化提升 Spark SQL 性能

2026-07-20andy阅读(21)

引言：为什么需要自适应查询执行？在 Apache Spark 的早期版本中，SQL 查询的性能高度依赖于开发人员对数据的了解程度和手动调优经验。一个常见的场景是：开发者在开发环境设定了一个合理的 shuffle 分区数（如 200），但到...

2026-07-15andy阅读(43)

引言：数据读写是Spark性能的”隐形瓶颈” 在Spark生产环境中，许多开发者把精力集中在内存调优、Shuffle优化和并行度设置上，却往往忽视了一个关键环节——数据读写。事实上，根据业界对多个Spark生产集群的...

2026-07-09andy阅读(44)

数据倾斜（Data Skew）是 Spark 生产环境中遇到的最棘手的性能问题之一。当某个分区的数据量远大于其他分区时，整个作业的执行时间会被这个慢任务拉长，导致集群资源利用率低下，甚至引发 OOM 异常。本文将深入剖析数据倾斜的底层原理，...

2026-07-04andy阅读(67)

引言：数据架构的演进之路大数据技术在过去十年经历了飞速的演进，从最初的Hadoop HDFS + MapReduce批处理架构，到Spark带来的内存计算革命，再到数据湖（Data Lake）概念的兴起，每一步都推动着数据处理能力的边界不...

2026-06-29andy阅读(78)

前言：为什么Spark内存管理至关重要 Apache Spark 作为大数据处理领域的事实标准框架，其核心优势之一就是基于内存的计算模型。相比 Hadoop MapReduce 的磁盘迭代模式，Spark 能够将中间结果保存在内存中，大幅提...

2026-06-25andy阅读(85)

在大数据处理领域，实时流计算已经成为企业数字化转型的核心能力之一。Apache Spark 的 Structured Streaming 模块自 Spark 2.0 引入以来，以其声明式 API、Exactly-Once 语义保证和与批处理...

2026-01-11andy阅读(408)评论(0)

作为站长或运维人员，在使用公有云或自建 VPS 上的大数据环境时，经常需要通过 Spark 进行 ETL 任务，并将结果写入 Hive 数据仓库。这一过程中，最常见的两大障碍是 Metastore 权限连接问题和数据路径冲突。本文将聚焦如...

2018-01-10andy阅读(6034)评论(0)

spark中如何禁用和开启snappy压缩 spark的作用中如果需要从hdfs中读写较大的结果，最好开启snappy压缩，已取得较好的性能。开启或者禁用snappy压缩的方法初始化sparkConf配置 123var conf = n...