Spark3.x

2024/4/11 18:47:54

Spark性能优化实战总结

1、成本考虑 重要且紧急的,优先级高重要不紧急,等人力空闲再优化 2、优化方向 2.1、参数优化(优先) 2.1.1 读取相关 // 使用scan hive方式读取hive表时,调小maxsize,可增大读取的task任务数 spark.had…

Spark Sql 转换成Task执行 和 InsertIntoHiveTable写入hive表数据 源码分析

1.3.1 InsertIntoHiveTable类源码解析 1.3.1.1 背景 读取数据,经过处理后,最终写入 hive表,这里研究下写入原理。抛出如下几个问题? 1、task处理完数据后,如何将数据放到表的location目录下? 2、这类写入…