目前,Spark已成为分布式数据处理技术的事实标准,并逐渐成为主要互联网公司的标准。Spark开发是数据领域任何工程师的必要技能;如果你想进入一家大工厂,你必须有丰富的Spark性能调整经验。
但现实是,我们很容易快速开发应用程序,但我们总是找不到掌握应用程序执行性能的线索,例如:
为什么我使用RDD//DataFrame Cache,性能更差?
为什么网上吹得神奇的调优手段到了我这里就不好用了?
并行度也不低,为什么我的CPU利用率还是上不去?
几乎所有的节点内存都交给了Spark。为什么我的应用还是OOM?
为此,我们特别邀请了吴磊先生,他根据自己多年的数据处理经验,梳理了一套关于性能优化的方法,帮助您有效加速 Spark 在执行性能的同时,也建立了以性能为导向的发展习惯。
此外,他还将教你如何创建一个分布式应用程序,带你从不同的角度洞察汽油车彩票的趋势和方向,这样你就可以有一个“定性的飞跃”来控制性能调整技能和想法。
你将获得
深入浅出的 Spark 核心原理
全面解析 Spark SQL 性能调优
应用开发、配置项设置实际操作指南
手拉手实现分布式应用
文件目录
开篇词 Spark性能调优,你应该掌握这些“套路”.mp3
开篇词 Spark性能调优,你应该掌握这些“套路”.pdf
01 性能调优的必要性:Spark本身就很快,为什么我还需要调优?.mp3
01 性能调优的必要性:Spark本身就很快,为什么我还需要调优?.pdf
02 性能调优的本质:调优的手段多种多样,从哪里入手?.mp3
02 性能调优的本质:调优的手段多种多样,从哪里入手?.pdf
03 RDD:为什么要理解弹性分布式数据集?.mp3
03 RDD:为什么要理解弹性分布式数据集?.pdf
04 DAG和流水线:什么是“内存计算”?.pdf
04 DAG和流水线:什么是“内存计算”?.mp3
05 调度系统:“数据不动代码动”到底是什么意思?.mp3
05 调度系统:“数据不动代码动”到底是什么意思?.pdf
06 存储系统:空间换时间,还是时间换空间?.mp3
06 存储系统:空间换时间,还是时间换空间?.pdf
07 内存管理基础:Spark如何有效利用有限的内存空间?.pdf
07 内存管理基础:Spark如何有效利用有限的内存空间?.mp3
08 应用开发三个原则:如何拓展自己的开发边界?.mp3
08 应用开发三个原则:如何拓展自己的开发边界?.pdf
[我要扒资料]