目前,Spark已成为分布式数据处理技术的事实标准,并逐渐成为主要互联网公司的标准。Spark开发是数据领域任何工程师的必要技能;如果你想进入一家大工厂,你必须有丰富的Spark性能调整经验。

但现实是,我们很容易快速开发应用程序,但我们总是找不到掌握应用程序执行性能的线索,例如:

为什么我使用RDD//DataFrame Cache,性能更差?

为什么网上吹得神奇的调优手段到了我这里就不好用了?

并行度也不低,为什么我的CPU利用率还是上不去?

几乎所有的节点内存都交给了Spark。为什么我的应用还是OOM?

为此,我们特别邀请了吴磊先生,他根据自己多年的数据处理经验,梳理了一套关于性能优化的方法,帮助您有效加速 Spark 在执行性能的同时,也建立了以性能为导向的发展习惯。

此外,他还将教你如何创建一个分布式应用程序,带你从不同的角度洞察汽油车彩票的趋势和方向,这样你就可以有一个“定性的飞跃”来控制性能调整技能和想法。

你将获得

深入浅出的 Spark 核心原理

全面解析 Spark SQL 性能调优

应用开发、配置项设置实际操作指南

手拉手实现分布式应用

文件目录

开篇词  Spark性能调优,你应该掌握这些“套路”.mp3

开篇词  Spark性能调优,你应该掌握这些“套路”.pdf

01  性能调优的必要性:Spark本身就很快,为什么我还需要调优?.mp3

01  性能调优的必要性:Spark本身就很快,为什么我还需要调优?.pdf

02  性能调优的本质:调优的手段多种多样,从哪里入手?.mp3

02  性能调优的本质:调优的手段多种多样,从哪里入手?.pdf

03  RDD:为什么要理解弹性分布式数据集?.mp3

03  RDD:为什么要理解弹性分布式数据集?.pdf

04   DAG和流水线:什么是“内存计算”?.pdf

04  DAG和流水线:什么是“内存计算”?.mp3

05  调度系统:“数据不动代码动”到底是什么意思?.mp3

05  调度系统:“数据不动代码动”到底是什么意思?.pdf

06  存储系统:空间换时间,还是时间换空间?.mp3

06  存储系统:空间换时间,还是时间换空间?.pdf

07   内存管理基础:Spark如何有效利用有限的内存空间?.pdf

07  内存管理基础:Spark如何有效利用有限的内存空间?.mp3

08  应用开发三个原则:如何拓展自己的开发边界?.mp3

08 应用开发三个原则:如何拓展自己的开发边界?.pdf

[我要扒资料]

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。