主要讲解hadoop项目中的HDFS和MapReduce模块。分布式文件系统有很多,为什么hadoop中还要在重新开发一个HDFS分布式文件系统呢?听完这门课成您不止能感受到大数据中频繁提到的分而治之、计算向数据移动,并行计算,数据本地化等名词,同时还能通过动手实操验证所有理论知识点。很多初学者被带偏,忽略了HDFS的重要性,这门课是您最需要的大数据入门以及后续提升、面试通过的法典!
MapReduce是早期随hadoop项目的分布式离线计算框架,大多数人都认为现在可以用spark等代替了,但是作为多年参与大数据工作和教学的过来人要告诉你,spark是对mapreduce的扩展,能很好的学习mapreduce,并跟随老师进行源码分析后,你才能真正体会大数据的本质。数据量很大为什么内存不溢出,节点不稳定为什么还能计算成功,排序对计算带来的好处,pipeline计算的真谛,什么是task,stage,job,application,shuffle,iterator等概念让你听后豁然开朗。作为授课老师,我可以向你保证这是最好的一门入门课程,即便对于spark,flink都有很好的学习推动!
[我要扒资料]
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。