Hadoop是Apache软件基金会旗下的开源分布式计算平台。Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)和(Google 以Mapreduce为核心的开源实现)
Hadoop为用户提供了透明的分布式基础设施,具有系统底部细节。HDFS的高容错性和高伸缩性允许用户在低成本部署Hadoop(low-cost)在硬件上形成分布式系统;
Mapreduce分布式编程模型允许用户在不了解分布式系统底部细节的情况下并发应用程序。因此,用户可以利用集群的Hadoop轻松组织计算机资源,
建立自己的分布式计算平台,并能充分利用集群的计算和存储能力,完成海量数据的处理。
Hadoop是一个可以编写和运行分布式应用程序来处理大规模数据的开源框架。分布式计算是一个广泛而不断变化的领域。
方便:Hadoop在一般商用机器或EC2等云计算服务等大型集群上运行。
强:Hadoop致力于在一般商业硬件上运行,其架构假设硬件会频繁失效,Hadoop可以从容处理大多数此类故障。
可扩展:Hadoop可以通过增加集群节点线性扩展来处理更大的数据集。
简单:Hadop允许用户快速编写高效的并行代码。
HDFS和MapReduce是Hadoop框架的核心。其中之一 HDFS 是分布式文件系统,MapReduce 是分布式数据处理模型和执行环境。掌握了这两部分,就掌握了Hadoop的核心。
课程目录
课时1Hadoop起源介绍介绍.mp4
2Hadoop生态系介绍.mp4
3Hadoop基本组件介绍.mp4
4Hadoop组成框架介绍.mp4
5Hadoop安装.mp4
课时6Eclipse环境.mp4
介绍7HDFS组件和备份机制,介绍读写文件的流程。.mp4
8Shell命令介绍课程.mp4
9HDFS课时 Java API介绍(1).mp4
上课时间10HDFS Java API介绍(2).mp4
11HDFS新特性介绍.mp4
在YARN框架上介绍12个YARN组件和job执行流程.mp4
课时13MR编程模型总介绍.mp4
14Shuffle阶段Map端执行流程介绍.mp4
Reduce端执行流程介绍15Shuffle阶段.mp4
课时16WordCount案例总介绍.mp4
17Mapreduce中的数据类型介绍.mp4
编写课时18MR中的自定义数据类型.mp4
课时19案例介绍及类别编写.mp4
20Shufle组件Partioner自定义介绍.mp4
21Shufle组件Combiner和Grouping自定义介绍.mp4
实现课时22次排序.mp4
23顺序MR组合任务介绍.mp4
课时24依赖关系组合MR任务介绍.mp4
25链式MR任务介绍.mp4
26MapSideJoin介绍.mp4
27ReduceSideJoin介绍.mp4
课时28半连接介绍.mp4
课时29倒排索引.mp4
[我要扒资料]