本课程主要包括三个部分:
1. 总结flink的基本原理。引导学生理解和掌握flink使用过程中设计的基本概念和简要API,介绍大数据实时流计算相关生态系统,重点梳理flink上下游系统,掌握flink的核心技术原理,建立大数据实时流计算的方法思维。
2. Flink实用生产技术。从实战出发,系统介绍Flink实时流计算的实用技术,如实时流计算业务场景分析、基本编程模型、高级特性等,使学生具备开发Flink实时流计算相关应用的基本能力。
3. Druid是一种支持实时数据写入、低延迟、高性能的OLAP引擎,具有优秀的数据聚合能力和实时查询能力。在大数据分析、实时计算、监控等领域都有特定的应用场景,是大数据基础设施建设的重要组成部分。本课程将介绍Druid的核心特征和原理,以及性能调整和最佳实践经验。
资源目录:
第一课: Flink的基本概念和部署
1. Flink 简介
2. 编程模型
3. 运行时概念
4. 应用部署和原理
a. 部署模式
b. On-Yarn 启动设置及原理
c. Job 启动设置及原理
第二课: DataStream
1. Datastreamcontext环境
2. 数据源(DataSource)
3. 转化(Transformation)
4. 数据Sink
第三课:Window & Time
1. Window介绍
a. 为什么Windoww?
b. Window类型
2. Window 使用API
a. Window的三个组件
b. Time&watermark
c. 时间语义
d. 解决WaterMark问题
e. 正确设置和理解Allowlateness
f. Window使用Sideoutput
3. Window的内部实现原理
a. Window的处理过程
b. Window中的状态存储
4. Window在生产环境中遇到的一些问题
第四课: Connector
1. 基本上Connectorr
2. Source自定义 与 Sink
3. Kafka-connecotor
a. Kafka 简介
b. Kafka Consumer 与Sink 正确使用
c. Kafka-Connector 内部机制和实现原则
第五课: 状态管理与恢复机制
1. 基本概念
2. KeyState 基本类型和用法
a. ValueState
b. ListState
c. ReduceState
d. FoldState
e. AggregatingState
3. Operatorstate基本用法
4. Checkpoint
a. 概念
b. 开启checkpoint
c. 基本原理
第六课: Metrics 与监控
1. Metrics的类型
2. Metrics的获取方式
a. Web Ui
b. Rest API
c. MetricReporter
3. 用户自定义Metric指标
4. 监控诊断:Metric和Druid 实时OLAP联合使用
a. 上报Metric
b. Metric指数聚合
c. Metric的分类和格式定义
5. Druid查询和指标系统
a. Flink作业反压监控
b. Flink作业延迟监控
c. 其他
6. Metric系统的内部实现
7. 生产环境中的案例分析 — 通过该指标来调查应用问题
第七课: 介绍Flink应用案例介绍
1. 数据清洗:map/flatmap等
2. 监控报警系统
a. 数据拉平
b. 基本窗口计算等
3. 在线操作系统
4. 风控系统
第八课: Druid的基本概念和架构设计
1. Druid和OLAP VS Kylin、ES等
2. Druid和指标系统 VS 各种时序数据库
3. Druid特性
4. 基本结构:角色节点和基本责任
a. 角色行为
b. 角色暴露的API
5. 基本结构:外部依赖
a. MySQL数据结构
b. ZK数据结构
c. HDFS数据结构
第九课: Druid数据写入和查询
1. 数据流和存储格式
a. 数据写入流程
b. 存储和索引格式
2. 实时数据写入
a. Firehose
b. Realtime Node
c. Index-Service原理介绍
d. Tranquility原理介绍
e. Kafka-index-service原理
3. 写入离线数据
a. Indexer
b. MR Indexer
4. 查询模式及查询类型介绍
第十课: Druid实践介绍
1. 容错设计
2. 指标监控
a. 基于Graphite构建指标监控系统
b. 重要指标项
3. 运维实践
a. 数据修复
b. 集群升级实践
c. Segment元数据管理
d. JVM调优
c. 资源隔离
[我要扒资料]