本课程主要包括三个部分:

1. 总结flink的基本原理。引导学生理解和掌握flink使用过程中设计的基本概念和简要API,介绍大数据实时流计算相关生态系统,重点梳理flink上下游系统,掌握flink的核心技术原理,建立大数据实时流计算的方法思维。

2. Flink实用生产技术。从实战出发,系统介绍Flink实时流计算的实用技术,如实时流计算业务场景分析、基本编程模型、高级特性等,使学生具备开发Flink实时流计算相关应用的基本能力。

3. Druid是一种支持实时数据写入、低延迟、高性能的OLAP引擎,具有优秀的数据聚合能力和实时查询能力。在大数据分析、实时计算、监控等领域都有特定的应用场景,是大数据基础设施建设的重要组成部分。本课程将介绍Druid的核心特征和原理,以及性能调整和最佳实践经验。

资源目录:

第一课: Flink的基本概念和部署

1. Flink 简介

2. 编程模型

3. 运行时概念

4. 应用部署和原理

a. 部署模式

b. On-Yarn 启动设置及原理

c. Job 启动设置及原理

第二课: DataStream

1. Datastreamcontext环境

2. 数据源(DataSource)

  3. 转化(Transformation)

4. 数据Sink

第三课:Window & Time

    1. Window介绍

a. 为什么Windoww?

b. Window类型

2. Window 使用API

a. Window的三个组件

b. Time&watermark

c. 时间语义

d. 解决WaterMark问题

e. 正确设置和理解Allowlateness

f. Window使用Sideoutput

3. Window的内部实现原理

a. Window的处理过程

b. Window中的状态存储

4. Window在生产环境中遇到的一些问题

第四课: Connector

1. 基本上Connectorr

2. Source自定义 与 Sink

3. Kafka-connecotor

a. Kafka 简介

b. Kafka Consumer 与Sink 正确使用

c. Kafka-Connector 内部机制和实现原则

第五课: 状态管理与恢复机制

1. 基本概念

    2.  KeyState 基本类型和用法

a.  ValueState

b.  ListState

c.  ReduceState

d.  FoldState

e.  AggregatingState

3.  Operatorstate基本用法

4.  Checkpoint

         a.  概念

    b. 开启checkpoint

        c.  基本原理

第六课: Metrics 与监控

1.  Metrics的类型

2.  Metrics的获取方式

a. Web Ui

b. Rest API

c. MetricReporter

3.  用户自定义Metric指标

4.  监控诊断:Metric和Druid 实时OLAP联合使用

a. 上报Metric

b. Metric指数聚合

c. Metric的分类和格式定义

5. Druid查询和指标系统

a. Flink作业反压监控

b. Flink作业延迟监控

c. 其他

6. Metric系统的内部实现

7. 生产环境中的案例分析 — 通过该指标来调查应用问题

第七课: 介绍Flink应用案例介绍

1. 数据清洗:map/flatmap等

2. 监控报警系统

a. 数据拉平

b. 基本窗口计算等

3. 在线操作系统

4. 风控系统

第八课: Druid的基本概念和架构设计

1. Druid和OLAP VS Kylin、ES等

2. Druid和指标系统 VS 各种时序数据库

3. Druid特性

4. 基本结构:角色节点和基本责任

a.  角色行为

b. 角色暴露的API

5. 基本结构:外部依赖

a. MySQL数据结构

b. ZK数据结构

c. HDFS数据结构

第九课: Druid数据写入和查询

1. 数据流和存储格式

a. 数据写入流程

b. 存储和索引格式

2. 实时数据写入

a. Firehose

b. Realtime Node

c. Index-Service原理介绍

d. Tranquility原理介绍

e. Kafka-index-service原理

3. 写入离线数据

a. Indexer

b. MR Indexer

4. 查询模式及查询类型介绍

第十课: Druid实践介绍

  1. 容错设计

2. 指标监控

  a. 基于Graphite构建指标监控系统

b. 重要指标项

3. 运维实践

a. 数据修复

b. 集群升级实践

c. Segment元数据管理

d. JVM调优

c. 资源隔离

 

[我要扒资料]

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。