数据和石油一样早就存在了,但在人类开采和使用石油后,它们进入了一个世纪的石油时代;在我们这个时代,数据收集和记录手段变得越来越便宜,挖掘技术越来越强大,数据的作用越来越突出,所以我们将进入数据时代。
讲座:阿里巴巴涂子沛:大数据启蒙认知课程
1.1大数据的定义
1.2数据叠加会导致爆炸
1.3大数据帮助机器代替小二腐败
1.4业务数据化和数据业务
(1)数据调查
业务调研
阿里集团涉及的整个业务包括电子商务、数字娱乐、导航(高德)、 移动互联网服务等领域。各领域涵盖多条业务线,如电子商务领域 C 类(淘宝、天猫、天猫国际)与 B 类别(阿里巴巴中文站,国际站 、快递)业务。无论数据仓库是涵盖所有业务领域,还是单独建设所有业务领域,业务领域的业务线也面临着这个问题。因此,为了建立一个大数据仓库,我们需要了解各业务领域和业务线的共同点和差异 ,以及每条业务线可以细分为哪些业务模块,每个业务模块的具体业务流程是什么。业务研究是否充分将直接决定数据仓库建设是否成功 。
需求调研
可以想象,在不考虑分析师和业务运营商数据需求的情况下,根据业务研究建设的数据仓库无疑是关闭的 门造车。了解业务系统的业务并不意味着它可以实现。目前,我们需要做的是收集数据用户的需求。我们可以去分析师和业务运营商那里了解他们的数据需求。此时,更多的是报告需求。有两种方法可以调查需求: 一是根据与分析师和业务运营商的沟通(电子邮件) IM )获知需求: 二是研究分析报表系统中现有的报表 。通过需求研究和分析,我们可以知道数据应该做什么。很多时候,数据仓库团队是由具体的数据需求驱动的,对业务系统的业务数据没有严格的顺序。举例 : 分析师需要了解大淘宝(淘宝、天猫、天猫国际) 一级类别的交易金额。当我们得知这一需求时,我们应该分析什么(维度)和什么(测量)。这里的类别是维度,金额是测量:如何设计详细的数据和汇总数据?这是公共报表吗?是需要在汇总表中沉淀,还是在报表工具中汇总?
(2)架构设计
数据域划分
数据域是指抽象收集业务流程或维度的业务分析。业务流程可以概括为不可分割的行为事件,如下单、付款和退款。确保整个系统 生命力、数据域需要抽象提炼、长期维护和更新,但不易改变。在划分数据域时,不仅可以覆盖当前的所有业务需求,还可以在新业务进入时无影响地包含在现有的数据域或扩展新的数据域。
构建总线矩阵
经过充分的业务研究和需求研究,需要构建总线矩阵。需要做两件事 :明确每个数据域下的业务流程;业务流程与哪些维度有关,并定义每个数据域下的业务流程和维度。
(3)规范定义
主要定义指标体系的规范定义,包括原子指标、修饰词、时间周期和衍生指标。
(4)模型设计
模型设计主要包括维度和属性的规范定义、维度表、详细事实表和总结事实表。略。
(5)总结
OneData 实施过程是高度迭代和动态的过程, 一般采用螺旋实施方法。整体架构设计完成后,开始根据数据域进行迭代模型设计和评价。在架构设计、规范定义和模型设计的实施过程中,将引入评价机制,以确保模型实施过程的正确性。
讲师介绍
涂子沛
前阿里巴巴副总裁
本科毕业于华中科技大学计算机系的涂子培。在武警部队和政府部门工作了十年后,他开发了中国第一个反偷渡遣返信息管理系统,并担任了边防巡逻艇的指挥官。后来,他辞去了在美国的公职学习,并获得了卡内基梅隆大学的公共管理硕士和信息科学硕士学位。在美国期间,他曾担任软件公司的数据仓库程序员、数据部门经理、数据中心主任、亚太事务总监、首席研究员。
曾为《南方都市报》出版过、《时代周报》、艾瑞网等多个报刊网站撰写专栏,包括大数据、数据之巅。
[我要扒资料]
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。