客服咨询

意见反馈

大数据平台核心技术
大数据//
0.0
25
视频
11.8
课时
59.00
介绍
目录

课程概述

本课程是清华大学的课程,共11学时。 本课程主要由业界一线研发人员讲授大数据平台涉及到的分布式系统构架、分布式编程、分布式流处理、分布式数据存储管理、内存计算支持等内容,通过实践,力图覆盖大数据处理平台的主要核心技术,帮助学员了解分布式大数据平台设计中的关键挑战,提出实际的解决方案,为研究生未来研究方向提供参考。课程重点讲解设计原理,突出技术深度和实战性。

课程目标

本课程讲授分布式系统构架、分布式编程、分布式流处理、分布式数据存储管理、内存计算支持等内容,突出技术深度和实战性。

考核评价

通过学习,学员会掌握以下的知识点: 1.大数据和ODPS; 2.分布式存储,资源管理与任务调度; 3.分布式编程模型的设计与演化; 4.全局数据管理与调度; 5.大规模数据的分布式机器学习平台;

讲师介绍

详细介绍

适用对象:相关岗位员工、管理者(大数据行业)

主要内容:

本课程主要由业界一线研发人员讲授大数据平台涉及到的分布式系统构架、分布式编程、分布式流处理、分布式数据存储管理、内存计算支持等内容,通过实践,力图覆盖大数据处理平台的主要核心技术,帮助学员了解分布式大数据平台设计中的关键挑战,提出实际的解决方案,为研究生未来研究方向提供参考。课程重点讲解设计原理,突出技术深度和实战性。

课程属性:专业岗位技能类

第一讲 大数据和ODPS
第二讲 分布式存储
第三讲 资源管理与任务调度
第四讲 分布式编程模型的设计与演化
第五讲 实践1:通过两阶段提交协议完成数据上传
第六讲 离线分布式关系型计算
第七讲 全局数据管理与调度
第八讲 实践2:编写MR完成Group By+Join操作
第九讲 流式计算的系统设计与实现
第十讲 内存计算
第十一讲 大规模数据的分布式机器学习平台
第十二讲 实践3:实现MapReduce编程运行时库

监督管理单位:江苏省人力资源和社会保障厅     运营服务单位:杭州沃土教育科技股份有限公司     技术支持单位:浙江浙大网新软件产业集团有限公司