大数据应用高级研修班

类别:个人技能      编号:KC105155

  • 开课日期培训天数上课地区状态
  • 2017年08月24-28日5天大连市已过期
  • 原价:¥5800优惠价:¥5510

    招生对象:

    培训对象

    各地政府云计算物联网产业相关负责人,各企业CIO、信息中心负责人、技术总监,云计算中心负责人,云计算产业投资团队,云计算应用开发商,云计算硬件设备供应商,云服务提供商,高校、科研院所云计算项目负责人。

    各企业大数据架构师、技术总监、数据挖掘负责人、数据挖掘开发工程师

    课程介绍:

    时间知识模块授课内容

    第一章大数据技术基础1.大数据的产生背景与发展历程

    2.大数据的4V特征,以及与云计算的关系

    3.大数据应用需求以及潜在价值分析

    4.业界最新的大数据技术发展态势与应用趋势

    5.大数据项目的系统与技术选型,及落地实施的挑战

    6.“互联网+”时代下的电子商务、制造业、零售批发、电信运营商、互联网金融业、电子政务、移动互联网、教育信息化等行业应用实践与应用案例介绍

    业界主流的大数据技术方案1.大数据软硬件系统全栈与关键技术介绍

    2.主流的大数据解决方案介绍

    3.Apache大数据平台方案剖析

    4.CDH大数据平台方案剖析

    5.HDP大数据平台方案剖析

    6.大数据解决方案与传统数据库方案比较

    大数据计算模型(一)——批处理MapReduce1.MapReduce产生背景与适用场景

    2.MapReduce计算模型的基本原理

    3.MapReduce作业执行流程

    4.MapReduce基本组件,JobTracker和TaskTracker

    5.MapReduce高级编程应用,Combiner和Partitioner

    6.MapReduce性能优化技巧

    7.MapReduce案例分析与开发实践操作

    第二章大数据存储系统与应用实践1.分布式文件系统HDFS产生背景与适用场景

    2.HDFSmaster-slave系统架构与工作原理

    3.HDFS核心组件技术讲解

    4.HDFS高可用保证机制

    5.HDFS集群的安装、部署与配置,熟练HDFSshell命令操作

    6.分布式小文件存储系统的平台架构、核心技术与应用场景

    7.分布式对象存储系统的平台架构、核心技术与应用场景

    Hadoop框架与生态发展,以及应用实践操作1.Hadoop的发展历程

    2.Hadoop大数据生态圈系统与工具全貌介绍

    3.Hadoop1.0的核心组件与适用范围

    4.Hadoop2.0的核心组件YARN工作原理,以及与Hadoop1.0的区别

    5.Hadoop资源管理与作业调度机制

    6.Hadoop常用性能优化技术

    7.Hadoop集群安装与部署实践,以及MapReduce程序在YARN上执行

    第三章大数据计算模型(二)——实时处理/内存计算Spark

    1.MapReduce计算模型的瓶颈

    2.Spark产生动机、基本概念与适用场景

    3.Spark编程模型与RDD弹性分布式数据集的工作原理与机制

    4.Spark实时处理平台运行架构与核心组件

    5.Spark容错机制

    6.Spark作业调度机制

    7.Scala开发介绍与实践

    8.Spark集群部署与配置实践,Spark开发环境构建,Spark案例程序分析,Spark程序开发与运行,Spark与Hadoop集群集成实践

    第四章大数据仓库查询技术Hive、SparkSQL、Impala,以及应用实践1.基于MapReduce的大型分布式数据仓库Hive基础知识与应用场景

    2.Hive数据仓库的平台架构与核心技术剖析

    3.Hivemetastore的工作机制与应用

    4.Hive数据仓库实践:Hive集群安装部署,数据仓库表导入导出与分区操作,HiveSQL操作,Hive客户端操作

    5.基于Spark的大型分布式数据仓库SparkSQL基础知识与应用场景

    6.SparkSQL实时数据仓库的实现原理与工作机制

    7.SparkSQL应用分析与操作实践

    8.基于MPP的大型分布式数据仓库Impala基础知识与应用场景

    9.Impala实时查询系统平台架构、关键技术剖析

    Hadoop集群运维监控工具1.Hadoop大数据运维监控管理系统HUE平台介绍

    2.Hadoop运维管理监控系统Ambari工具介绍

    3.第三方运维系统与工具Ganglia,Nagios

    第五章大数据计算模型(三)——流处理Storm,SparkStreaming

    1.流数据处理应用场景与流数据处理的特点

    2.流数据处理工具Storm的平台架构与集群工作原理

    3.Storm关键技术与并发机制

    4.Storm编程模型与基本开发模式

    5.Storm数据流分组

    6.Storm可靠性保证与Acker机制

    7.Storm应用案例分析与实践:Storm集群安装部署,Storm程序开发运行操作实践,Storm与Hadoop集群的集成

    8.流数据处理工具SparkStreaming基本概念与数据模型

    9.SparkStreaming工作机制

    大数据ETL操作工具,与大数据分布式采集系统1.Hadoop与DBMS之间数据交互工具的应用

    2.Sqoop导入导出数据的工作原理,以及Sqoop工具的安装部署与实践操作,利用Sqoop实现MySQL与Hadoop集群之间的数据导入导出交互

    3.Flume-NG数据采集系统的数据流模型与系统架构

    4.Kafka分布式消息订阅系统的应用介绍与平台架构,及其使用模式

    第六章面向OLTP型应用的NoSQL数据库及应用实践1.关系型数据库瓶颈,以及NoSQL数据库的发展,概念,分类,及其在半结构化和非结构化数据场景下的适用范围

    2.列存储NoSQL数据库HBase简介与数据模型剖析

    3.HBase分布式集群系统架构与读写机制,ZooKeeper分布式协调服务系统的工作原理与应用

    4.HBase表设计模式与primarykey设计规范

    5.HBase分布式集群安装、部署与操作实践

    6.文档NoSQL数据库MongoDB简介与数据模型剖析

    7.MongoDB集群模式、读写机制与常用API操作

    8.Cassandra分布式数据库的平台架构以及关键技术

    9.Cassandra一致性哈希算法与数据分布策略,以及NWR策略

    10.键值型NoSQL数据库Redis简介与数据模型剖析

    11.Redis多实例集群架构与关键技术

    12.NewSQL数据库技术简介及其适用场景

    大数据项目选型、实施、优化等问题交流讨论大数据项目的需求分析、应用实施、系统优化,以及解决方案等咨询与交流讨论

    讲师介绍:

    师资力量

     刘老师:阿里大数据高级专家,国内资深的Spark、Hadoop技术专家、虚拟化专家,对HDFS、MapReduce、HBase、Hive、Mahout、Storm、spark和openTSDB等Hadoop生态系统中的技术进行了多年的深入的研究,更主要的是这些技术在大量的实际项目中得到广泛的应用,因此在Hadoop开发和运维方面积累了丰富的项目实施经验。近年主要典型的项目有:某电信集团网络优化、中国移动某省移动公司请账单系统和某省移动详单实时查询系统、中国银联大数据数据票据详单平台、某大型银行大数据记录系统、某大型通信运营商全国用户上网记录、某省交通部门违章系统、某区域医疗大数据应用项目、互联网公共数据大云(DAAS)和构建游戏云(Web Game Daas)平台项目等。

    热门公开课

    关于举办新时代国有企业内2024-04-23/西安 SQE供应商质量管理高级2024-10-25/深圳 关于举办新公司法背景下公2024-04-23/西安 风险、内控、合规、法务一2024-04-24/福州 智能物流与仓储管理方案研2024-04-26/广州 最新《企业档案管理规定》2024-04-24/重庆