大数据挖掘和分析技术实战MahoutMLlibStormDocker

类别:个人技能      编号:KC115688

  • 开课日期培训天数上课地区状态
  • 2020年03月25-27日3天北京市已过期
  • 原价:¥5900优惠价:¥5900

    招生对象:

    1,系统架构师、系统分析师、高级程序员、资深开发人员。

    2,牵涉到大数据处理的数据中心运行、规划、设计负责人。

    3,政府机关,金融保险、移动和互联网等大数据来源单位的负责人。

    4,高校、科研院所牵涉到大数据与分布式数据处理的项目负责人。

    5,对大数据的前沿技术非常感兴趣的人。

    6,有志于成为一名数据科学家的从业人员。

    7,有一定算法和编程基础的技术爱好者。

    课程介绍:

    培训目标:

    1,学习云环境下大数据分析挖掘的相关基础知识。

    2,学习Mahout和MLlib的核心技术方法及应用。

    3,了解云环境下大数据分析的使用流程和方法。

    4,掌握Storm流处理技术和Docker等技术与大数据挖掘结合的方法。

    第一讲大数据挖掘及其背景

    1)大数据环境下的数据分析

    2)数据挖掘定义

    3)Hadoop相关技术

    4)大数据挖掘知识点

    第二讲MapReduce/SparkDAG计算模式

    1)分布式文件系统DFS

    2)MapReduce计算模型介绍

    3)使用MR进行算法设计

    4)DAG及其算法设计

    第三讲大数据挖掘分析工具

    1)Yarn中的Mahoutb介绍

    2)Spark中的Mahout/MLib介绍

    3)推荐系统及其Mahout实现方法

    4)信息聚类及其MLlib实现方法

    5)分类技术在Mahout/MLib中的实现方法

    第四讲大数据推荐及其应用开发

    1)一个推荐系统的模型

    2)基于内容的推荐

    3)协同过滤

    4)基于Mahout的电影推荐案例

    第五讲大数据分类技术及其应用

    1)分类的定义

    2)分类主要算法

    3)Mahout分类过程

    4)评估指标以及评测

    5)贝叶斯算法新闻分类实例

    第六讲大数据聚类技术及其应用

    1)聚类的定义

    2)聚类的主要算法

    3)K-Means、Canopy及其应用示例

    4)FuzzyK-Means、Dirichlet及其应用示例

    5)基于MLlib的新闻聚类实例

    第七讲大数据关联规则和相似项发现

    1)购物篮模型

    2)Apriori算法

    3)抄袭文档发现

    4)近邻搜索的应用

    第八讲流数据挖掘相关技术

    1)流数据挖掘及分析

    2)Storm和流数据处理模型

    3)流处理中的数据抽样

    4)流过滤和Bloomfilter

    第九讲云环境下大数据挖掘应用

    1)与Yarn/Spark集群应用的协作

    2)与Docker等其它云工具配合

    3)大数据挖掘行业应用展望

    讲师介绍:

    杨老师  主要研究网络信息分析以及云计算相关技术,长期从事通信网管系统、网络信息处理、商务智能(BI)以及电信决策支持系统的研究开发工作,主持和参与了多个国家和省部级基金项目,具有丰富的工程实践及软件研发经验。

    热门公开课

    TD实战:任职资格体系搭2024-05-18/北京 大数据时代的精细化销售管2024-06-20/上海 FMEA失效模式和影响分2024-05-17/深圳 OD实战:组织诊断模型、2024-09-07/上海 大数据时代的企业运营管理2024-05-23/上海 Power BI 数据分2024-09-11/上海