咨询电话:0551-62905331

大数据工程师

首页>主页 > 热门专业 > 大数据工程师
北美大数据5.0课程大纲
第一阶段 —— 预科课程
1.组班课程 2.计算机基本技能学年-打字训练
 
第二阶段 —— JavaEE
一、Java基础入门
1.搭建Java开发环境2.变量的定义 3.数据类型与运算符 4.循环结构与选择结构 5.数组 6.项目实战-吃货联盟订餐系统
 
二、Java面向对象
1.类和对象2.面向对象的三大特性:封装、继承、多态 3.面向对象思想程序设计 4.抽象类和抽象方法 5.接口 6.异常7.项目实战-QuickHit8.正则表达式9.开发工具:Maven、Git、IDEA
 
三、Java高级API
1.集合2.实用类和泛型 3.Java I/O与序列化 4.Java反射机制 5.注解的原理 6.多线程编程7.网络编程8.XML、JSON解析的方法9.常用设计模式 10.项目实战-嗖嗖移动业务大厅11.项目实战-超市会员管理系统
 
四、MySQL数据库
1.MySQL安装与SQLyog的使用2.DDL语句:建库、建表、改表、删除表 3.DML语句:添加、删除、修改 4.DQL语句:查询5.MySQL高阶语法:连接查询、排序、分页、子查询、聚合函数、分组查询 6.MySQL事务(ACID原则、事务实现) 7.视图8.索引 9.导入导出 10.MySQL进阶训练
 
五、Java Web
1.HTML5基础2.JS基础 3.Tomcat 4.JSP 5.JDBC编程 6.Servlet 7.项目实战——新闻发布系统VC
 
六、SSM
1.MyBatis原理及使用2、Spring概述 3.Spring IoC和AOP 4.Spring和MyBatis整合5.Spring MVC 6.Sping Boot7.SSM框架整合8.项目-超市订单管理系统
 
七、Linux编程
1.Linux VM 环境搭建2.基本Linux命令 3.SSH配置 4.Linux Shell编程 5.Linux环境安装MySQL与Tomcat6.Linux部署Java Web应用
 
八、ELK
1.ELK综述2.ELK安装与配置 3.数据清洗、处理和导入– Logstash vs. Filebeat 4.数据存储与管理 5.数据搜索与分析 6.项目实战
 
第三阶段 —— Hadoop
一、HDFS
1.大数据概述2.Hadoop生态圈概述 3.大数据分布式处理的基本方法 4.Hadoop架构及核心模块 5.DFS基本文件操作命令6.HDFS编程 7.用Java实现HDFS文件操作
 
二、MapReduce
1.MapReduce分布式计算的基本原理2.使用Java进行MapReduce编程 3.MapReduce任务执行
 
三、Hive
1.Hive的作用、优势和基本架构2.Hive数据类型、元数据、存储模型 3.Hive DDL、DML、数据查询 4.Hive高级特性5.Hive函数、自定义函数 6.Hive性能调优
 
四、HBase
1.NoSQL综述2.HBase的基本概念 3.HBase架构、数据模型 4.HBase数据导入 5.HBase数据查询 6.使用Shell操作HBase 7.HBase API与数据读取优化8.Phoenix的使用 9.Hive操作HBase表 10.HBase高级操作
 
五、Sqoop
1.Sqoop介绍2.Sqoop常用命令使用 3.使用Sqoop完成从RDB到HDFS的数据迁移 4.使用Sqoop完成从RDB到Hive的数据迁移5.使用Sqoop完成从Hive到RDB的数据迁移
 
六、离线项目实战
项目实战-电子商务消费行为分析
 
第四阶段 —— Spark
一、构建离线数据分析平台—用户兴趣取向分析
1.项目介绍及数据湖架构与建设2.日志数据探索 3.Apache Kafka基础及开发 4.Apache Flume基础及使用案例 5.日志数据导入6.日志数据(Hive)ETL变换 7.机器学习及常用模型介绍 8.项目实战—图像分析9.建立日志推荐模型 10.Apache Oozie架构及工作流模型11.日志数据ETL工作流 12.基于Spark Streaming的流数据处理和分析 13.使用Spark Streaming及ML实施用户兴趣取向实时预测 14.建立Tableau与MySQL的链接,数据可视化及生成日志报表 15.项目部署 16.Apache NiFi基础及架构17.日志数据流程(data flow)开发 18.Cassandra基础及使用 19.Cassandra与Spark的集成20.日志数据(Spark)ETL开发 21.Redis基础及使用 22.Redis与Spark的集成23.企业数据监管综述及实施 24.项目大总结
 
二、实时流处理平台—股票流数据实时分析
1.项目介绍及数据格式定义2.Apache Kafka开发 3.股票数据爬取 4.基于Confluent的股票元数据管理及应用 5.基于Apache Flink流数据处理及实时分析 6.使用Apache Flink实施股票的实施分析 7.Grafana/Zeppelin数据可视化
 
三、混合计算项目实战—教育平台大数据分析
1.项目介绍及数据格式定义2.Apache Kafka开发3.Flume采集数据 4.Hive数据分析及处理 5.Spark数据分析及处理 6.Spark Streaming实现数据处理 7.工作流调度 8.可视化开发
 
四、阿里云大数据ACP认证
1.电影评价数据的采集2.基于LBS的热点店铺搜索 3.搭建社交好友推荐系统 4.TensorFlow框架识别图片5.模拟搭建数据中心 6.数据仓库系统的运维优化 7.搭建运营工单数据分析系统8.海量电力设备监测数据分析
 
大数据扩展
一、大数据系统管理优化
1.提升系统的高可靠性 (High Availability)2.提升Hive的高可靠性 3.提升系统的安全性 - 认证(Authentication)4.授权(Authorizatioin)及审计(Auditing) 5.数据保护
 
二、结业典礼
结业典礼
 
CC服务
一、大数据系统管理优化
1.初识matplotlib2.matplotlib常用设置及绘图方法 3.初识pyecharts4.pyecharts绘制常用图形 5.数据保护
 
二、机器学习
项目实战—机器学习实战(预测房价数据)
 
三、面试与工作经验指导
面试题解析
 
第四阶段 —— Spark
一、Scala编程
1.Scala开发环境设置2.Scala编程 3.数据类型与集合 4.Scala函数编写 5.类和特征以及对象6.Scala高级 7.Scala(Regular Expression)正则表达式 8.ScalaAPI及使用 9.Scala中的Java集成使用 10.Scala异常处理
 
二、Spark Core
1.Spark概述及架构2.RDD 概述 3.RDD Transformation&Action 4.数据分区(Partition)与Shuffle5.RDD 缓存与检查点 6.Spark Shell7.Spark RDD应用
 
三、Spark SQL
1.Spark SQL API介绍2.Spark SQL优化器 3.DataFrame与DataSet 4.Spark SQL集成Hive5.Spark SQL Shell编程
 
四、Spark GraphX
1、Spark GraphX 数据模型及API2、图形数据分析管道 - 案例介绍 3、项目练习 - 航班飞行网图分析
 
五、Spark 机器学习
1.机器学习的步骤2.Spark MLlib概述 3.Spark MLlib数据类型 4.Labeled Point概念 5.SVM分类介绍 6.K-Means聚类介绍7.Spark ML介绍
 
第五阶段 —— Python
一、Python编程
1.Python环境搭建及Python数据类型2.Python基础及函数 3.Python I/O及文件读写 4.Python面向对象编程 5.NumPy及Pandas库
 
二、Python数据爬取
1.Python实施Web数据爬取的基本原理和方法构2.使用LXML Python库进行Web数据爬取 3.Scrapy进行Web数据爬取4.PySpider服务进行Web数据爬取 5.实战爬取领英公共数据 6.实战爬取雅虎金融数据
 
三、Spark SQLPython数据采集、整理与清洗
1.数据采集的数据源与基本方法2.数据清洗的基本流程与方法 3.使用Python实施数据清洗 4.使用Python实施数据校验5.元数据并理解其在大数据环境中的重要作用6.数据存储、处理、集成、分析、服务等基本概论
 
四、Python机器学习
1.机器学习概述2.Spark机器学习数据结构及流程 3.机器学习模型概述 4.分类(Classification)模型 5.聚类(Clustering)模型 6.推荐(Recommendation)模型 7.sklearn库的使用8.项目实战:图像分析
 
五、PySpark
1.PySpark架构介绍2.Anaconda/Jupyter Notebook使用 3.PySpark的集成及使用
 
第六阶段 —— 项目实战
一、用户兴趣取向分析
1.项目分析2.Kafka与Flume的应用开发 3.Hive ETL4.PySpark完成机器学习 5.Oozie完成工作流调度6.Spark Streaming实现实时预测 7.Tableau可视化开发 8.Cassandra、Redis的应用9.NiFi的使用 10.用户兴趣取向分析项目实战开发
 
二、股票数据流实时分析
1.项目介绍及数据格式定义2.Apache Kafka开发(连接器与流处理) 3.基于Confluent的股票元数据管理及应用 4.Flink流数据处理及实时分析5.Flink实施股票的实施分析 6.Grafana/Zeppelin数据可视化 7.股票数据扒取项目开发
 
三、教育平台大数据分析
1.项目介绍及数据格式定义2.Apache Kafka开发(连接器与流处理) 3.Flume采集数据 4.Hive数据分析及处理5.Spark Streaming实现数据处理 6.工作流调度 7.可视化开发
 
四、在线教育全文检索平台
1.通过Python爬虫获取数据2.将爬取数据存入HBase 3.构建ELK全文检索服务 4.实现全文检索功能5.实现web操作页面
 
第七阶段 —— 大数据系统管理优化
一、提升系统的高可靠性 (High Availability)
1.HDFS HA高可用原理及实现2.YRAN HA高可用原理及实现 3.Hive HA高可用原理及实现
 
二、提升系统的安全性 - 认证(Authentication)
1.规则用户管理 2.Kerberos认证 3.用户名(User Name)及密码(Password)认证 4.认证密匙(Tokens)5.身份扮演(Impersonation)
 
三、授权(Authorization)及审计(Auditing)
1.HDFS授权2.HDFS扩展使用控制(Extended ACL) 3.Apache Ranger介绍和使用 4.HDFS,YARN及MapReduce审计日志(logs)5.Hive审计日志(logs) 6.Apache Ranger审计框架(Framework)介绍 7.日志分析
 
四、数据保护
1.数据加密(Data Encryption)2.加密(Encryption)及钥匙管理(Key Management) 3.HDFS数据加密4.Apache Ranger KMS介绍和使用
 
第八阶段 —— 阿里云平台
一、阿里云平台
1.阿里云平台概述 2.使用阿里云平台
 
二、实验环境搭建
1.使用阿里云平台进行实验环境搭建 2.实验环境的使用流程
 
三、阿里云项目训练
1.1.阿里云平台项目讲解 2.阿里云平台项目训练
 
四、阿里云认证指导
1.阿里云认证课程ACA指导2.阿里云认证课程ACP指导面
 
第九阶段 —— CC服务
1.技术专题深入学习2.面试与工作经验指导 3.试用期、转正期,跳槽期技术支持 4.实际工作问题解决方案5.职业发展规划
 

友情链接:北大青鸟科海学院合肥滨湖职业技术学院合肥公交技校 安徽卫生健康职业学院
获奖信息:

联系我们:金老师13275695036(微信手机同号)  梁老师18715118173(微信手机同号)

公交车:市内乘51路、235路、122路、118路、21路到合工大站下向东走10米即到。

地铁:乘地铁1号线到合工大南区D出口,向西200米即到。

导航:百度地图搜索:合工大产业楼。