大数据
百战程序员
① Linux深入和shell脚本编程
Linux 基础
操作系统概述 Linux 内核与GNU 介绍 Linux 发行版介绍 虚拟化安装centos / 虚拟网络编辑器 规划多主机网络通信
虚拟化管理快照与克隆 SSH 客户端使用与配置
Linux 初级
Linux 命令行原理 help内部命令帮助 man 命令8种帮助手册 df/du 文件系统分析 文件系统HFS 规范 文件系统管理命令
bash的{}、$扩展
Linux 文本操
作
文件内容预览命令 管道的使用 基于管道的文件游标预览 日志文件追踪 vi命令的快捷操作 vi命令的编辑模式 vi命令的末行模式
Linux 文本分析
grep检索文件 / 正则表达式 文本分析命令cut 文本分析命令sort 文本分析命令wc 文本分析命令sed sed 案例:正则和s命令另类使用
文本分析命令awk awk 脚本案例:统计报表
Linux 管理
系统服务配置文件 用户管理 组管理 权限管理 案例:多用户角色资源绑定 网络管理 进程管理 后台服务管理
Linux 安装管理
操作系统软件安装原理 源码编译安装及原理 RPM 包管理机制原理 RPM 的查询、安装、卸载 YUM 仓库原
理
YUM 本地、局域网仓库源配置 案例:维护多个YUM源 YUM 安装中文帮助文档
Linux 高级
shell 原理、命令原理 shell 解释器的4种脚本执行方式 shell 函数、内部命令、外部命令总结 文件描述符与重定向
输出重定向的6 种方式 输入重定向的4 种方式 案例:重定向http协议到网站请求主页
Linux 脚本编程
本地、局部变量 / 位置、特殊变量 父子进程、环境变量 linux 中for 进程原理 / 管道的子进程执行原理 引用、命令替换扩展
命令状态与逻辑判断 算数表达式及bash扩展 / 条件表达式 流程控制语句&bash词的拆分扩展
Linux 脚本案例
shell 脚本:用户管理 shell 脚本:文件管理 shell 脚本:增强for 循环遍历文件 shell 脚本:游标for 循环遍历文件
shell 脚本:重定向while循环遍历文件 shell 脚本:管道+while 循环遍历文件 bash解释器的7 中命令扩展总结
② 高并发
网络基础
高并发及解决方案概述 TCP/IP协议资深讲解:应用层 TCP/IP协议资深讲解:传输控制层 TCP/IP协议资深讲解:TCP协议/报文/三次握手
TCP/IP协议资深讲解:网络层 TCP/IP协议资深讲解:路由表和 IP 协议原理 TCP/IP协议资深讲解:链路层
TCP/IP协议资深讲解:ARP协议及交换机协议
四层负载均衡
四层负载均衡LVS 拓扑 NAT 网络原理 LVS 的DNAT模式分析 LVS 的DR模式分析 LVS 的TUN 模式分析 LVS 的静态调度算法
LVS 的动态调度算法 / 内核配置ARP 协议 LVS 的命令讲解 / LVS 的DR模式实验搭建
Keepalive 高可用
高可用概述 健康检查及故障迁移策略 分布式选主策略 keepalived 原理 keepalived 配置文件详解 基于keepalived的高可用
LVS
高可用验证 后端健康检查验证
Nginx 原理与配置
单点性能压力下的面向服务开发理论 反向代理服务器原理 Nginx 介绍 / Nginx和 Apache 的httpd 对比 IO的阻塞模型和异步非阻塞模型
Nginx 角色框架原理 / Nginx的内核参数配置 Nginx 的内核sendfile零拷贝原理 Nginx 的TCP 配置
Nginx 反向代理与负载均衡
Nginx 的虚拟服务器原理 Nginx 的location匹配规则 Nginx 的自动索引 Nginx 的反向代理服务器配置 Nginx 的upstream负载均衡配置
Nginx 的DNS 负载均衡配置 Nginx 负载均衡下数据一致性解决方案
Session 和缓存
Session 一致性问题 Session 复制 Session 共享 Session 同步 Memcached的缓存 K-V 格式缓存 Tomcat和 Memcache / 缓存服务器
③ Hadoop生态体系
HDFS概念
1T文件处理 Hadoop历史 / Hadoop架构 NameNode 讲解 SecondaryNameNode讲解 DataNode 与副本防治策
略
HDFS权限 / HDFS安全模式 HDFS文件上传流程 / HDFS读文件流程
伪分布式集群搭建 hadoop完全分布式集群搭建 hadoop3 新特性 NameNode的Federation NameNode-HA
NameNode-HA 集群搭建 NameNode-HA 手动切换 NameNode-HA 自动切换 java 客户端操作HDFS
MapReduce
MapReduce简介与原语 MapReduce执行流程 二次排序 MapReduce作业提交流程 MapReduce作业执行流程
YARN-ResourceManager-HA搭建 运行自带的wordcount 程序 手写wordcount 程序
MapReduce作业提交流程源码解析 作业切片计算的源码解析 MapTask 输入方式的源码解析 MapTask 执行流程源码解析
MapTask 输出方式的源码解析 MapTask 环形缓冲区源码解析
RedueTask的shuffle 源码解析 ReduceTask分组的源码解析 ReduceTask输出的源码解析
MapReduce 案例
天气案例需求分析/天气案例映射为MR原语 天气案例键值对设计/天气案例开发和运行 天气案例排序比较器分组比较器设计
好友推荐需求分析/好友推荐映射为MR原语 好友推荐键值对设计/好友推荐开发和运行/好友推荐TopN
PageRank简介及算法介绍/PageRank映射为MR原语 PageRank 键值对设计/PageRank 编码和运行 TFIDF 简介及算法/TFIDF 映射为MR原语
TFIDF 键值对设计/TFIDF 编码和运行 itemCF 简介及算法/itemCF 键值对设计/itemCF 编码和运行
zookeeper
分布式协调框架 Zookeeper背景与介绍 分布式 zookeeper环境及安装 Zookeeper源语命令操作
关于节点类型、版本、元数据信息的意义
Zookeeper 的api 环境 java 操作集群演示 事件注册与节点的变更 基于zookeeper 的分布式协调案例
ElasticSearch
ElasticSearch的现状与前景 Lucene框架与倒排索引原理 Lucene框架在el search搜索引擎中的作用 ElasticSearch全分布式特
性
ElasticSearch的环境要求与安装 Curl命令与rest 风格的使用 Api 搜索项目演示
Cloudera Manager
国内外大数据平台介绍 Cloudera 产品介绍 什么是 CDH 什么是 cloudera manager 什么是 cloudera manager service
cloudera manager框架原理 集群基础设施配置 纯手工安装cloudera manager
cloudera manager部署CDH cloudera manager管理主机 cloudera manager管理集群、管理服务
cloudera manager管理实例、管理配置 cloudera manager管理监控、管理资源 cloudera manager service图表使用
cloudera manager service图表创建 cloudera manager service的 dashboard
Hue
Hue 介绍 Hue 安装 Hue 的HDFS管理与使用 Hue 的YARN管理与使用 Hue 的HIVE管理与使用 Hue 的Oozie 管理与使用
Hue 的metadata管理与使用 Hue 的用户管理与使用
impala
Impala介绍/内存计算与 MR,SPARK 计算的比较 impala框架角色讲解/impala的安装 impala的命令行使用/impala的命令参数详解
impala的内部命令详解/impala的SQL的 ddl
impala的 SQL的 dml/impala 的SQL 的dql impala的文件格式与压缩 impala的 hbase整合 impala的配置与监控/impala的调优
oozie
Oozie 介绍 Oozie 的基于hadoop的分布式调度原理 Oozie 框架角色原理 Oozie 的xml 配置文件 Oozie 的job 配置文件
Oozie 的命令 Oozie 的配置与监控 Oozie 的开发
④ 大数据数据仓库建设
数据仓库理论基础
关系型数据库三范式 E-R实体关系与范式建模理论基础 E-R实体关系建模案例分析 数据仓库发展历程
自上而下建模与自下而上建模理论
维度建模 星型模型&雪花模型&星座模型 维度建模案例分析 数据仓库分层思想 数据仓库ODS/DWS/DWD/DWS/DM的意义
数据仓库分层案例分析 数据库与数据仓库的区别
Hive架构
hive的介绍 数据仓库概念讲解 数据仓库与数据库区别 Hive的架构原理 Hive元数据讲解 Hive的使用场景 Hive的优缺点
Hive的执行引擎 Hive操作符 Hive 语法解析
linux环境下mysql安装 mysql登录权限修改 Hive 三种安装搭建模式 Hive 元数据存储到mysql 基于内存数据库模式搭建
基于远程数据库模式搭建 基于远程数据库服务搭建 Hive 配置文件讲解 / Hive 命令操作
Hive DDL
Hive基础数据类型 Hive复杂数据类型 Hive数据类型转换 Hive创建数据库 Hive创建表三种方式 Hive创建管理表 Hive创建外部
表
Hive数据读取规则Row Format Hive数据读取规则 Serde
Hive 静态分区管理 Hive 动态分区管理 Hive 删除表 Hive 修改表 Hive 分桶表管理 Hive 视图 Hive 索引
Hive DML
Hive从本地加载数据 Hive从hdfs 加载数据 Hive通过查询插入数据 Hive插入数据到指定目录 Hive insert values 插入操作
Hive事务管理 Hive事务特性 Hive事务配置 Hive修改数据/Hive删除数据/Hive 清空数据
Hive查询访问
Hive全表查询 Hive条件查询 Hive分组查询 Hive运算符 Hive内置函数 Hive自定义函数 Hive表连接 Hive排序方
式
Hive嵌套查询 / Hive 行转列 Hive 命令行方式
Hive 元数据管理 Hiveserver2 讲解 Hive beeline客户端讲解 Hive JDBC 操作 Hive 参数 Hive 变量 Hive 脚本运行方式
Hive GUI方式
Hive安全管理与压缩
Hive授权模式 Hive Legacy Mode Hive 基于SQL 标准授权模型 Hive 基于元数据授权模型 Hive角色管理 Hive授权命
令
Hive回收权限命令 Hive存储压缩管理
Hive列式存储/Hive行式存储 Hive textfile Hive sequencefile Hive orc file Hive parquet file Hive map端输出/Hive reduce 端输出
Hbase 架构与操作
hbase 介绍/NoSQL 介绍 Hbase 特点/Hbase 存储数据结构 Hbase 数据模型/Hbase 表结构介绍 Hbase 架构图/Hbase角
色
Hbase 内存结构介绍 Hbase 存储数据结构LSM树 Hbase 写数据流程 /Hbase读数据流程
Hbase standalone模式安装 Hbase 完全分布式安装 Hbase 高可用 Hbase搭建注意 Hbase基本命
令
Hbase DDL 命令/Hbase DML 命令 Hbase命名空间命令
Hbase 压缩与存储
Hbase 创建表/Hbase删除表 Hbase 插入数据/Hbase 更新数据 Hbase 删除数据 Hbase 获取一条数据 Hbase 获取某个范围的数据
Hbase 过滤器 Hbase 与MR集成/Hbase与hive 集成
Protobuffer讲解 Protobuffer安装 Protobuffer 配置基本类型 Protobuffer 配置集合类型 Hbase读取Protobuffer生成的类
Hbase压缩存储
Flume
Flume 日志收集工具 Flume agent架构 Flume 组件 Flume 集群讲解 flume 不同架构介绍 flume 安装 / flume配置信
息
flume 单台安装 / flume 集群安装 flume 高可用讲解
Avro source Thrift source Exec source Spooling directory source Kafka source Netcat source 自定义Source Source 的分类
Hdfs sink Hive sink
Hbase sink Avro sink Thrift sink Logger sink Kafka sink 自定义Sink
Sqoop
Sqoop 简介 ETL 讲解 Sqoop 架构图 Sqoop 架构设计 Sqoop 版本介绍 Sqoop 导入 Sqoop 导出 Sqoop 安装/Sqoop 配置
Sqoop 导入数据到hdfs Sqoop导入数据到hive
Sqoop导入数据到hbase Sqoop通过查询语句到 hdfs Sqoop导出数据到mysql 导出配置 Hdfs 配置/Hbase 配置 数据库配
置
kylin架构与使用
kylin 的背景介绍/kylin 的应用场景
kylin 的发展历史/kylin 的工作原理 kylin 的体系架构 kylin 的核心,cube构建 kylin 的sql 查询原理/kylin 的特性和生态圈
kylin 事实表/kylin维度表 kylin 的下载/kylin的安装准备 kylin 的部署方式/kylin 安装部署 KyLin 和Hive/KyLin 和hbase
KyLin和 Zookeeper
OLTP 与OLAP分类 星型模型/雪花模型/星座模型 simple cube 描述 cube 构建 kylin的视图 kylin的元数据存储 kylin JDBC访问方式
kylin rest方式
Kafka 分布式消息系统
Kafka 分布式消息系统介绍 Kafka 应用场景 Kafka 生产消息原理 Kafka 存储消息原理 Kafka Topic、partition 原理
Consumer 消费消息原理
Kafka 集群搭建/Kafka 命令使用 Kafka 消息系统特点 KafkaLeader均衡机制 Kafka版本更改对比 KafkaTopic更改、删除
API操作Kafka
Redis 缓存数据库
redis 特点、与其他数据库的比较 如何安装redis 如何使用命令行客户端 redis 的字符串类型 redis 的散列类型 redis 的列表类型
redis 的集合类型 如何使用java访问redis redis 的事务(
transaction)
redis的管道(pipeline) redis持久化(AOF+RDB) redis优化 redis的主从复制 redis的 sentinel高可用 twemproxy,codis实战
redis3.x集群安装配置
Storm 流式计算
Storm 的基本概念
Storm 的应用场景 Storm 和Hadoop的对比 Storm 集群的安装的linux环境准备 zookeeper集群搭建 Storm 集群搭建
Storm 配置文件配置项讲解 集群搭建常见问题解决
Storm 常用组件和编程 API:Topology、 Spout、Bolt Storm分组策略(stream groupings) 使用Storm开发一个WordCount 例子
Storm程序本地模式debug、Storm程序远程debug
Storm事物处理 Storm消息可靠性及容错原理 Storm与 Kafka整合 Storm Trident 概念 Trident state 原理 Trident 开发实
例
Storm DRPC(分布式远程调用)介绍 Storm DRPC实战讲解 Storm on Yarn 原理与配置
⑤ Spark计算框架体系
Scala 基础
Scala 背景介绍 Scala 语言六大特性 Scala 下载安装配置 Scala IDE开发 Scala 配置 IDEA 开发Scala 配置 Scala 类型推断机制
Scala 数据类型 Scala 基本语法 Scala 类和对象/Scala 循环、判断 Scala String操作 Scala Array 操作 Scala可变数组操作
Scala List 操作 Scala 可变列表操作 Scala Set 操作 Scala 可变Set 操作 Scala map 操作/Scala 可变 map操作 Scala 元组操作及要点
Scala 高级应用
Scala 函数定义 Scala 递归函数 Scala 默认值函数 Scala 可变参数函数 Scala 匿名函数 Scala 嵌套函数 Scala 偏应用函数
Scala 高阶函数 Scala 柯里化函数 Scala伴生类/Scala 伴生对象
Scala样例类/Scala 样例类案例 Scala Trait 要点/Scala Trait 案例 Scala match 匹配 Scala隐式值操作/Scala隐式参数操作
Scala隐式函数操作/Scala 隐式类操作 ScalaActor通信模型
Spark 核心基础
Spark 技术介绍/Spark 技术站详解 Spark 演变历史/Spark 与MR的区别 Spark 基于eclipse配置 Spark 基于IDEA 配
置
Spark 运行模式介绍 Spark 集群搭建/Spark 配置选项详解
Spark Pi 任务提交运行/Spark 客户端搭建 Spark 编程核心RDD SparkRDD 原理及使用 RDD结构及注意点 RDD五大特性 RDD弹性原理
RDD分布式原理 RDD容错原理
Spark 转换算子
map 算子使用/flatMap 算子使用 filter算子使用/sample 算子使用 reduceByKey算子使用/SortByKey算子使用 Join、union 算子使用
Cogroup 算子使用 distinct 使用
repartition算子使用 coalesce 算子使用 zip,zipWithIndex使用
Spark 行动算子
Foreach 算子使用 Take算子使用 SaveAsTextFile 使用 Count 算子使用 Take算子使用 Collect 算子使用 First 算子使
用
CountByKey 使用 CountByValue 使用 / Reduce使用
Spark 持久化算子
持久化数据级别分类 持久化算子cache使用 Cache 要点注意事项 持久化算子persist使用 Persist 要点注意事项
持久化算子Checkpoint Checkpoint 执行流程
Checkpoint 注意事项 Checkpoint 使用优化 持久化算子对比
Spark 核心进阶
Standalone-client模式原理/模式流程详
解
Standalone-cluster 模式原理 Standalone-cluster 模式流程详解 Yarn-client模式原理/Yarn-client模式流程详解
Yarn-cluster 模式原理/Yarn-cluster 模式流程详解 Client模式提交命令和特点
Cluster 模式提交命令和特点/Spark 任务提交 Spark-ClusterManager Spark-Driver Spark-Master Spark-Worker
Spark-Executor/Spark-线程池 Spark-Application/Spark-job
Spark-Stage/Spark-task
SparkRDD窄依赖 SparkRDD宽依赖 SparkStage切割划分 SparkStage计算模式 Pipeline管道数据落地 Stage并行度划分
提高Stage并行度方式 任务调度角色划分/资源调度角色划分
Spark资源调度过程 Spark任务调度过程 SparkDAG有向无环图 粗粒度资源申请特点/细粒度资源申请特点 Spark推测执行机制
Spark 核心高级
Spark pv,uv案例
Spark WordCount案例 Spark 二次排序案例 Spark 分组取topN案例 Spark 分组取topN优化 Spark 处理数据思路转
换
广播变量及注意事项/累加器及注意事项 自定义累加器/版本对比变化
Spark-WebUI详解/Spark日志查看 Pipeline计算模式验证/历史日志服务器配置
MasterHA高可用原理/MasterHA 高可用配置
MasterHA搭建注意点 SparkShuffle概念 Spark-HashShuffle 普通机制、优化机制 Spark-SortShuffle 普通机
制
Spark-SortShufflebypass 机制
HashShuffle 执行流程详解/SortShuffle执行流程详解 HashShuffle与 SortShuffle 对比 Shuffle 文件寻址详解/Spark oom问题处理
Spark统一内存管理划分/Spark静态内存管理
SparkSQL
Shark 原理分析 SparkSQL 原理分析/SparkSQL 演变过程 DataFrame与DataSet SparkSQL 数据源/SparkSQL 底层架构
SparkSQL 谓词下推/Json 格式数据转DataSet 普通RDD 和DataSet互操作 Parquet 数据转DataSet
JDBC数据转DataSet SparkSQL 序列化问题 Hive On Spark 原理 Spark On Hive 原理 Spark On Hive 配置详解 SparkSQL DataSet存储
SparkSQL之UDF SparkSQL之UDAF SparkSQL之over函数 SparkSQL案例分析
SparkStreaming
SparkStreaming 介绍
SparkStreaming&Storm SparkStreaming 接受数据原理 SparkStreaming之Dstream SparkStreaming 读取 Socket 数据
foreachRDD 算子使用 transform算子使用
updateStateByKey算子使用 window窗口操作 reduceByKeyAndWindow使用 DriverHA原理及搭建
Receiver模式整合原理
Receiver模式问题及优化 Direct 模式整合原理 Direct 模式Api使用 WAL机制配置及使用 Receiver模式并行度设
置
Direct 模式并行度设置/Direct模式offset管理
新版本Direct模式使用/新版本Direct模式对比 新版本Direct模式offset管理 SparkStreaming配置参数详解 SparkStreaming反压机制
Kafka与 SparkStreaming参数配置详解
⑥ 机器学习和算法体系
python基础
Python介绍
Python历史 Python优缺点 Python应用场景 Python下载/Python安装 Python ide 安装 Python helloworld Python交互式窗
口
面向对象编程介绍 类与对象 定义类与创建对象 Self
保护对象的属性
继承/多继承/多态 类属性与实例属性 类方法与静态方法 Python 注释及乱码 Python 变量/Python 类型 Python 标识符/Python关键
字
Python 输入/Python 输出 Python 运算符 Python 分支结构 Python input陷阱 Python 循环结构
python集合与函数
字符串 列表 元组 字典 可变类型 不可变类型 集合的迭代 集合排序/集合嵌套 Python函数介绍 函数的定义与调用 Python 参
数
Python 返回值 Python 递归函数 Python 匿名函数 高阶函数/高阶函数和递归计算 斐波拉契数列
python文件操作
Python文件的打开与关闭 Python的读写 Python的定位读写 Python文件操作 Os模块 文件批量处理 Mp3 音乐播放 文件批量处理
python 设计模式与异常
单例模式 工厂模式 异常简介 异常捕获 异常的传递 自定义异常 异常处理中排除异常 异常的分类
python数据库操作、Numpy 模块、矩阵操作
模块的使用与安装 模块制作 Python中的模块 模块的发布 模块安装及使用 Python连接mysql Python查询数据库
数据API/API 的封装 numpy 介绍/numpy 特点
numpy安装/numpy基础 矩阵的创建/矩阵的属性 矩阵的基本运算 矩阵的常用函数 矩阵的切片 矩阵的索引 矩阵的迭代/矩阵的形状操作
PySpark
PySpark 基础配置 Python开发工具配置 PySpark 运行开发原理 Python模块安装方式 PySpark 案例 PySpark 编码设
置
pySpark 任务提交
多元线性回归算法
机器学习与人工智能关系 机器学习数学基础 线性回归原理 线性回归损失函数 梯度下降迭代确定模型 多元线性回归原
理
步长参数分析 模型过拟合问题 模型欠拟合问题 线性回归案例分析
贝叶斯分类算法
贝叶斯分类算法 贝叶斯算法术语解释 贝叶斯概率分类原理 贝叶斯公式推广 拉普拉斯估计原理 模型保存 垃圾邮件分类案例
KNN 分类算法
KNN 算法原理 K 值的选择问题 KNN 存在的问题 机器学习中的归一化 欧式距离 平方欧式距离 闵式距离 曼哈顿距离 谷本距离
切比雪夫距离 加权距离 KNN三要素 数据分类案例 相亲案例
Kmeans 算 法 、Kmeans++算法
Kmeans聚类算法原理 K 值的选择策略 肘部法确定K值 Kmeans聚类问题 Kmens++算法 手动实现Kmeans算法 Kmeans数据聚类案例
广告精准营销案例
TF-IDF算法
文本分词技术解析 词频分析 逆文本频率分析 TF-IDF原理 TF-IDF应
用
逻辑回归分类算法
逻辑回归分类算法原理 逻辑回归与线性回归对比分析 傅里叶变化 音乐分类案例 求导法则 log 对数运算法则 最大似然估计思想
对数似然函数推导
逻辑回归构造损失函数 逻辑回归损失函数公式推导 SGD梯度下降过程 混淆矩阵 ROC&AUC 评估指标 道路拥堵预测
决策树算法
决策树概念 决策树术语 信息熵 条件熵 信息增益 信息增益率 基尼系数 ID3 选择法 C4.5选择法 数据离散化 决策树回归值使用
预剪枝与后剪枝 决策树问题 决策树案例
随机森林算法
随机森林算法 随机森林随机选择方式 指定树的个数 随机森林分类规则 随机森林与决策树的关系 随机森林案例
推荐系统原理
推荐系统产生背景 lambda架构数据处理 实时和离线场景分析 Python on Hive 推荐系统应用
⑦ Flink实时计算体系
Flink 基础
Flink 原理分析 Flink 架构分析 Flink 基本组件 Flink 应用场景 流式框架对比 Flink 开发环境配置 Flink 程序编写步骤
Flink 批次处理案例 Flink 流式处理案例
Flink 安装部署
Flink 本地模式 Flink 集群模式 Flink Standalone模式 Flink on Yarn Yarn session run 命令分析 Flink HA 原理与搭建
Flink on Yarn HA原理 Flink Scala Shell
Flink Api
Flink API抽象级别分析 Flink DataSource Flink Transformations Flink Sink Flink DataStream 常用API Flink DataSet 常用 API
Flink Table AP及SQL 分析 Flink DataType Flink 序列化分析
Flink 高级功能
Flink Broadcast Flink Accumulator Flink 广播变量与累加器的区别 Flink Distributed Cache Flink State管理与容错
Flink StateBackend Flink checkpoint Flink Restart Strategy Flink SavePoint
Flink 窗口与Time
Flink Window TimeWindow 使用 CountWindow使用 自定义 Window Window增量与全量聚合 Flink Time Flink 处理乱序数据
Flink Watermark 数据乱序案例分析 Flink 并行度设置 TaskManager 与
Slot
Flink与Kafka整合
Flink 与Kafka 整合参数配置 Flink 消费数据位置确定原则 开启Checkpoint同步 Offset 自定义Kafka Source 自定义 Kafka Sink
两阶段提交确保数据消费一致 Flink 内部状态管理 Flink 外部状态管理 手动实现两阶段提交
⑧ 大数据平台架构体系
Hive优化
hive优化思想/hive查询计划 hive本地模式/hive并行计算 hive严格模式/hive排序 hive map join/hive 大表 join hive map-side聚合
hive合并小文件
hive map与reduce个数 hive-jvm 重用 Hive数据倾斜/Hive脚本编程 Hive 脚本执行架构/Hive 的任务的监
控
Hbase 优化
预分区 Rowkey设计 列族个数 Compact 合并优化 Split 优化 多 htable 并发写 Htable参数设置 批量写 批量读 多线程并发写
多htable并发读 多线程并发读 缓存查询结果 Blockcache Htablepool Hbase索引
Spark 核心源码分析
Spark-pipeline iterator 源码分析
map 源码分析 flatMap 源码分析 reduceByKey源码分析 combineByKey 源码分析 aggregateByKey 源码分析 sortByKey源码分析
repartition源码分析 coalesce 源码分析 distinct源码分析
Spark-Master启动源码分析
Spark-Worker启动源码分析 Spark-Driver启动源码分析 Spark-Application 注册源码分析 Spark-Executor启动源码分析
Spark-资源调度源码分析、任务调度源码分析 Spark-Shuffle-Write 源码分析 Spark-Shuffle-Read源码分析
Spark 优化
Spark 分配更多的资源 Spark 并行度调优 Spark 代码调优 Spark 数据结构选择 SparkKryo序列化器使用 Spark 算子选择使用
Spark 自定义分区器 Spark 数据结构优化
Spark 数据本地化调优 Spark内存调优 Spark堆外内存调优 SparkShuffle调优 Spark数据倾斜不同解决方案
Azkaban调度框架
Azkaban任务流调度框架的原理 Azkaban环境准备 Azkaban导入数据库 配置运行Azkaban SSL配置讲解 Azkaban web服务器配置
测试验证Azkaban Azkaban设计工作流程 如何编写各阶段job 配置工作流&执行工作流 工作流执行监控
机器学习优化
有无截距 线性不可分问题 调整分类域值 鲁棒性调优 归一化数据 均值归一化 逻辑回归训练方法选择 机器学习中python 脚本优
化
步长经验调节 降维分析
Flink 源码分析
Flink 启动源码分析 Flink JobManager源码分析 Flink TaskManager源码分析 Flink 提交任务源码分析 Flink Task 数据处理源码分析
Flink 算子源码分析
⑨ 总复习和就业指导
各阶段总复习
重点知识点整理
各公司重点面试题
简历指导
面试技巧与套路
模拟面试
入职新公司注意问题
Sqoop 版本介绍
鼠标中键滚动放大缩小
左键按住拖动