一、面试前的准备
二、直面数据分析面试
三、基础知识考查
四、编程技能考查
4.1 熟悉Python
4.1.1 概念
Anaconda -> Spyder & Jupyter Notebook
安装 Anaconda3-5.3.1安装Jupyter | Jupyter lab
4.1.2 数据分析 - pandas & numpy
pandas读取Excel或者CSV文件,处理表格数据。
4.1.3 数据可视化 - matplotlib & pyecharts
4.3 掌握SQL
4.3.1 数据库常见类型及表单查询SQL语句
(1)Structured Query Language
SQL StatementsMySQL SQL语句练习题
(2)Hive SQL
HDFS - 存储MapReduce - 计算
(3)Hive VS MySQL
数据量 - 查询延迟响应 - 数据看板
(4)Hive 不涉及子查询的单表查询SQL执行顺序
FROM + 表名WHERE + 查询条件GROUP BY + 字段名HAVING + 查询条件DISTINCT + 字段名ORDER BY + 字段名LIMIT + 数量
4.3.2 多表查询SQL语句
(1)索引
Hive无索引,使用分表表加快查询速度。(增量表&全量表)
(2)多表连接
join:以字段(列)为单位进行连接 union:以记录(行)为单位进行连接
(3)join
inner joinleft joinright joinfull join
(4)union
unionunion all
4.3.3 更多SQL内容
(1)聚合函数
sumavgcountstddevvariancemaxminpercentile
(2)distinct
select distinct idselect count(distince subject)
(3)case when
利用现有字段,结合条件,生成新的字段。分组和选择语句。聚合函数。
(4)窗口函数
为分组中的每条记录都会返回特定值减少表之间的连接row_number() over()percent_rank() over()sum() over()avg() over()man/min() over
(5)动态更新