数据分析需要三方面的知识:分析工具、统计学知识、行业基本知识。
数据分析完整的过程

- 第一步,分析需求,明确目标;
- 第二步,采集第一步确定的数据;
- 第三步,整理数据,也就是数据清洗;
- 第四步,分析数据,采用数学方法、统计方法等对数据进行分析操作;
- 第五步,数据可视化,将分析结果以直观的形式进行展示。
数据分析模块

- NumPy Numerical Python是一个用于数值运算的 Python 库,专门对数值运算进行优化,最大的优势是运行高效。
- Matplotlib 是常用的数据可视化的工具包,用来绘制各种图表,更好地展示数据。
- Pandas 是 Python 重要的数据分析工具包,也是目前非常流行的 Python 数据分析工具。
- pandas-datareader
多维数组
NumPy 中最重要的对象是多维数组(ndarray),ndarray 是 N-dimensional array,即 N 维数组。
创建数组
生成元素全为0的多维数组默认生成的是浮点数
生成元素全为1的多维数组默认生成的是浮点数
多维数组的加减乘除




广播是什么?
矢量化是什么?

数据分析思维
统计学
集中趋势
集中趋势所反映的是一组数据所具有的共同趋势,它代表了一组数据的总体水平。其常用指标有 平均数、中位数 和 众数。
中位数是指数据排序后处于中间的那个数。众数是指一组数据中出现次数最多的数。离中趋势
离中趋势是指一组数据中各数据值以不同程度的距离偏离其中心(平均数)的趋势。其常用指标有 极差、方差 和标准差。
极差是一组数据的最大值减去最小值得到的,反应了数据变动的最大范围。
方差的计算方式是:将一组数据中的每个数减去这组数据的平均数,然后将得到的结果进行平方求和,最后再除以数据的个数。
而方差的平方根则是标准差。因为方差是对数据进行平方得到的,所以量纲(单位)和原数据不一致。对方差进行开根号后得到的标准差量纲和原数据一致,使用起来更方便。公式描述:公式中M为数据的平均数,n为数据的个数,s2为方差。