数据分析需要三方面的知识:分析工具、统计学知识、行业基本知识。

数据分析完整的过程

  • 第一步,分析需求,明确目标;
  • 第二步,采集第一步确定的数据;
  • 第三步,整理数据,也就是数据清洗;
  • 第四步,分析数据,采用数学方法、统计方法等对数据进行分析操作;
  • 第五步,数据可视化,将分析结果以直观的形式进行展示。

数据分析模块

  • NumPy Numerical Python是一个用于数值运算的 Python 库,专门对数值运算进行优化,最大的优势是运行高效。
  • Matplotlib 是常用的数据可视化的工具包,用来绘制各种图表,更好地展示数据。
  • Pandas 是 Python 重要的数据分析工具包,也是目前非常流行的 Python 数据分析工具。
  • pandas-datareader

多维数组

NumPy 中最重要的对象是多维数组(ndarray),ndarray 是 N-dimensional array,即 N 维数组。

创建数组 点击一下 np.array()
生成元素全为0的多维数组默认生成的是浮点数 点击一下 np.ones()
生成元素全为1的多维数组默认生成的是浮点数 点击一下 np.zeros()

多维数组的加减乘除

广播是什么? 查看答案 多维数组和数字的四则运算会作用在数组中的每个元素上,这在 numpy 中被称为 广播(Broadcasting)
矢量化是什么? 查看答案 numpy 中这种不用编写循环就可以对数据进行批量运算的方式叫做 矢量化

数据分析思维

统计学

  • 集中趋势

    集中趋势所反映的是一组数据所具有的共同趋势,它代表了一组数据的总体水平。其常用指标有 平均数、中位数 和 众数。
    中位数是指数据排序后处于中间的那个数。众数是指一组数据中出现次数最多的数。

  • 离中趋势

    离中趋势是指一组数据中各数据值以不同程度的距离偏离其中心(平均数)的趋势。其常用指标有 极差、方差 和标准差。
    极差是一组数据的最大值减去最小值得到的,反应了数据变动的最大范围。
    方差的计算方式是:将一组数据中的每个数减去这组数据的平均数,然后将得到的结果进行平方求和,最后再除以数据的个数。
    而方差的平方根则是标准差。因为方差是对数据进行平方得到的,所以量纲(单位)和原数据不一致。对方差进行开根号后得到的标准差量纲和原数据一致,使用起来更方便。

    公式描述:公式中M为数据的平均数,n为数据的个数,s2为方差。

练习