python数据挖掘需要学的内容

yipeiwu_com6年前Python基础

1、Pandas库的操作

Panda是数据分析特别重要的一个库,我们要掌握以下三点:

· pandas 分组计算;

· pandas 索引与多重索引;

索引比较难,但是却是非常重要的

· pandas 多表操作与数据透视表

2、numpy数值计算

numpy数据计算主要应用是在数据挖掘,对于以后的机器学习,深度学习,这也是一个必须掌握的库,我们要掌握以下内容:

· Numpy array理解;

· 数组索引操作;

· 数组计算;

· Broadcasting(线性代数里面的知识)

3、数据可视化-matplotlib与seaborn

· Matplotib语法

python最基本的可视化工具就是matplotlib。咋一看Matplotlib与matlib有点像,要搞清楚二者的关系是什么,这样学习起来才会比较轻松。

· seaborn的使用

seaborn是一个非常漂亮的可视化工具。

· pandas绘图功能

前面说过pandas是做数据分析的,但它也提供了一些绘图的API。

4、数据挖掘入门

这部分是最难也是最有意思的一部分,要掌握以下几个部分:

· 机器学习的定义

在这里跟数据挖掘先不做区别

· 代价函数的定义

· Train/Test/Validate

· Overfitting的定义与避免方法

5、数据挖掘算法

数据挖掘发展到现在,算法已经非常多,下面只需掌握最简单的,最核心的,最常用的算法:

· 最小二乘算法;

· 梯度下降;

· 向量化;

· 极大似然估计;

· Logistic Regression;

· Decision Tree;

· RandomForesr;

· XGBoost;

6、数据挖掘实战

通过机器学习里面最着名的库scikit-learn来进行模型的理解。

相关文章

python初学之用户登录的实现过程(实例讲解)

要求编写登录接口: 1. 输入用户名和密码 2.认证成功后显示欢迎信息 3.用户名输错,提示用户不存在,重新输入(5次错误,提示尝试次数过多,退出程序) 4.用户名正确,密码错误,提示...

python网络编程 使用UDP、TCP协议收发信息详解

UDP UDP是面向无连接的通讯协议,UDP数据包括目的端口号和源端口号信息,由于通讯不需要连接,所以可以实现广播发送。 UDP传输数据时有大小限制,每个被传输的数据报必须限定在64KB...

PyQt5实现无边框窗口的标题拖动和窗口缩放

网上找了半天都找不到好用的PyQt5无边框窗口的实现,借鉴部分前辈的窗口拖放代码,自己实现了一下无边框窗口,问题可能还有一点,慢慢改吧 先做个笔记 py文件 #!/usr/bin...

Python实现线性判别分析(LDA)的MATLAB方式

Python实现线性判别分析(LDA)的MATLAB方式

线性判别分析(linear discriminant analysis),LDA。也称为Fisher线性判别(FLD)是模式识别的经典算法。 (1)中心思想:将高维的样本投影到最佳鉴别矢...

python 将列表中的字符串连接成一个长路径的方法

今天实习公司分配了一个数据处理的任务。在将列表中的字符串连接成一个长路径时,我遇到了如下问题: import os path_list = ['first_directory',...