python数据挖掘需要学的内容

yipeiwu_com6年前Python基础

1、Pandas库的操作

Panda是数据分析特别重要的一个库,我们要掌握以下三点:

· pandas 分组计算;

· pandas 索引与多重索引;

索引比较难,但是却是非常重要的

· pandas 多表操作与数据透视表

2、numpy数值计算

numpy数据计算主要应用是在数据挖掘,对于以后的机器学习,深度学习,这也是一个必须掌握的库,我们要掌握以下内容:

· Numpy array理解;

· 数组索引操作;

· 数组计算;

· Broadcasting(线性代数里面的知识)

3、数据可视化-matplotlib与seaborn

· Matplotib语法

python最基本的可视化工具就是matplotlib。咋一看Matplotlib与matlib有点像,要搞清楚二者的关系是什么,这样学习起来才会比较轻松。

· seaborn的使用

seaborn是一个非常漂亮的可视化工具。

· pandas绘图功能

前面说过pandas是做数据分析的,但它也提供了一些绘图的API。

4、数据挖掘入门

这部分是最难也是最有意思的一部分,要掌握以下几个部分:

· 机器学习的定义

在这里跟数据挖掘先不做区别

· 代价函数的定义

· Train/Test/Validate

· Overfitting的定义与避免方法

5、数据挖掘算法

数据挖掘发展到现在,算法已经非常多,下面只需掌握最简单的,最核心的,最常用的算法:

· 最小二乘算法;

· 梯度下降;

· 向量化;

· 极大似然估计;

· Logistic Regression;

· Decision Tree;

· RandomForesr;

· XGBoost;

6、数据挖掘实战

通过机器学习里面最着名的库scikit-learn来进行模型的理解。

相关文章

十行代码使用Python写一个USB病毒

十行代码使用Python写一个USB病毒

大家好,我又回来了。 昨天在上厕所的时候突发奇想,当你把usb插进去的时候,能不能自动执行usb上的程序。查了一下,发现只有windows上可以,具体的大家也可以搜索(搜索关键词usb...

python实战教程之自动扫雷

python实战教程之自动扫雷

前言 自动扫雷一般分为两种,一种是读取内存数据,而另一种是通过分析图片获得数据,并通过模拟鼠标操作,这里我用的是第二种方式。 一、准备工作 1.扫雷游戏 我是win10,没有默认的扫...

python 简单搭建阻塞式单进程,多进程,多线程服务的实例

我们可以通过这样子的方式去理解apache的工作原理 1 单进程TCP服务(堵塞式) 这是最原始的服务,也就是说只能处理个客户端的连接,等当前客户端关闭后,才能处理下个客户端,是属于阻塞...

python+pyqt5编写md5生成器

python+pyqt5编写md5生成器

本文实例为大家分享了python+pyqt5编写md5生成器的具体代码,供大家参考,具体内容如下 学了一下pyqt5,写一个小程序来实践一下。 下图是程序界面: 下面是代码:...

python编写暴力破解zip文档程序的实例讲解

python编写暴力破解zip文档程序的实例讲解

编写暴力破解Zip文件要从学习zipfile库的使用方法入手,首先打开Python解释器,用help('zipfile')命令来了解这个库并重点看一下ZipFile类中的extracta...