python数据挖掘需要学的内容

yipeiwu_com6年前Python基础

1、Pandas库的操作

Panda是数据分析特别重要的一个库,我们要掌握以下三点:

· pandas 分组计算;

· pandas 索引与多重索引;

索引比较难,但是却是非常重要的

· pandas 多表操作与数据透视表

2、numpy数值计算

numpy数据计算主要应用是在数据挖掘,对于以后的机器学习,深度学习,这也是一个必须掌握的库,我们要掌握以下内容:

· Numpy array理解;

· 数组索引操作;

· 数组计算;

· Broadcasting(线性代数里面的知识)

3、数据可视化-matplotlib与seaborn

· Matplotib语法

python最基本的可视化工具就是matplotlib。咋一看Matplotlib与matlib有点像,要搞清楚二者的关系是什么,这样学习起来才会比较轻松。

· seaborn的使用

seaborn是一个非常漂亮的可视化工具。

· pandas绘图功能

前面说过pandas是做数据分析的,但它也提供了一些绘图的API。

4、数据挖掘入门

这部分是最难也是最有意思的一部分,要掌握以下几个部分:

· 机器学习的定义

在这里跟数据挖掘先不做区别

· 代价函数的定义

· Train/Test/Validate

· Overfitting的定义与避免方法

5、数据挖掘算法

数据挖掘发展到现在,算法已经非常多,下面只需掌握最简单的,最核心的,最常用的算法:

· 最小二乘算法;

· 梯度下降;

· 向量化;

· 极大似然估计;

· Logistic Regression;

· Decision Tree;

· RandomForesr;

· XGBoost;

6、数据挖掘实战

通过机器学习里面最着名的库scikit-learn来进行模型的理解。

相关文章

Python模拟百度登录实例详解

最近公司产品和百度贴吧合作搞活动,为了增加人气,打算做个自动签到的小程序。这个是测试登录的代码,写的比较随意,仅实现了登录并读取关注贴吧列表,下边的就比较简单。 百度登录还是有点麻烦的,...

python threading模块操作多线程介绍

python是支持多线程的,并且是native的线程。主要是通过thread和threading这两个模块来实现的。thread是比较底层的模块,threading是对thread做了一...

Python实现删除Android工程中的冗余字符串

Android提供了一套很方便的进行资源(语言)国际化机制,为了更好地支持多语言,很多工程的翻译往往会放到类似crowdin这样的平台上。资源是全了,但是还是会有一些问题。 哪些问题 以...

12个步骤教你理解Python装饰器

前言 或许你已经用过装饰器,它的使用方式非常简单但理解起来困难(其实真正理解的也很简单),想要理解装饰器,你需要懂点函数式编程的概念,python函数的定义以及函数调用的语法规则等,虽然...

详解python中递归函数

函数执行流程 def foo1(b,b1=3): print("foo1 called",b,b1) def foo2(c): foo3(c) print...