python数据挖掘需要学的内容

yipeiwu_com6年前Python基础

1、Pandas库的操作

Panda是数据分析特别重要的一个库,我们要掌握以下三点:

· pandas 分组计算;

· pandas 索引与多重索引;

索引比较难,但是却是非常重要的

· pandas 多表操作与数据透视表

2、numpy数值计算

numpy数据计算主要应用是在数据挖掘,对于以后的机器学习,深度学习,这也是一个必须掌握的库,我们要掌握以下内容:

· Numpy array理解;

· 数组索引操作;

· 数组计算;

· Broadcasting(线性代数里面的知识)

3、数据可视化-matplotlib与seaborn

· Matplotib语法

python最基本的可视化工具就是matplotlib。咋一看Matplotlib与matlib有点像,要搞清楚二者的关系是什么,这样学习起来才会比较轻松。

· seaborn的使用

seaborn是一个非常漂亮的可视化工具。

· pandas绘图功能

前面说过pandas是做数据分析的,但它也提供了一些绘图的API。

4、数据挖掘入门

这部分是最难也是最有意思的一部分,要掌握以下几个部分:

· 机器学习的定义

在这里跟数据挖掘先不做区别

· 代价函数的定义

· Train/Test/Validate

· Overfitting的定义与避免方法

5、数据挖掘算法

数据挖掘发展到现在,算法已经非常多,下面只需掌握最简单的,最核心的,最常用的算法:

· 最小二乘算法;

· 梯度下降;

· 向量化;

· 极大似然估计;

· Logistic Regression;

· Decision Tree;

· RandomForesr;

· XGBoost;

6、数据挖掘实战

通过机器学习里面最着名的库scikit-learn来进行模型的理解。

相关文章

python常规方法实现数组的全排列

本文实例讲述了常规方法实现python数组的全排列操作。分享给大家供大家参考。具体分析如下: 全排列解释:从n个不同元素中任取m(m≤n)个元素,按照一定的顺序排列起来,叫做从n个不同元...

Python FTP操作类代码分享

复制代码 代码如下:#!/usr/bin/py2# -*- coding: utf-8 -*-#encoding=utf-8 '''''    ftp自动下...

全面理解Python中self的用法

刚开始学习Python的类写法的时候觉得很是麻烦,为什么定义时需要而调用时又不需要,为什么不能内部简化从而减少我们敲击键盘的次数?你看完这篇文章后就会明白所有的疑问。 self代表类的实...

python3.3使用tkinter开发猜数字游戏示例

利用这个小游戏可以学习一下ython3.3中tkinter的使用方法复制代码 代码如下:# -*- coding: utf-8 -*-import tkinter as tkimport...

Pycharm+Scrapy安装并且初始化项目的方法

Pycharm+Scrapy安装并且初始化项目的方法

前言 Scrapy是一个开源的网络爬虫框架,Python编写的。最初设计用于网页抓取,也可以用来提取数据使用API或作为一个通用的网络爬虫。是数据采集不可必备的利器。 安装 pip...