pandas factorize实现将字符串特征转化为数字特征

yipeiwu_com6年前Python基础

将原始数据中的字符串特征转化为模型可以识别的数字特征可是使用pandas自带的factorzie方法。

原始数据的job特征值如下

都是字符串特征,无法用于训练,当然可以单独建立map硬编码处理,但是pandas已经封装好了相应的方法。

data = pd.read_csv("data/test_set.csv")
data["job"] = pd.factorize(data["job"])[0].astype(np.uint16)

以上这篇pandas factorize实现将字符串特征转化为数字特征就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

python基于递归解决背包问题详解

递归是个好东西,任何具有递归性质的问题通过函数递归调用会变得很简单。一个很复杂的问题,几行代码就能搞定。   最简单的递归问题:现有重量为weight的包,有若干重量分别为W1...

解决python 读取excel时 日期变成数字并加.0的问题

解决python 读取excel时 日期变成数字并加.0的问题

excel 文件内容如下: 读取excel内容: import xlrd from datetime import datetime from xlrd import xldat...

Python中使用装饰器来优化尾递归的示例

尾递归简介 尾递归是函数返回最后一个操作是递归调用,则该函数是尾递归。 递归是线性的比如factorial函数每一次调用都会创建一个新的栈(last-in-first-out)通过不断的...

Python中设置变量作为默认值时容易遇到的错误

思考一下下面的代码片段:   def foo(numbers=[]): numbers.append(9) print numbers 在这里,我们定义了一个...

Python占用的内存优化教程

概述 如果程序处理的数据比较多、比较复杂,那么在程序运行的时候,会占用大量的内存,当内存占用到达一定的数值,程序就有可能被操作系统终止,特别是在限制程序所使用的内存大小的场景,更容易发...