对python sklearn one-hot编码详解

yipeiwu_com6年前Python基础

one-hot编码的作用

使用one-hot编码,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点

将离散特征通过one-hot编码映射到欧式空间,是因为,在回归,分类,聚类等机器学习算法中,特征之间距离的计算或相似度的计算是非常重要的,而我们常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余弦相似性,基于的就是欧式空间。

sklearn的一个例子

from sklearn import preprocessing

enc = preprocessing.OneHotEncoder()

enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])
print(enc.n_values_)//每个特征对应的最大位数

print(enc.transform([[0,1,3]]).toarray())

print(enc.transform([[0,1,1]]).toarray())

上面代码enc.fit()里有一个4行3列的矩阵

1、每一列对应于一个样本的特征序列,即一个样本有三个特征

2、4行表明传入了4个样本

3、观察每一列的值可以知道:第一个特征有两个取值0,1;第二个特征有三个取值0,1,2;第三个特征有4个取值0,1,2,3

4、所以第一个特征的one-hot编码是一个两位的01串,第二个特征是一个三位的01串,第三个特征是一个4位的01串

以上这篇对python sklearn one-hot编码详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

深入浅析Python传值与传址

1. 传值与传址的区别 传值就是传入一个参数的值,传址就是传入一个参数的地址,也就是内存的地址(相当于指针)。他们的区别是如果函数里面对传入的参数重新赋值,函数外的全局变量是否相应改变:...

Python使用random模块生成随机数操作实例详解

本文实例讲述了Python使用random模块生成随机数操作。分享给大家供大家参考,具体如下: 今天在用Python编写一个小程序时,要用到随机数,于是就在网上查了一下关于Python生...

python使用多线程不断刷新网页的方法

本文实例讲述了python使用多线程不断刷新网页的方法。分享给大家供大家参考。具体如下: 这段代码可以开通过个线程不断刷新指定的页面,可用于刷票,增加网页访问量等等,不用再去按F5了...

python读取图片的方式,以及将图片以三维数组的形式输出方法

python读取图片的方式,以及将图片以三维数组的形式输出方法

近期做个小项目需要用到python读取图片,自己整理了一下两种读取图片的方式,其中一种用到了TensorFlow,(TensorFlow是基于python3 的)。代码及运行结果如下所示...

通过Py2exe将自己的python程序打包成.exe/.app的方法

通过Py2exe将自己的python程序打包成.exe/.app的方法

Windows 10 x64 macOS Sierra 10.12.4 Python 2.7 准备好装哔~了么,来吧,做个真正意义上的绿色小软件 Win下发布应用 起因 今天实验室同学看...