对python sklearn one-hot编码详解

yipeiwu_com6年前Python基础

one-hot编码的作用

使用one-hot编码,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点

将离散特征通过one-hot编码映射到欧式空间,是因为,在回归,分类,聚类等机器学习算法中,特征之间距离的计算或相似度的计算是非常重要的,而我们常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余弦相似性,基于的就是欧式空间。

sklearn的一个例子

from sklearn import preprocessing

enc = preprocessing.OneHotEncoder()

enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])
print(enc.n_values_)//每个特征对应的最大位数

print(enc.transform([[0,1,3]]).toarray())

print(enc.transform([[0,1,1]]).toarray())

上面代码enc.fit()里有一个4行3列的矩阵

1、每一列对应于一个样本的特征序列,即一个样本有三个特征

2、4行表明传入了4个样本

3、观察每一列的值可以知道:第一个特征有两个取值0,1;第二个特征有三个取值0,1,2;第三个特征有4个取值0,1,2,3

4、所以第一个特征的one-hot编码是一个两位的01串,第二个特征是一个三位的01串,第三个特征是一个4位的01串

以上这篇对python sklearn one-hot编码详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

如何使用Python脚本实现文件拷贝

如何使用Python脚本实现文件拷贝

这篇文章主要介绍了如何使用Python脚本实现文件拷贝,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 1.实现目的 统一时间对服务器...

基于Python实现签到脚本过程解析

无聊刷日剧,看到签到断了好久,简单写了个脚本,通过模拟抓包的方式实现 1、先登录到字幕组网站获取token 2、用获取到的token登录到人人活动页面获取cookie 3、用获取到的co...

python 上下文管理器使用方法小结

上下文管理器最常用的是确保正确关闭文件, with open('/path/to/file', 'r') as f: f.read() with 语句的基本语法, with...

Python3.5内置模块之time与datetime模块用法实例分析

Python3.5内置模块之time与datetime模块用法实例分析

本文实例讲述了Python3.5内置模块之time与datetime模块用法。分享给大家供大家参考,具体如下: 1、模块的分类 a、标准库(Python自带):sys、os模块 b、开...

Python判断文件和字符串编码类型的实例

python判断文件和字符串编码类型可以用chardet工具包,可以识别大多数的编码类型。但是前几天在读取一个Windows记事本保存的txt文件时,GBK却被识别成了KOI8-R,无解...