对python sklearn one-hot编码详解

yipeiwu_com6年前Python基础

one-hot编码的作用

使用one-hot编码,将离散特征的取值扩展到了欧式空间,离散特征的某个取值就对应欧式空间的某个点

将离散特征通过one-hot编码映射到欧式空间,是因为,在回归,分类,聚类等机器学习算法中,特征之间距离的计算或相似度的计算是非常重要的,而我们常用的距离或相似度的计算都是在欧式空间的相似度计算,计算余弦相似性,基于的就是欧式空间。

sklearn的一个例子

from sklearn import preprocessing

enc = preprocessing.OneHotEncoder()

enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])
print(enc.n_values_)//每个特征对应的最大位数

print(enc.transform([[0,1,3]]).toarray())

print(enc.transform([[0,1,1]]).toarray())

上面代码enc.fit()里有一个4行3列的矩阵

1、每一列对应于一个样本的特征序列,即一个样本有三个特征

2、4行表明传入了4个样本

3、观察每一列的值可以知道:第一个特征有两个取值0,1;第二个特征有三个取值0,1,2;第三个特征有4个取值0,1,2,3

4、所以第一个特征的one-hot编码是一个两位的01串,第二个特征是一个三位的01串,第三个特征是一个4位的01串

以上这篇对python sklearn one-hot编码详解就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

树莓派+摄像头实现对移动物体的检测

树莓派+摄像头实现对移动物体的检测

在上一篇文章中实现了树莓派下对摄像头的调用,有兴趣的可以看一下:python+opencv实现摄像头调用的方法 接下来,我们将使用python+opencv实现对移动物体的检测 一、环境...

Python正规则表达式学习指南

Python正规则表达式学习指南

1. 正则表达式基础 1.1. 简单介绍 正则表达式并不是Python的一部分。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎,效率上可能不如str自带的...

Django实现文件上传和下载功能

Django实现文件上传和下载功能

本文实例为大家分享了Django下完成文件上传和下载功能的具体代码,供大家参考,具体内容如下 一、文件上传 Views.py def upload(request): if req...

解决win64 Python下安装PIL出错问题(图解)

解决win64 Python下安装PIL出错问题(图解)

1、软件版本 首先我先安装了 python 2.7 pip是  8.1.2 2、当我要安装PIL时,我在cmd下面输入:pip install PIL 错误提示是: Coul...

python+unittest+requests实现接口自动化的方法

python+unittest+requests实现接口自动化的方法

前言: Requests简介 Requests 是使用Apache2 Licensed 许可证的 HTTP 库。用 Python 编写,真正的为人类着想。 Python 标准库中的 ur...