Python实现word2Vec model过程解析

yipeiwu_com6年前Python基础

这篇文章主要介绍了Python实现word2Vec model过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

import gensim, logging, os
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s', level=logging.INFO)
import nltk

corpus = nltk.corpus.brown.sents()

fname = 'brown_skipgram.model'
if os.path.exists(fname):
  # load the file if it has already been trained, to save repeating the slow training step below
  model = gensim.models.Word2Vec.load(fname)
else:
  # can take a few minutes, grab a cuppa
  model = gensim.models.Word2Vec(corpus, size=100, min_count=5, workers=2, iter=50)
  model.save(fname)

words = "woman women man girl boy green blue".split()
for w1 in words:
  for w2 in words:
    print(w1, w2, model.similarity(w1, w2))

print(model.most_similar(positive=['woman', ''], topn=1))
print(model.similarity('woman', 'girl'))girl

在gensim模块中已经封装了13年提出的model--word2vec,所以我们直接开始建立模型

这是建立模型的过程,最后会出现saving Word2vec的语句,代表已经成功建立了模型

这是输入了 gorvement和news关键词后 所反馈的词语 --- administration, 他们之间的相关性是0.508

当我在输入 women 和 man ,他们显示的相关性的0.638 ,已经是非常高的一个数字。

值得一提的是,我用的语料库是直接从nltk里的brown语料库。其中大概包括了一些新闻之类的数据。

大家如果感兴趣的话,可以自己建立该模型,通过传入不同的语料库,来calc 一些term的 相关性噢

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持【听图阁-专注于Python设计】。

相关文章

python3.6+opencv3.4实现鼠标交互查看图片像素

python3.6+opencv3.4实现鼠标交互查看图片像素

在利用opencv进行图片处理时,经常需要查看图片关心区域或位置的像素数值,苦于没有应手的小软件,我用python3.6+opencv3.4简单编制一个小工具,供大家使用。 流程 1...

Python语言描述最大连续子序列和

求最大连续子序列的和是一个很经典很古老的面试题了,记得在刚毕业找工作面试那会也遇到过同款问题。今儿突然想起来,正好快到毕业季,又该是苦逼的应届生们各种面试的时候到了,就给写了一些小代码解...

Python实现中值滤波去噪方式

Python实现中值滤波去噪方式

中值滤波器去噪: 中值滤波的主要原理是将数字图像中的某点用该点的邻域中各个像素值的中值所来代替,这样就能让目标像素周围能够更好的接近真实值,比如一张白纸上有一个黑点时,黑点的像素值比较大...

numpy的文件存储.npy .npz 文件详解

Numpy能够读写磁盘上的文本数据或二进制数据。 将数组以二进制格式保存到磁盘 np.load和np.save是读写磁盘数组数据的两个主要函数,默认情况下,数组是以未压缩的原始二进制格式...

python读取word文档,插入mysql数据库的示例代码

python读取word文档,插入mysql数据库的示例代码

表格内容如下: 1、实现批量导入word文档,取文档标题中的数字作为编号 2、除取上面打钩的内容需要匹配出来入库入库,其他内容全部直接入库mysql # wuyanfeng # -...