Python语言检测模块langid和langdetect的使用实例

yipeiwu_com6年前Python基础

之前使用数据编码风格检测的模块chardet比较多一点,今天提到的两个模块是检测数据的语言类型,比如是:中文还是英文,模块的使用方法也比较简单,我这里只是简单地使用了一下,因为项目中有这个需求,所以拿来用了一下,并没有深入地去研究这两个模块,模块的地址链接我都给出来了,需要的话可以去研究下:

def langidFunc():
  '''
  https://github.com/yishuihanhan/langid.py
  '''
  print langid.classify("We Are Family")
  print langid.classify("Questa e una prova")
  print langid.classify("我们都有一个家")
  identifier=LanguageIdentifier.from_modelstring(model,norm_probs=True)
  print identifier.classify("We Are Family")
 
def langdetectFunc():
  '''
  https://github.com/yishuihanhan/langdetect
  '''
  s1=u"本篇文章主要介绍两款语言探测工具,用于区分文本到底是什么语言,"
  s2=u'We are pleased to introduce today a new technology'
  print detect(s1)
  print detect(s2)
  print detect_langs(s2)  # detect_langs()输出探测出的所有语言类型及其所占的比例
  print detect_langs("Otec matka syn.")

结果如下:

('en', 9.061840057373047)
('it', -35.41771221160889)
('zh', -85.79573845863342)
('en', 0.16946150595865334)
zh-cn
en
[en:0.999998109575]
[pl:0.571426592237, fi:0.428568772028]

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对【听图阁-专注于Python设计】的支持。如果你想了解更多相关内容请查看下面相关链接

相关文章

python+VTK环境搭建及第一个简单程序代码

python+VTK环境搭建及第一个简单程序代码

简介: Vtk,(visualization toolkit)是一个开源的免费软件系统,主要用于三维计算机图形学、图像处理和可视化。Vtk是在面向对象原理的基础上设计和实现的,它的内核是...

Django实现网页分页功能

Django实现网页分页功能

本文实例为大家分享了Django实现分页功能,为了容易区别功能的展现,先创建一个数据库,用数据库中的数据做演示。 创建数据库步骤如下: 1.创建模型,代码如下: from djang...

Pytorch抽取网络层的Feature Map(Vgg)实例

这边我是需要得到图片在Vgg的5个block里relu后的Feature Map (其余网络只需要替换就可以了) 索引可以这样获得 vgg = models.vgg19(pretra...

在Django的视图中使用数据库查询的方法

在视图中也有笨方法可以从数据库中获取数据。 很简单: 用现有的任何 Python 类库执行一条 SQL 查询并对结果进行一些处理。 在本例的视图中,我们使用了 MySQLdb 类库(可以...

详解python列表(list)的使用技巧及高级操作

1、合并列表(extend) 跟元组一样,用加号(+)将两个列表加起来即可实现合并: In [1]: x=list(range(1, 13, 2)) In [2]: x + ['b'...