• 脚本之家
  • 软件下载
    android软件 MAC软件 驱动下载 字体下载 DLL下载
  • 源码下载
    asp源码 php源码 asp.net源码 jsp源码 网页编辑器 数据库管理 常用组件 脚本下载
  • 在线工具
    在线手册 CSS格式化 JS格式化 Html转化为Js js正则表达式
  • 网页教程基础
  • 服务器常用软件
  • 手机版
  • 关注微信
脚本之家
  • 网页制作
  • 网络编程
  • 脚本专栏
  • 脚本下载
  • 数据库
  • CMS教程
  • 电子书籍
  • 平面设计
  • 媒体动画
  • 操作系统
  • 网站运营
  • 网络安全
  • 在线手册
  • vbs
  • DOS/BAT
  • hta
  • htc
  • python
  • perl
  • 游戏相关
  • VBA
  • 远程脚本
  • ColdFusion
  • ruby专题
  • autoit
  • seraphzone
  • PowerShell
  • linux shell
  • Lua
  • Golang
  • Erlang
  • 其它
您的位置:首页 → 脚本专栏 → python → 正文内容 Python结巴中文分词工具

Python结巴中文分词工具使用过程中遇到的问题及解决方法

作者:捂汗县长 字体:[增加 减小] 类型:转载 时间:2017-04-15 我要评论

这篇文章主要介绍了Python结巴中文分词工具使用过程中遇到的问题及解决方法,较为详细的讲述了Python结巴中文分词工具的下载、安装、使用方法及容易出现的问题与相应解决方法,需要的朋友可以参考下

本文实例讲述了Python结巴中文分词工具使用过程中遇到的问题及解决方法。分享给大家供大家参考,具体如下:

结巴分词是Python语言中效果最好的分词工具,其功能包括:分词、词性标注、关键词抽取、支持用户词表等。这几天一直在研究这个工具,在安装与使用过程中遇到一些问题,现在把自己的一些方法帖出来分享一下。

官网地址:https://github.com/fxsjy/jieba

1、安装。

按照官网上的说法,有三种安装方式,

第一种是全自动安装:easy_install jieba 或者 pip install jieba,可是并没有找到它提供这个安装程序。

第二种方法是半自动安装:先下载http://pypi.python.org/pypi/jieba/ ,解压后在cmd命令行中运行 python setup.py install。这里需要注意的是,默认情况下,不能在cmd中直接运行python命令,需要把它的路径加入到环境变量path中方可。我试过,可行。但是 这种方法安装之后,结巴分词功能只能在Python自带的IDLE中使用。在含有PyDEV的MyEclipse中不能执行“import jieba”命令,所以继续尝试第三种方法。

第三种方法是手动安装:将jieba目录放置于当前目录或者site-packages目录。把下载到的jieba-0.30.zip解压后,里面有个jibba的文件夹,把它复制到与你的Python程序相同的位置,这样在程序中就可以执行“import jieba”了。

2、关于分词的实现

官网提供了分词的基本用法示例 :

#encoding=utf-8
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print "Full Mode:", "/ ".join(seg_list) # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print "Default Mode:", "/ ".join(seg_list) # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦") # 默认是精确模式
print ", ".join(seg_list)
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造") # 搜索引擎模式
print ", ".join(seg_list)

程序可以执行,但是在MyEclipse中显示中文为Unicode编码,这不科学。

但是继续执行另一个词性标注的示例却非常正常:

import jieba.posseg as pseg
words = pseg.cut("我爱北京天安门")
for w in words:
  print w.word, w.flag

所以我就想去分析一下它的源代码,结果发现在jiba/_init_.py文件(这是实现分词的文件)的第209行(cut函数)中有关于检查编码的语句块:

if not isinstance(sentence, unicode):
  try:
   sentence = sentence.decode('utf-8')
  except UnicodeDecodeError:
   sentence = sentence.decode('gbk','ignore')

而在jieba/posseg/_init_.py文件(这是实现词性标注的文件)第158行的cut函数中却没有发现此类代码。所以我猜想,前者有检查编码的代码就出现乱码,而后者没有检查编码的代码而正常显示,所以就把前者检查编码的代码给注释了,结果程序执行报错,只好又把人家的源码还原,结果中文又正常显示了!

运行效果如下图:

以上只是对固定的中文字符串变量进行分词和词性标注,接下来的文章里我会尝试从文件中读取中文进行分词和词性标注。

更多关于Python相关内容可查看本站专题:《Python字典操作技巧汇总》、《Python字符串操作技巧汇总》、《Python常用遍历技巧总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》及《Python入门与进阶经典教程》

希望本文所述对大家Python程序设计有所帮助。

您可能感兴趣的文章:

  • Python中文分词实现方法(安装pymmseg)
  • python实现中文分词FMM算法实例
  • Python smallseg分词用法实例分析
  • python 中文乱码问题深入分析
  • python处理json数据中的中文
  • Python中使用中文的方法
  • python实现中文输出的两种方法
  • Python 中文正则表达式笔记
  • python 中文字符串的处理实现代码
  • wxPython中文教程入门实例
  • python将html转成PDF的实现代码(包含中文)
  • python使用reportlab画图示例(含中文汉字)
  • Python中文分词工具之结巴分词用法实例总结【经典案例】
Tags:Python 中文 分词

相关文章

  • 2015-10-10Python编程中的for循环语句学习教程
  • 2014-07-07python实现定制交互式命令行的方法
  • 2015-04-04利用QT写一个极简单的图形化Python闹钟程序
  • 2017-01-01Python 出现错误TypeError: ‘NoneType’ object is not iterabl
  • 2014-03-03使用python删除nginx缓存文件示例(python文件操作)
  • 2014-02-02python重试装饰器示例
  • 2014-05-05Python SQLAlchemy基本操作和常用技巧(包含大量实例,非常好)
  • 2016-07-07Windows中使用wxPython和py2exe开发Python的GUI程序的实例教程
  • 2016-12-12Python序列操作之进阶篇
  • 2015-07-07开始着手第一个Django项目

最新评论

大家感兴趣的内容

  • 1Python入门教程 超详细1小时学会
  • 2python 中文乱码问题深入分析
  • 3python strip()函数 介绍
  • 4Python 列表(List)操作方法详解
  • 5pycharm 使用心得(一)安装和首
  • 6比较详细Python正则表达式操作指
  • 7Python 字典(Dictionary)操作详解
  • 8Python科学计算环境推荐——Anac
  • 9Python 元组(Tuple)操作详解
  • 10Python字符串的encode与decode研

最近更新的内容

    • Python模仿POST提交HTTP数据及使用Cookie
    • Python3 正在毁灭 Python的原因分析
    • 对比Python中__getattr__和 __getattribu
    • 通过实例浅析Python对比C语言的编程思想差
    • Python中集合的内建函数和内建方法学习教
    • python使用reportlab画图示例(含中文汉字
    • 零基础写python爬虫之使用Scrapy框架编写
    • python实现模拟按键,自动翻页看u17漫画
    • python装饰器使用方法实例
    • python 提取文件的小程序

常用在线小工具

关于我们 - 广告合作 - 联系我们 - 免责声明 - 网站地图 - 投诉建议 - 在线投稿

©CopyRight 2006-2017 JB51.Net Inc All Rights Reserved. 脚本之家 版权所有

  • navicat for mysql图形化管理工具 v11.2.15 64bit 简体中文免费版 下载-脚本之家

  • sybase powerbuilder 12.5 官方正式破解版(powerbuilder 12.1完美破解补丁) 下载-脚本之家

  • 推荐一款mysql图形管理工具navicat 8.2中文免费版 下载-脚本之家

  • 数据库_软件下载 - 脚本之家

  • mssql2008 正式版 sql server 2008 r2 64位32位 下载-脚本之家

  • sybase powerdesigner v12.5 特别破解版 下载-脚本之家

  • powerdesigner下载 power designer v15.1 汉化破解版 下载-脚本之家

  • navicat破解版下载 navicat11注册机(navicat11全系列注册机) 中文绿色版 下载-脚本之家

  • mysql图形工具 mysql gui tools 5.0 附中文汉化包 下载-脚本之家

  • display和visibility的区别_css教程_css_网页制作_脚本之家

  • css 文本字体颜色设置方法(css color)_css教程_css_网页制作_脚本之家

  • 总结30个css3选择器 _css3_css_网页制作_脚本之家

  • 不定宽高的文字在div中垂直居中实现方法_div+css教程_css_网页制作_脚本之家

  • css3制作hover下划线动画_css3_css_网页制作_脚本之家

  • html设置超链接字体颜色和点击后的字体颜色_css教程_css_网页制作_脚本之家

  • div+css实现带箭头的面包屑导航栏_div+css教程_css_网页制作_脚本之家

  • 详解css3中字体平滑处理和抗锯齿渲染_css3_css_网页制作_脚本之家

  • css_网页制作 - 脚本之家

  • css中margin边界叠加问题及解决方案_css教程_css_网页制作_脚本之家

  • css3 仿微信聊天小气泡实例代码_css3_css_网页制作_脚本之家

  • css3动画:5种预载动画效果实例_css3_css_网页制作_脚本之家

  • css控制ul li 的样式详解(推荐)_css教程_css_网页制作_脚本之家

  • div水平垂直居中的完美解决方案_css教程_css_网页制作_脚本之家

  • css中px em rem区别与使用_css教程_css_网页制作_脚本之家

  • css3效果:自定义“w”形运行轨迹实例_css3_css_网页制作_脚本之家