python中文分词器-结巴分词

发表于 2017-03-17 分类于 Python 阅读次数：本文字数： 2.7k 阅读时长 ≈ 2 分钟

由于工作需要用到对中文进行分词,但碍于中文不同英文,英文只有26个字母组成,中文汉字常见的就有几千个,各种不同形式的组合,而且还有些生僻字,所以中文分词这块一起比较复杂,需要大量的语料库做训练.中科院的ICTCLAS,哈工大的ltp,东北大学的NIU Parser是学术界著名的中文分词器,但由于不开源,想要更好的二次开始很困难,jieba分词是python写成的一个比较有名的中文分词开源库,比较强大,其github地址**在这里**

Jieba

该项目的作者其实挺有意思,对结巴这个词反其道用之,想想还确实比较符合中文分词,jieba分词支持3种模式及可以自定义词典,而且还支持繁体中文的分词,还是比较强大的

采用算法

基于前缀词典实现高效的词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG)

采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合

对于未登录词，采用了基于汉字成词能力的 HMM 模型，使用了 Viterbi 算法

TopN的关键字提取采用的则是基于 TF-IDF 算法

3种分词模式

精确模式: 试图将句子最精确地切开，适合文本分析

全模式: 把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义

搜索引擎模式: 在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词

这里使用的是第一种模式,把文本分解成日常生活中常用的词是一种比较常用的适用场景,而全模式则会把文本所有的词都分开,速度快但存在歧义.

#encoding=utf-8
import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))

#输出
#全模式: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
#
#精确模式: 我/ 来到/ 北京/ 清华大学
#
#新词识别：他, 来到, 了, 网易, 杭研, 大厦    (此处，“杭研”并没有在词典中，但是也被Viterbi算法识别出来了)
#
#搜索引擎模式: 小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

自定义词典

在python中import jieba使用时,会引用包里自带的字典,但是允许我们添加自定义的词典,以便包含 jieba 词库里没有的词,jieba也提倡自己添加词典,以便提高具体场景下分词正确率,自带的词典文件在jieba包的dict.txt

词典的格式也很简单: 每一行分三部分：词语、词频(可省略)、词性(可省略),用空格隔开,顺序不可颠倒,在词频省略时使用自动计算的能保证分出该词的词频

常用函数

#载入自定义词典文件路径
jieba.load_userdict(file_name)
#提取出现频率最高的TopK词及权重
tags = jieba.analyse.extract_tags(content, topK=topK, withWeight=withWeight)
#提取出现频率最高的TopK词
tags = jieba.analyse.extract_tags(content, topK=topK)
#对字符串进行分词,cut_all为True时采用全模式,为False时使用精确模式,该方法直接返回list对象
fenci = jieba.lcut(rline,cut_all=True,HMM=False)
#同上,返回的为一个可迭代的generator,可使用for循环输出每一个词
fenci = jieba.lcut(rline,cut_all=True,HMM=False)
#搜索引擎模式
seg_list = jieba.cut_for_search(rline,HMM=False)
#程序中动态添加或删除词典
jieba.add_word(word, freq=None, tag=None)
jieba.del_word(word)
#词性标注，返回的对象中包含分词后的词及该词所属词性
word = jieba.posseg.cut(rline)

商品名称替换为TopK

with open(fileone, "r", encoding="GBK") as f:
    for line in f:
        #统计文件总行数
        line_total = line_total+1 
        #到文件末尾退出
        if not line:
            break
        #按0_07分隔符分隔字段(请将_换成x)
        rline = re.split("[]", line, 1)
        #商品名称只保留汉字
        rline[0] = re.sub(pattern,"",rline[0])
        #过滤商品名称为空的行
        if (rline[0]):
            #分词
            fenci = jieba.lcut(rline[0])
            #以topK为准比较分词结果,如果存在于topK,则返回第一个分词替换原有的商品名称(topK越排前频率越高)
            for x in range(len(tags)):
                if tags[x] in fenci:
                    rline[0] = tags[x]
                    break
                else:
                    continue
            #如果所有的分词都不存在topk中则商品名称不变
            line_fmt = rline[0] + "[]" + rline[1]
            f1.write(line_fmt)
        else:
            #统计处理后商品名称为空行数
            blk_total = blk_total+1
return fileone,line_total,blk_total

参考文章:

jieba分词Github项目地址