中文切词算法

点赞:17132 浏览:80037 近期更新时间:2024-01-19 作者:网友分享原创网站原创

摘 要:如何高效率的获取满足个性化的需求成为了新时代的一个热门话题,搜索引擎在一定程度上体现了这一点.然而在搜索引擎中,内部分词算法机制是关键环节,它的目的在于选取好的关键字.一个好的分词算法会降低用户搜索信息的时间和难度,大大提高查询信息的效率.然而目前有很多分词算法,它们的性能和效率各不相同,本文的主要研究目的是探讨目前几种比较流行分词器算法的工作机制,根据它们自身的不同特点,在准确率和召回率这两个方面来比较它们的性能,并进一步研究它们是如何处理用户关键字的.

关 键 词:智能信息处理;网页处理;切词算法;网络爬虫

中图分类号:TP391文献标识码:ADOI:10.3969/j.issn.1003-6970.2013.07.027

本文著录格式:[1]黎佳.浅谈中文切词算法[J].软件,2313,34(7):75-76

0引言

所谓中文切词[1]就是将一个汉字序列切分成一个一个单独的词.这些词可以让信息检索系统理解用户的检索要求,进而为其搜索相关的内容.可以说它是搜索引擎[2]的关键,是文本挖掘的基础.但是如何分,分好之后如何让计算机理解,其处理过程就是分词算法.

目前相关的中文分词算法有很多,但总的来说可分为三大类[3][4][5]:机械分词方法、理解分词方法和统计分词方法.机械分词方法又称为基于字符串匹配的分词方法,按照一定的策略和相对应的机器词典中的词条进行匹配,如果找到了词典中的某个词条与之相对应,那就算是匹配成功.其后又出现了机械分词的改进方法:一种是改进扫描方法,另一种方法则是词类标记和分词一起使用利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率.理解分词方法是让计算机模拟人类的思想语言逻辑来对句子理解划分,从而达到识别词的效果.这种方法一般需要大量的语言信息和知识,其复杂性较高.统计分词方法又称为无词典分词,这种方法只需要对语句中的字组频度进行统计,而不需要切分词典,它的算法思想是通过定义一个相关紧密度的阈值来作为判断两个词之间的结合可信度,当超过这个阈值就认为此字组可以构成一个词.表1给出了这三种分词方法的一些特征.

本文剩余部分首先简要阐述切词算法的评价标准,然后重点研究分词算法在分词器中的应用.主要从两个层面去探讨和比较:一个是Lucene内带的几种分词器,一个是当前流行的分词器.

1切词算法的评价标准

2Lucene内带的几种分词器

2.1几种切词器的工作原理

2.2测试结果分析

通过编写一个单机模式程序来测试这几种切词器的效果.测试结果如表2所示.

通过结果可以看出StopAnalyzer分词器的分词正确率最高,且错误率比较低,这主要是因为它对中文不进行切分处理而是进行整句切分,应用的是理解分词算法,但召回率较低.而SimpleAnalyzer分词器的召回率较高,它是把标点、标记符号以及数字过滤掉,同时将英文转换成小写,对中文是整句的处理,用的也是理解分词算法,其正确率略低于StopAnalyzer分词器.StandarAnalyzer分词器无论是对中文还是对英文的处理都是单个词汇的逐一切分,同时处理掉标点符号和标记符号,但对数字却没有进行单个处理而是整串数字,属于机械算法.它的出错率很高,但召回率也很高.WhitespaceAnalyzer分词器的效果不佳,切分出的词语数较少,它只是设置了对空格的过滤处理而已,至于中文也是整句处理,保留了标点和标记符号还有数字.

3目前流行的几种分词器

3.1分词器工作原理

Mmseg4j分词器是用Chih-HaoTsai的MMSeg算法实现的中文分词器,主要是由2种分词方法组成:Simple和Complex,它们都是基于正向最大匹配的,与此同时还在Complex中加了四个规则过虑.其思想是通过流水法来形成跟词库中的词段进行对比后来进行的分词处理,直到最后为空时返回结果.庖丁解牛分词器是通过设置配置文件,从而根据词库中的文字和架构来处理分词的,PaodingAnalyzer是继承于PaodingAnalyzerBean的,在PaodingAnalyzer中设置了初始的调用配置方法,然后在PaodingAnalyzerBean中设置了切分的模式和架构,接着按照切分方法来切分,如最大切分;ICTCLAS50分词器是通过初始化后然后输入或者是直接引用文件名,接着再分别通过相应的段落程序处理或者是文件程序处理的相应内部程序处理方法进行处理分词,其中这里的分词主要还是通过与之相应的词典内容来匹配,然后通过指针来定位逐步处理输入的文件文本或者相应的文本信息.

中文切词算法参考属性评定
有关论文范文主题研究: 关于分词的论文范文数据库 大学生适用: 高校毕业论文、硕士学位论文
相关参考文献下载数量: 30 写作解决问题: 学术论文怎么写
毕业论文开题报告: 论文提纲、论文题目 职称论文适用: 核心期刊、中级职称
所属大学生专业类别: 学术论文怎么写 论文题目推荐度: 最新题目

3.2测试结果分析

这几款分词器本身有自带的测试程序可以直接进行测试.测试结果如表3所示

从表3可以看出mmseg4j分词器的效果最好,能够切分出的词语总数是最多的且正确率很高.它可以自己在匹配的词典中增加相应的词汇或者自己下载词典.而ICTCLAS50分词器的分词正确率是最高的,它的效果基本和mmseg4j分词器持平,它可以通过2种方法来引用字典:一种是用户自定义的,另一种是由软件中自带的分词字典.就本测验的数据来看庖丁解牛分词器的效果最不好,不仅分出的词语少,且正确率也低,这可能和数据集的模式有关.

4总结

不管是lucene内部自带分词器还是目前比较流行的分词器,我们发现其中使用比较多的还是机械分词算法,虽然很多都是通过过滤词库或者词典来进行匹配过滤,但也有一定的区别,就像有的使用正向最大匹配,有的使用逆向最大匹配.当然也有一些是使用理解分词算法的,然而这种算法的准确性虽然会比较高,但是算法的复杂度却是很高的而且分词的速度较慢.总而言之,不管使用何种分词算法都有利和弊之分,但目前来讲机械分词方法的技术性算是比较成熟的.