To Top
首页 > 自然语言处理 > 正文

分词工具

标签:分词, 切词


目录

参考北大开源全新中文分词工具包:准确率远超THULAC、结巴分词

github:https://github.com/lancopku/PKUSeg-python

特点:

  • 高分词准确率:相比于其他的分词工具包,该工具包在不同领域的数据上都大幅提高了分词的准确度。根据北大研究组的测试结果,pkuseg 分别在示例数据集(MSRA 和 CTB8)上降低了 79.33% 和 63.67% 的分词错误率。
  • 多领域分词:研究组训练了多种不同领域的分词模型。根据待分词的领域特点,用户可以自由地选择不同的模型。
  • 支持用户自训练模型:支持用户使用全新的标注数据进行训练。

目前仅支持python3…不支持python2

安装

git clone https://github.com/lancopku/pkuseg-python.git
python setup.py install

原创文章,转载请注明出处!
本文链接:http://daiwk.github.io/posts/nlp-wordseg-tools.html
上篇: graph embedding
下篇: transformer-xl

comment here..