目录
参考北大开源全新中文分词工具包:准确率远超THULAC、结巴分词
github:https://github.com/lancopku/PKUSeg-python
特点:
- 高分词准确率:相比于其他的分词工具包,该工具包在不同领域的数据上都大幅提高了分词的准确度。根据北大研究组的测试结果,pkuseg 分别在示例数据集(MSRA 和 CTB8)上降低了 79.33% 和 63.67% 的分词错误率。
- 多领域分词:研究组训练了多种不同领域的分词模型。根据待分词的领域特点,用户可以自由地选择不同的模型。
- 支持用户自训练模型:支持用户使用全新的标注数据进行训练。
目前仅支持python3…不支持python2
安装
git clone https://github.com/lancopku/pkuseg-python.git
python setup.py install
comment here..