科学软件资源导航

Scientific software resource navigation

标签: #中文分词

庖丁解牛 (Paoding Analysis)

庖丁解牛分词器是基于lucene的中文分词系统的软件。庖丁解牛简单便捷的文件分割合并工具。庖丁解牛拥有直观清晰的中文界面,允许用户将指定的文件按照自定义大小进行切割,并可以将切割后的子文件合并还原成源文件。庖丁解牛这款软件可以满足用户基本的文件分割合并需求。

NLPIR

主要功能包括中文分词;英文分词;词性标注;命名实体识别;新词识别;关键词提取;支持用户专业词典与微博分析。NLPIR系统支持多种编码、多种操作系统、多种开发语言与平台;定位为在微博为代表的新型互联网的大背景下,面向海量异构互联网信息,研究网络大数据搜索、自然语言处理、社会计算与信息安全等关键技术,以自然语言理解为主要手段进行网络情报挖掘,并进行新应用协议的安全隐患分析。

jieba

“结巴”中文分词:做最好的 Python 中文分词组件

IKAnalyzer

IKAnalyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出 了3个大版本。最初,它是以开源项目 Lucene为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为 面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。

Ansj

中Ansj中文分词是一款纯Java的、主要应用于自然语言处理的、高精度的中文分词工具,目标是“准确、高效、自由地进行中文分词”,可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域,支持行业词典、用户自定义词典。