文本内容的自动分类的一个算法思考

将一段文本内容进行一个自动分类处理,根据内容进行对应的自动化分类处理。

这个操作要涉及到分词技术,不在这个算法考虑内,这个算法只去考虑一个最终的处理方式,同时分类的级别也限定为两级。
更多 »

汉语词性分析

最近一直利用晚上时间在研究分词,不过中文分词实在是个麻烦的技术,个人能力也十分有限,特别对于底层技术还有很多缺憾,目前只能利用已有的字典文件进行分词,没有神经智能可言:(不过应付一些提取关键词以及查找分类什么的还稍微有点用途,有点不太好的就是效率不是很高,还得继续钻研啊……

在网络找到一个词典,很不错,词频、词重以及词性都有了,不过词性有的看不明白,通过网络整理到了一个比较全的北大的标注标准:

更多 »

Deepseath Modified from Green Hope Theme · Proudly powered by WordPress · 津ICP备09005418号-1  津公网安备 12010302001005号