文本内容的自动分类的一个算法思考

将一段文本内容进行一个自动分类处理,根据内容进行对应的自动化分类处理。

这个操作要涉及到分词技术,不在这个算法考虑内,这个算法只去考虑一个最终的处理方式,同时分类的级别也限定为两级。

首先应该有一个分类词汇的集合,每个词汇与分类有一个唯一的对应关系(A),利用tree形式表示就是:

——————————————————–
–wordid | categoryid | categoryrootid–
——————————————————–
词汇1 | 分类1 | 顶级分类1
词汇2 | 分类1 | 顶级分类1
词汇3 | 分类2 | 顶级分类2
词汇4 | 分类3 | 顶级分类3
…… …… ……

其次,文本内容经过分词处理成若干的词汇,去除掉无意义的“停用词”(应该有一份词汇列表,比如:的、这、着等等之类的),将词汇做一个高频词的集合(B)

最后,将这个A与B进行一个交集比对,能够得出一个高频的2级分类和1级分类,进一步获得该文本的模糊可用的分类。

这只是一个大概的想法,这个算法要求对于词汇与分类关系对应表(A)非常完善,至少应该可以涵盖绝大多数常见的词汇,否则可能会出现一些误差甚至分类与内容完全风马牛不相干的情况。
效率问题可能不会太为难,一些常见的分词词典大概为30W左右,就MySQL的储存而言完全可以将id与id进行对应,字段类型使用MEDIUMINT应该可以满足,做好索引关系,效率问题应该影响不大。

只是一个想法,暂未具体实现……

标签:分词, 思考, 算法

评论当前被关闭。

Deepseath Modified from Green Hope Theme · Proudly powered by WordPress · 津ICP备09005418号-1  津公网安备 12010302001005号