汉语词性分析
最近一直利用晚上时间在研究分词,不过中文分词实在是个麻烦的技术,个人能力也十分有限,特别对于底层技术还有很多缺憾,目前只能利用已有的字典文件进行分词,没有神经智能可言:(不过应付一些提取关键词以及查找分类什么的还稍微有点用途,有点不太好的就是效率不是很高,还得继续钻研啊……
在网络找到一个词典,很不错,词频、词重以及词性都有了,不过词性有的看不明白,通过网络整理到了一个比较全的北大的标注标准:
 
| 汉语词性对照表[北大标准/中科院标准] | ||
|---|---|---|
| 词性编码 | 词性名称 | 注解 | 
| 词性编码 | 词性名称 | 注解 | 
| Ag | 形语素 | 形容词性语素。形容词代码为a,语素代码g前面置以A | 
| a | 形容词 | 取英语形容词adjective的第1个字母。 | 
| ad | 副形词 | 直接作状语的形容词。形容词代码a和副词代码d并在一起。 | 
| an | 名形词 | 具有名词功能的形容词。形容词代码a和名词代码n并在一起。 | 
| Bg | 区别语素 | |
| b | 区别词 | 取汉字“别”的声母。 | 
| c | 连词 | 取英语连词conjunction的第1个字母。 | 
| Dg | 副语素 | 副词性语素。副词代码为d,语素代码g前面置以D。 | 
| d | 副词 | 取adverb的第2个字母,因其第1个字母已用于形容词 | 
| dc | 程度副词 | |
| df | 否定副词 | |
| e | 叹词 | 取英语叹词exclamation的第1个字母。 | 
| f | 方位词 | 取汉字“方”的声母。 | 
| g | 语素 | 绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。由于实际标注时,一定标注其子类,所以从未用到过g。 | 
| h | 前接成分 | 取英语head的第1个字母。 | 
| i | 成语 | 取英语成语idiom的第1个字母。 | 
| ia | 形容词功能成语 | |
| ib | 区别词功能成语 | |
| id | 副词功能成语 | |
| in | 名词功能成语 | |
| iv | 动词功能成语 | |
| j | 简称略语 | 取汉字“简”的声母。 | 
| ja | 形容词功能简称 | |
| jb | 区别词功能简称 | |
| jd | 副词功能简称 | |
| jn | 名词功能简称 | |
| jv | 动词功能简称 | |
| k | 后接成分 | Shiwen Yu, Huiming Duan, Xuefeng Z 156 hu, Bin Swen, Baobao Chang | 
| l | 习用语 | 习用语尚未成为成语,有点“临时性”,取“临”的声母。 | 
| la | 形容词功能习用语 | |
| lb | 区别词功能成语 | |
| ld | 副词功能习用语 | |
| ln | 名词功能习用语 | |
| lv | 动词功能习用语 | |
| m | 数词 | 取英语numeral的第3个字母,n,u已有他用。 | 
| mq | 数量词 | 在语法信息词典中归入数词库的数量短语。 | 
| Ng | 名语素 | 名词性语素。名词代码为n,语素代码g前面置以N。 | 
| n | 名词 | 取英语名词noun的第1个字母。 | 
| nr | 人名 | 名词代码n和“人(ren)”的声母并在一起。 | 
| nrf | 姓 | |
| nrg | 名 | |
| ns | 地名 | 名词代码n和处所词代码s并在一起。 | 
| nt | 机构团体 | “团”的声母为t,名词代码n和t并在一起。 | 
| nx | 非汉字串 | |
| nz | 其他专名 | “专”声母的第1个字母为z,名词代码n和z并在一起 | 
| o | 拟声词 | 取英语拟声词onomatopoeia的第1个字母。 | 
| p | 介词 | 取英语介词prepositional的第1个字母。 | 
| Qg | 量语素 | |
| q | 量词 | 取英语quantity的第1个字母。 | 
| qb | 不定量词 | |
| qc | 成形量词 | |
| qd | 度量词 | |
| qe | 个体量词 | |
| qj | 集体量词 | |
| ql | 倍率量词 | |
| qr | 容器量词 | |
| qt | 时量词 | |
| qv | 动量词 | |
| qz | 种类量词 | |
| Rg | 代语素 | |
| r | 代词 | 取英语代词pronoun的第2个字母,因p已用于介词。 | 
| rr | 人称代词 | |
| ry | 疑问代词 | |
| ryw | 谓词性疑问代词 | |
| rz | 指示代词 | |
| rzw | 谓词性指示代词 | |
| s | 处所词 | 取英语space的第1个字母。Specification for Corpus Processing at Peking University 157 | 
| Tg | 时语素 | 时间词性语素。 | 
| t | 时间词 | 取英语time的第1个字母。 | 
| tt | 专名时间词 | 用于标注中国历史朝代的时间词。 | 
| u | 助词 | 取英语助词auxiliary的第2个字母,因a已用于形容词 | 
| ud | 助词“的” | |
| ue | 助词“得”” | |
| ui | 助词“地 | |
| ul | 助词“了” | |
| uo | 助词“过” | |
| us | 助词“所” | |
| uz | 助词“着” | |
| Vg | 动语素 | 动词性语素。动词代码为v,在语素的代码g前面置以V。 | 
| v | 动词 | 取英语动词verb的第一个字母。 | 
| vd | 副动词 | 直接作状语的动词。动词和副词的代码并在一起。 | 
| vi | 不及物动词 | |
| vl | 联系动词 | |
| vn | 名动词 | 指具有名词功能的动词。动词和名词的代码并在一起。 | 
| vq | 趋向动词 | |
| vu | 助动词 | |
| vx | 形式动词 | |
| w | 标点符号 | |
| wd | 逗号 | |
| wf | 分号 | |
| wj | 句号 | |
| wk | 括号 | |
| wky | 右括号 | |
| wkz | 左括号 | |
| wm | 冒号 | |
| wp | 破折号 | |
| ws | 省略号 | |
| wt | 叹号 | |
| wu | 顿号 | |
| ww | 问号 | |
| wy | 引号 | |
| wyy | 右引号 | |
| wyz | 左引号 | |
| x | 非语素字 | 非语素字只是一个符号,x通常用于代表未知数、符号。 | 
| y | 语气词 | 取汉字“语”的声母。 | 
| z | 状态词 | 取汉字“状”的声母的前一个字母。 | 
| # | 任意语素或词 | |

不知道您说的是CSWS简体中文分词词典么?
我想知道词频与词重是怎么定义的~
谢谢啦~~
您可以给我回邮件,也可以直接发到这里。。
算法足够灵活是完全可以实现的,现在的这些搜索引擎,以及一些分类目录什么的基本都可以实现的。可惜太高深实在研究不明白,只能玩些低端的,哈哈。
程序要是真的能作为人工智能就好了