汉语词性分析
最近一直利用晚上时间在研究分词,不过中文分词实在是个麻烦的技术,个人能力也十分有限,特别对于底层技术还有很多缺憾,目前只能利用已有的字典文件进行分词,没有神经智能可言:(不过应付一些提取关键词以及查找分类什么的还稍微有点用途,有点不太好的就是效率不是很高,还得继续钻研啊……
在网络找到一个词典,很不错,词频、词重以及词性都有了,不过词性有的看不明白,通过网络整理到了一个比较全的北大的标注标准:
汉语词性对照表[北大标准/中科院标准] | ||
---|---|---|
词性编码 | 词性名称 | 注解 |
词性编码 | 词性名称 | 注解 |
Ag | 形语素 | 形容词性语素。形容词代码为a,语素代码g前面置以A |
a | 形容词 | 取英语形容词adjective的第1个字母。 |
ad | 副形词 | 直接作状语的形容词。形容词代码a和副词代码d并在一起。 |
an | 名形词 | 具有名词功能的形容词。形容词代码a和名词代码n并在一起。 |
Bg | 区别语素 | |
b | 区别词 | 取汉字“别”的声母。 |
c | 连词 | 取英语连词conjunction的第1个字母。 |
Dg | 副语素 | 副词性语素。副词代码为d,语素代码g前面置以D。 |
d | 副词 | 取adverb的第2个字母,因其第1个字母已用于形容词 |
dc | 程度副词 | |
df | 否定副词 | |
e | 叹词 | 取英语叹词exclamation的第1个字母。 |
f | 方位词 | 取汉字“方”的声母。 |
g | 语素 | 绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。由于实际标注时,一定标注其子类,所以从未用到过g。 |
h | 前接成分 | 取英语head的第1个字母。 |
i | 成语 | 取英语成语idiom的第1个字母。 |
ia | 形容词功能成语 | |
ib | 区别词功能成语 | |
id | 副词功能成语 | |
in | 名词功能成语 | |
iv | 动词功能成语 | |
j | 简称略语 | 取汉字“简”的声母。 |
ja | 形容词功能简称 | |
jb | 区别词功能简称 | |
jd | 副词功能简称 | |
jn | 名词功能简称 | |
jv | 动词功能简称 | |
k | 后接成分 | Shiwen Yu, Huiming Duan, Xuefeng Z 156 hu, Bin Swen, Baobao Chang |
l | 习用语 | 习用语尚未成为成语,有点“临时性”,取“临”的声母。 |
la | 形容词功能习用语 | |
lb | 区别词功能成语 | |
ld | 副词功能习用语 | |
ln | 名词功能习用语 | |
lv | 动词功能习用语 | |
m | 数词 | 取英语numeral的第3个字母,n,u已有他用。 |
mq | 数量词 | 在语法信息词典中归入数词库的数量短语。 |
Ng | 名语素 | 名词性语素。名词代码为n,语素代码g前面置以N。 |
n | 名词 | 取英语名词noun的第1个字母。 |
nr | 人名 | 名词代码n和“人(ren)”的声母并在一起。 |
nrf | 姓 | |
nrg | 名 | |
ns | 地名 | 名词代码n和处所词代码s并在一起。 |
nt | 机构团体 | “团”的声母为t,名词代码n和t并在一起。 |
nx | 非汉字串 | |
nz | 其他专名 | “专”声母的第1个字母为z,名词代码n和z并在一起 |
o | 拟声词 | 取英语拟声词onomatopoeia的第1个字母。 |
p | 介词 | 取英语介词prepositional的第1个字母。 |
Qg | 量语素 | |
q | 量词 | 取英语quantity的第1个字母。 |
qb | 不定量词 | |
qc | 成形量词 | |
qd | 度量词 | |
qe | 个体量词 | |
qj | 集体量词 | |
ql | 倍率量词 | |
qr | 容器量词 | |
qt | 时量词 | |
qv | 动量词 | |
qz | 种类量词 | |
Rg | 代语素 | |
r | 代词 | 取英语代词pronoun的第2个字母,因p已用于介词。 |
rr | 人称代词 | |
ry | 疑问代词 | |
ryw | 谓词性疑问代词 | |
rz | 指示代词 | |
rzw | 谓词性指示代词 | |
s | 处所词 | 取英语space的第1个字母。Specification for Corpus Processing at Peking University 157 |
Tg | 时语素 | 时间词性语素。 |
t | 时间词 | 取英语time的第1个字母。 |
tt | 专名时间词 | 用于标注中国历史朝代的时间词。 |
u | 助词 | 取英语助词auxiliary的第2个字母,因a已用于形容词 |
ud | 助词“的” | |
ue | 助词“得”” | |
ui | 助词“地 | |
ul | 助词“了” | |
uo | 助词“过” | |
us | 助词“所” | |
uz | 助词“着” | |
Vg | 动语素 | 动词性语素。动词代码为v,在语素的代码g前面置以V。 |
v | 动词 | 取英语动词verb的第一个字母。 |
vd | 副动词 | 直接作状语的动词。动词和副词的代码并在一起。 |
vi | 不及物动词 | |
vl | 联系动词 | |
vn | 名动词 | 指具有名词功能的动词。动词和名词的代码并在一起。 |
vq | 趋向动词 | |
vu | 助动词 | |
vx | 形式动词 | |
w | 标点符号 | |
wd | 逗号 | |
wf | 分号 | |
wj | 句号 | |
wk | 括号 | |
wky | 右括号 | |
wkz | 左括号 | |
wm | 冒号 | |
wp | 破折号 | |
ws | 省略号 | |
wt | 叹号 | |
wu | 顿号 | |
ww | 问号 | |
wy | 引号 | |
wyy | 右引号 | |
wyz | 左引号 | |
x | 非语素字 | 非语素字只是一个符号,x通常用于代表未知数、符号。 |
y | 语气词 | 取汉字“语”的声母。 |
z | 状态词 | 取汉字“状”的声母的前一个字母。 |
# | 任意语素或词 |
不知道您说的是CSWS简体中文分词词典么?
我想知道词频与词重是怎么定义的~
谢谢啦~~
您可以给我回邮件,也可以直接发到这里。。
算法足够灵活是完全可以实现的,现在的这些搜索引擎,以及一些分类目录什么的基本都可以实现的。可惜太高深实在研究不明白,只能玩些低端的,哈哈。
程序要是真的能作为人工智能就好了