首页>>政策信息>>科教文卫>>教育字号:
语料库目前有9亿多语料 明年新词将用计算机提取
中国网 china.com.cn  时间: 2007-08-16  发表评论>>

中国传媒大学教授侯敏回答记者提问 摄影:中国网 赵娜

2007年8月16日(本周四)上午9:30分,教育部在教育部北楼二层报告厅举行中国语言生活状况报告(2006)新闻发布会,向新闻界介绍“2006年中国语言生活状况报告”有关情况。中国网进行现场直播,敬请关注。

中国传媒大学教授侯敏今天在教育部召开的新闻发布会上表示,2007年的新词语可能可以真正地在语料库中用自动的方法,用自动技术来进行提取。

侯敏说,今年的新词语工作,还是在手工的基础上,在语言资料库中先人工提出来,再用机器输入一遍。所谓新词语,新在哪儿呢?就新在它是在一定的时间段以后产生的,在这个时间段以前没有这个词,这才叫新词语。因此我们在用语料库进行提取的时候,这一段时间以前的语料要足够大,我们把它进行切分以后,把词表建立成一个比较大的图表,再和今年的进行切分,然后进行比对,这些在以前的词表中没有而今年有的就是我们提取的新词语的侯选词。在这些侯选词中还要进行人工排查,用这样的方法来提取新词语。今年我们想尝试做这个工作,但06年数据的新词语还不是计算机提取的。

教育部语音文字信息管理司副司长王铁锟说,目前采用的材料是新词课题组编纂的材料,目前的170多条是选目。我们感觉到,新词语研究从上世纪80年代到现在,应该有一个时代的发展脉络,目前还用这种手工操作的办法来提取新词语,显然是跟不上今天语言发展的现实。而且我们的语料也是有限的,目前大型的语料在9亿多语料中,包括15个主流报纸,十几家网站和有声媒体的大量的语料中,我们准备尝试用计算机提取的办法做这件事情。今天下午,国家语言资源监测研究中心五个分中心的同志要专门来研究这个问题,在一个比较大的语料库中把这个问题解决得好一点。

文章来源: 中国网 责任编辑: 钮东昊
[收藏] [打印] [ ] [关闭]
网友留言 进入论坛>>
昵 称 匿名
留言须知 版权与免责声明