罗智勇
- 作品数:24 被引量:121H指数:6
- 供职机构:北京语言大学信息科学学院更多>>
- 发文基金:国家自然科学基金教育部科学技术研究重点项目国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术语言文字文化科学更多>>
- 基于小句复合体的句子边界自动识别研究被引量:2
- 2021年
- 自然语言文本的语法结构层次包括语素、词语、短语、小句、小句复合体、语篇等。其中,语素、词、短语等相关处理技术已经相对成熟,而句子的概念至今未有公认的、适用于语言信息处理的界定。该文重新审视了语言学中句子的定义和自然语言处理中句子的切分问题,提出了中文句子切分的任务;基于小句复合体理论将句子定义为最小的话头自足的标点句序列,也就是自足的话题结构,并设计和实现了基于BERT的边界识别模型。实验结果表明,该模型对句子边界自动识别正确率、F_(1)值分别达到88.37%、83.73%,识别效果优于按照不同的标点符号机械分割的效果。
- 何晓文罗智勇胡紫娟王瑞琦
- 关键词:句子小句复合体句子边界识别
- 相似词及其在计算机辅助校对系统中的应用
- 统计方法在自然语言处理的多种应用中取得了令人瞩目的成果,但数据稀疏问题限制了应用系统性能的提高。把统计单位由词提升到词类有助于缓解数据稀疏问题,但是传统的词类体系并不能反映词语在线性邻接(ngram)特征上的相似关系,而...
- 罗智勇宋柔
- 关键词:数据稀疏相似词计算机辅助校对
- 文献传递
- 一种基于可信度的人名识别方法
- 专名识别是中文自动分词的重要任务。本文分析了目前流行的基于语料库和统计语言模型(SLM)的专名识别方法中存在的问题,同时以人名识别为例,在规则和统计相结合的基础上,提出了一种基于可信度的人名识别方法。从我们对《人民日报》...
- 罗智勇宋柔荀恩东
- 关键词:自动分词人名识别统计语言模型
- 文献传递
- 现代汉语通用分词系统中歧义切分的实用技术被引量:29
- 2006年
- 歧义切分技术是中文自动分词系统的关键技术之一·特别是在现代汉语通用分词系统(GPWS)中,允许用户动态创建词库、允许多个用户词库同时参与切分,这给歧义切分技术提出了更高的实用性要求·从大规模的真实语料库中,考察了歧义(特别是交集型歧义)的分布情况和特征;提出了一种改进的正向最大匹配歧义字段发现算法;并根据GPWS的需求,提出了一种“规则+例外”的实用消歧策略·对1亿字《人民日报》语料(约234MB)中的交集型歧义字段进行了穷尽式的抽取,并随机的对上述策略进行了开放性测试,正确率达99%·
- 罗智勇宋柔
- 关键词:中文信息处理歧义切分
- 基于小句复合体的句子边界自动识别研究
- 自然语言文本的语法结构层次是词、短语、句子、小句复合体、语篇.词、短语相关处理技术已经相当成熟,而句子的概念至今未有公认的适用于语言信息处理的界定.语言学界对于句子的定义缺乏操作性;而且以句号句为单位进行语言信息处理的工...
- 何晓文罗智勇胡紫娟王瑞琦
- 关键词:自动识别小句复合体
- 基于序列标注的引语识别初探
- 句间引用关系自动识别是篇章分析中一项重要内容.句间引用关系影响着对句群篇章的分析,而目前自然语言处理中对引用这一句间关系的研究较少.句间引用关系主要体现在引语中的引用句上.引语由引导句和引用句组成,一般分为直接引语和间接...
- 贾泓昊罗智勇
- 关键词:条件随机场
- 现代汉语多音词自动标音研究
- 汉语多音词自动标音的研究可以为语音合成及汉语教学等领域服务.本文采用N元模型的统计方法对现代汉语中的多音词进行自动标音,通过引入相似词,采取'词形-相似词-词性'三步回退的策略,缓解了数据稀疏问题,实验结果说明这个方法是...
- 王洁荀恩东罗智勇宋柔
- 关键词:多音词数据稀疏相似词
- 文献传递
- 面向应用的词语处理技术
- 词语处理技术是基于词一级中文信息处理应用的重要基础,也是中文信息处理技术的瓶颈。词语处理首先需要解决的是词语切分问题。目前自动分词系统性能,在歧义切分处理方面已经达到了较高水平,但未登录词识别性能仍有待进一步提高;同时,...
- 罗智勇
- 关键词:歧义切分专名识别新词发现数据稀疏
- 文献传递
- 基于序列模式挖掘的人物关系识别
- 命名实体关系抽取是信息抽取领域中的重要研究课题。本文利用序列模式挖掘方法,从大规模生语料中自动提取表达人物关系的序列模式,用于人物实例关系抽取;为了避免数据稀疏问题而导致模式遗漏,我们将具有相同文本表达模式的特征词语进行...
- 李丹罗智勇
- 关键词:信息抽取
- 文献传递
- 基于序列标注的引语识别初探被引量:2
- 2019年
- 句间引用关系自动识别是篇章分析中一项重要内容。句间引用关系影响着对句群篇章的分析,而目前自然语言处理中对引用这一句间关系的研究较少。句间引用关系主要体现在引语中的引用句上。引语由引导句和引用句组成,一般分为直接引语和间接引语,其中间接引语的识别难度最大。引导句和引用句相对位置不定、不同领域语料的引语与非引语比例极不均衡等进一步增加了引语自动识别的难度。该文主要尝试对引用这一句间关系进行初步探索,采用条件随机场(CRF)以及双向长短期记忆网络与条件随机场相结合(BLSTM-CRF)的方法对引语进行自动识别,并引入引导句中管领词特征进行实验对比。实验结果表明,CRF模型和BLSTM-CRF模型对引语的识别精确率分别达到85.49%和80.19%,F值分别达到78.75%和79.60%。
- 贾泓昊罗智勇
- 关键词:条件随机场