陈肇雄
- 作品数:68 被引量:733H指数:13
- 供职机构:中国科学院计算机语言信息工程研究中心更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家杰出青年科学基金更多>>
- 相关领域:自动化与计算机技术语言文字电子电信理学更多>>
- 多语机器翻译及其系列应用系统研究进展
- 多语机器翻译及其系列应用系统是我们设计并实现的一个多语种、多专业机器翻译核心以及面向不同软硬件平台的系列应用解决方案.本文,我们给出了多语机器翻译及其系列应用系统的设计考虑、总体结构设计、关键技术问题及其主要技术特点.
- 陈肇雄黄河燕
- 关键词:机器翻译应用系统多语种嵌入式平台翻译处理
- 文献传递
- 一种改进的多关键字匹配算法被引量:4
- 2005年
- 基于多关键字匹配的Sun Wu算法进行的分析,结合QS算法的思想,设计了一种改进的多关键字匹配算法:QMS(quick multi-pattern searching)。算法使用散列技术和前缀表减少发生部分匹配时实际进行的关键字比较次数。在计算跳跃距离时,充分考虑当前窗口的紧邻下一个字符带来的信息,进而使用更加精确的跳跃距离计算方法以获得更大的平均跳跃距离,从而获得更高的扫描效率和空间利用率。在真实文本上的对比实验表明,在通常应用环境中,该算法显著的缩短了扫描时间,取得了很好的效果。
- 代六玲王树梅黄河燕陈肇雄
- 关键词:BM算法QS算法SUN
- 基于知识融合的在线文本分类算法——语义SVM被引量:2
- 2004年
- 为使支持向量机(SVM)更加适用于在线文本分类应用。利用SVM在小训练样本集条件下仍有高泛化能力的特性,结合文本特征向量在特征空间中具有聚类性的特点,提出一种用语义中心集代替原训练样本集作为训练样本和支持向量的SVM:语义SVM.文中给出了语义中心集的生成步骤、语义SVM的在线学习算法框架。以及基于SMO算法的在线学习算法的实现.实验结果表明,相对于标准SVM,语义SVM及其在线学习算法不仅在线学习速度和分类速度有数量级提高,而且在分类准确率方面具有一定优势.
- 代六玲李雪梅黄河燕陈肇雄
- 关键词:文本分类支持向量机
- 受限语言子集的理论研究和探索被引量:6
- 1998年
- 本文在综述受限语言研究成果的基础上,提出受限语言子集的一种形式化描述模型,并给出其相应的语言特性和数学特性,就受限汉语子集的确定方法问题进行了理论研究和探索。作者希望本文提出的表示模型和确定方法能够引起有关的讨论,并在充分认识受限语言研究的必要性和困难的基础上。
- 宗成庆宋今陈肇雄黄河燕
- 关键词:形式化描述模型计算机信息处理
- 基于Multigram语言模型的主动学习中文分词被引量:8
- 2006年
- 分词是中文处理中的重要基础问题。为了克服Web文本分析中传统方法在适应繁杂的专业领域和多变的语言现象时存在的困难,本文以无督导分词方法为基本框架,使用EM算法建立n元multigram语言模型,提出了一种基于置信度的主动学习分词算法,使得系统在主要利用大量未标注数据的同时,还能够主动选择少量最有价值的数据提交人工标注。实验结果表明算法性能优于相关的几种无督导分词算法。
- 冯冲陈肇雄黄河燕关真珍
- 关键词:中文信息处理分词EM算法
- 一种用于文本分类的语义SVM及其在线学习算法被引量:3
- 2004年
- 该文利用SVM在小训练样本集条件下仍有高泛化能力的特性,结合文本分类问题中同类别文本的特征在特征空间中具有聚类性分布的特点,提出一种使用语义中心集代替原训练样本集作为训练样本和支持向量的SVM:语义SVM。文中给出语义中心集的生成步骤,进而给出语义SVM的在线学习(在线分类知识积累)算法框架,以及基于SMO算法的在线学习算法的实现。实验结果说明语义SVM及其在线学习算法具有巨大的应用潜力:不仅在线学习速度和分类速度相对于标准SVM及其简单增量算法有数量级提高,而且分类准确率方面具有一定优势。
- 代六玲黄河燕陈肇雄
- 关键词:文本分类支持向量机
- IHSMTS中实例模式获取机制的设计与实现被引量:3
- 2002年
- IHSMTS是一种交互式多策略机器翻译系统 .给出了该系统中模式知识获取机制的设计和实现方法 ,在这种模式知识获取机制中有机地结合了多种知识获取方式 ,包括 :人机交互方式、基于机器翻译的源译文对照信息的自动获取、模式精炼方式和基于先验双语语料对齐的批量方式等 ,并通过模式验证算法实现对冗余、冲突等的检查 ,从而保证加入到模式库中的模式知识的单调递增性 ,同时实现模式适应性和准确性的平衡 ,使系统能够对实例模式库进行动态添加完善 。
- 黄河燕陈肇雄胡曾剑
- 关键词:知识获取IHSMTS
- 基于类比推理的译文相似解生成
- 如何根据原文模式之间的对比和范例模式的解模式构造出符合目标语语法并能表达原文意义的目标译文一直是基于例子的翻译技术中一个关键的问题.在本文中,我们根据基于类比的分析方法的特点,设计并实现了一种基于类比推理策略的译文相似解...
- 胡春玲胡曾剑黄河燕陈肇雄
- 关键词:翻译技术
- 文献传递
- 基于结构分析与计算的问答系统问题分类
- 问题分类是问答系统技术处理的基础与核心,它决定答案抽取的范围和方法,进而影响整个系统的性能.通过对比分析问题分类与文本分类的异同以及问句内部结构与问题类型之间的关系,提出了一种新的基于贝叶斯理论的问题分类计算模型.通过对...
- 张亮陈肇雄黄河燕
- 关键词:问答系统贝叶斯模型
- 文献传递
- 词性标注中生词处理算法研究被引量:22
- 2003年
- 词性兼类是自然语言理解必须解决的一类非常重要的歧义现象,尤其是对生词的词性歧义处理有很大的难度。文章基于隐马尔科夫模型(HMM),通过将生词的词性标注问题转化为求词汇发射概率,在词性标注中提出了一种生词处理的新方法。该方法除了用到一个标注好的单语语料库外,没使用任何其他资源(比如语法词典、语法规则等),封闭测试正确率达97%左右,开放测试正确率也达95%左右,基本上达到了实用的程度。同时还给出了与其他同样基于HMM的词性标注方法的测试比较结果,结果表明本文方法的标注正确率有较大的提高。
- 张孝飞陈肇雄黄河燕蔡智
- 关键词:中文信息处理自然语言理解隐马尔科夫模型语料库