谭咏梅 作品数:26 被引量:100 H指数:6 供职机构: 北京邮电大学 更多>> 发文基金: 国家自然科学基金 北京市重点实验室开放基金 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 电子电信 文化科学 语言文字 更多>>
基于SVM+Sigmoid的汉语组块识别 被引量:3 2004年 本文提出用 SVM+Sigmoid 来进行汉语组块识别的方法。SVMs 具有不需要进行认真选取特征的优点,并且在具有高维特征空间的输入数据上也能够具有高的泛化性能,通过核函数的原则,SVMs 能够在独立于训练数据维数的小计算范围内进行训练。Sigmoid 函数使用一个参数模型来直接拟合后验概率,从而将 SVMs 的输出映射成一个后验概率,使一个分类器在做全局决策的一个局部决策时,考虑到全面分类,从而决策更具有合理性。实验结栗表明该方法较单纯的 SVMs 方法具有好的效果。 谭咏梅 姚天顺 陈晴 李珩 朱靖波关键词:SVM SIGMOID函数 汉语组块 组块识别 支持向量机 基于LSTM和N-gram的ESL文章的语法错误自动纠正方法 被引量:9 2018年 针对英语文章语法错误自动纠正(Grammatical Error Correction,GEC)问题中的冠词和介词错误,该文提出一种基于LSTM(Long Short-Term Memory,长短时记忆)的序列标注GEC方法;针对名词单复数错误、动词形式错误和主谓不一致错误,因其混淆集为开放集合,该文提出一种基于ESL(English as Second Lauguage)和新闻语料的N-gram投票策略的GEC方法。该文方法在2013年CoNLL的GEC数据上实验的整体F1值为33.87%,超过第一名UIUC的F1值31.20%。其中,冠词错误纠正的F1值为38.05%,超过UIUC冠词错误纠正的F1值33.40%,介词错误的纠正F1为28.89%,超过UIUC的介词错误纠正F1值7.22%。 谭咏梅 杨一枭 杨林 刘姝雯汉语组块识别 被引量:11 2004年 提出一种基于增益的隐马尔科夫模型(transductiveHMM)的方法,用于汉语组块(ChineseChunk)识别的研究·该方法借助几个转换函数,导入各种上下文信息用于HMM的训练,避免对HMM训练和标注过程修改的同时,构造了更为准确的模型,并在此基础上,将其中两个较好的模型融合为一个更好的模型·实验结果显示,该方法在汉语组块识别方面是有效的,在哈尔滨工业大学树库语料测试的结果是F=82 38%· 李珩 谭咏梅 朱靖波 姚天顺关键词:汉语组块 隐马尔科夫模型 转换函数 英汉机译中一种基于无监督学习的词类消歧策略 被引量:1 2000年 在本文 ,我们介绍英汉机译中使用无监督学习实现词类消歧的一种新方法 .该方法以独立于语料库的手工制作的约束规则为出发点 ,然后合并从训练语料库中以无监督方式所学习的约束规则 ,从而激发手工制作的约束规则 ,同时不以牺牲查全率为代价而提高查准率 .实验表明 ,在英语分析过程中 ,通过组合这些手工制作以及所学习的信息源 ,可获得大约 98%的查全率 ,89%的查准率 ,以及平均 1.10个歧义分析 /单词 . 张跃 谭咏梅 姚天顺关键词:无监督学习 机器翻译 英汉翻译 采用音质特征和VLAD编码的新冠肺炎检测算法 2021年 2020年,世界卫生组织宣布COVID-19疫情为大流行病。为了实现COVID-19快速地、可靠地检测,本研究通过语音信号分析技术来寻找感染COVID-19的语音信号特征,利用咳嗽声片段和语音片段对是否感染COVID-19做出自动判断。在INTERSPEECH 2021 ComParE竞赛提供的相关数据集和baseline的基础上,本文首先利用语音端点检测技术对数据集进行增广,其次在特征集中加入语音质量特征,使相关baseline结果得到了提升,证明了语音质量特征在对COVID-19自动语音检测任务上的有效性。同时,引入局部聚合描述子向量对低级别特征进行编码,当字典大小较小时,有效地提升了系统的分类性能。最后,对多种算法得到的分类结果进行融合,进一步提升分类效果,最终在两个子任务中的验证集上UAR分别取得了73.9%和77.2%。 张昊然 韩易辰 谭咏梅 李雅关键词:情感识别 基于实例的机器辅助写作翻译系统 被引量:1 2006年 提出了一种基于实例的机器辅助写作翻译方法,设计并实现了这个系统,用以辅助写作翻译过程,规范人与计算机的分工与协作.该系统可以对单词、词组,以及词的搭配给出更精确的翻译解释,实际应用的结果表明,它能有效地帮助中/英文用户更流畅的书写和翻译英/中文,保证写作翻译的效率和质量.此系统具有文本搜索、对应片段搜索和翻译记忆管理工具,文本搜索工具允许用户查询已经翻译好的文本或参考文档;对应片段搜索工具帮助用户检索出一个单词或一种表达方式在源语言和目标语言中的对应翻译结果;翻译记忆管理工具保存了文本片段的在源语言和目标语言中的对应关系. 谭咏梅 王枞 王小捷 钟义信关键词:双语语料库 翻译记忆 搭配 使用SVMs进行汉语浅层分析 被引量:1 2008年 提出了基于support vector machines(SVMs)的汉语浅层分析方法,并且为描述整个层次短语结构定义了10种汉语组块类型.与其他机器学习方法相比,该方法能自动选择对浅层分析有用特征,并能选择出有效的特征组合,较以前的研究可反映识别方向、特征模板、核函数、多分类方法及其组合对基于SVMs的汉语浅层分析性能的影响.在开放语料Chinese TreeBank上,Precision、Recall和FB1平均达到了95.36%、97.30%和96.32%. 谭咏梅 王小捷 周延泉 钟义信关键词:支持向量机 浅层分析 组块 信息-知识-智能转换理论在自然语言处理中的应用研究 智能科学的机制主义“信息-知识-智能转换”理论的提出使得与这一理论相关的许多基本概念和基本关系得到了初步的澄清,这不仅仅是一个理论研究的命题,它已经在许多应用研究中取得了可喜的进展。本文就“信息-知识-智能转换”理论在自... 谭咏梅关键词:语料库 机器翻译 双语语料库 翻译记忆 自然语言处理 文献传递 一种搜索引擎的反馈信息处理方法及搜索引擎 本发明提供一种搜索引擎的反馈信息处理方法及搜索引擎,其中方法包括:抓取网页,将所述网页和从所述网页中提取的关键词保存到数据库;使用搜索引擎对所述数据库中的网页记录做索引,生成一索引文件;根据输入的查询关键词,从所述索引文... 谭咏梅 李超 梁海峰 朱鹏文献传递 基于CNN与双向LSTM的中文文本蕴含识别方法 被引量:23 2018年 为了避免基于传统机器学习的中文文本蕴含识别方法需要人工筛选大量特征以及使用多种自然语言处理工具造成的错误累计问题,该文提出了基于CNN与双向LSTM的中文文本蕴含识别方法。该方法使用CNN与双向LSTM分别对句子进行编码,自动提取相关特征,然后使用全连接层进行分类得到初步的识别结果,最后使用语义规则对网络识别结果进行修正,得到最终的蕴含识别结果。在2014年RITE-VAL评测任务的数据集上MacroF1结果为61.74%,超过评测第一名的结果61.51%。实验结果表明,该方法对于中文文本蕴含识别是有效的。 谭咏梅 刘姝雯 吕学强关键词:卷积神经网络