杨雅婷 作品数:99 被引量:112 H指数:5 供职机构: 中国科学院新疆理化技术研究所 更多>> 发文基金: 中国科学院西部之光基金 国家自然科学基金 中国科学院西部行动计划项目 更多>> 相关领域: 自动化与计算机技术 语言文字 电子电信 文化科学 更多>>
维-汉统计机器翻译中维吾尔语预处理研究 被引量:3 2014年 为有效降低维-汉统计机器翻译中语料质量对翻译质量的影响,对维吾尔语文本预处理技术进行研究,结合维吾尔语文本语料的语言特征和多样性,提出基于语法规则和词法规则结合的维吾尔语文本预处理方法。在对维吾尔语文本中的语义单元、对偶词和标点符号进行特征分析的基础上,导出维吾尔语文本词例化和标点符号规范化的规则和处理流程。实验结果表明,该研究有效降低了词对齐阶段的单词数量、缓解了数据稀疏,提高了翻译质量。 艾孜孜.吐尔逊 杨雅婷 吐尔洪.吾司曼 周俊林 李晓关键词:维吾尔语 单词 标点符号 基于词缀的维吾尔谚语识别关键技术研究 2018年 在自然语言理解、机器翻译、舆情分析等自然语言处理领域中,维吾尔谚语识别是整个文本实体识别的重要组成部分。为满足维吾尔谚语信息化的需求,本文构建了比较完善的维吾尔谚语语料库。同时,从传统语言学角度对维吾尔谚语的语法、语义结构进行分析,构建了一个由维吾尔谚语功能语类(词缀)组成的、专属维吾尔谚语规则的知识库,并将此知识库与自然语言处理技术相结合,实现一个既能够从文本中识别出维吾尔谚语,又能提供维汉互译等功能的信息软件系统。该系统也为开展计算机理解与处理维吾尔文字奠定了一个崭新的基础。 穆妮热.穆合塔尔 李晓 杨雅婷 杨雅婷 周喜关键词:维吾尔谚语 基于汉语关键词的维吾尔语关键词生成方法、装置、电子设备及存储介质 本发明公开了一种基于汉语关键词的维吾尔语关键词生成方法、装置、电子设备及存储介质,涉及信息处理领域,尤其涉及文本过滤、内容监管领域。具体实现方案为:利用汉维双语将汉语关键词翻译为维吾尔语关键词;对获得的维吾尔语关键词进行... 杨雅婷 艾孜麦提·艾尼瓦尔 董瑞 马博 王磊 周喜文献传递 基于短语汉维机器翻译解码的研究及实现 被引量:3 2019年 针对汉、维翻译中维语形态变化复杂、汉维语句法结构不同等造成的解码局限性问题,将解码中语言模型的评分调整为重点考虑短语衔接处的单词串的得分,引入词向量进行短语相似度计算,利用词向量将单词间隐含的语义关系加入到解码评分;调整解码的调序距离限制方法,设计一个限制解码中短语扩展的方法,使解码的调序更符合汉维翻译的实际;在此基础上,按优化的方案实现解码器。实验结果表明,优化能使译文BLEU值在基线方案基础上提升3.46,最终方案解码器的译文BLEU值为29.18。 杨世勤 王磊 杨雅婷 杨雅婷关键词:解码 语言模型 一种基于胶囊网络的多语言情感分类方法、装置、设备及存储介质 本发明公开了一种基于胶囊网络的多语言情感分类方法、装置、设备及存储介质,该方法包括:获取多种语言的源语言文本,得到不同文本的语料集合;分别将不同文本的语料集合输入产生词向量的Glove模型中,提取源语言的语义特征,得到多... 杨雅婷 罗涵天 马博 董瑞 王磊 周喜文献传递 基于双向特征融合与混合决策机制的多模态虚假信息检测方法、装置、设备及存储介质 本发明提出了基于双向特征融合与混合决策机制的多模态虚假信息检测方法、装置、设备及存储介质。该方法首先对多模态数据进行精细化预处理,包括文本数据的去噪、去停用词和标准化,以及图像数据的分辨率过滤、去重和尺寸统一化处理。随后... 马博 地力夏提·阿布都热依木 杨雅婷 吐尔洪·吾司曼 董瑞 王磊 周喜基于印刷体监督的手写维文识别方法 2024年 手写维吾尔文字图像数据集匮乏及手写文本难于分割识别问题,提出了一种基于印刷体监督的手写维文识别模型模型将文字和印刷体文字图片同时作为标签,在训练时将两种文字图像并行输入到CNN中提取特征,而后将特征分别输入至识别分支进行识别任务、输入至匹配分支进行图片匹配任务,预测时将特征输入到BiLSTM编码器中得到序列特征,最后通过CTC得到识别结果。所提方法可生成充裕有效的手写文字图像,且在真实手写维文测试集上相较于基准模型CER降低5.03%,在IAM上也证明了模型迁移性。实验结果表明,提出的方法能够有效缓解手写维文文字图像数据集匮乏问题,模型能充分挖掘印刷体文字图像的特征作为手写体文字识别的监督信息来提高识别效果。 闫林 王磊 艾孜麦提·艾尼瓦尔 杨雅婷关键词:卷积神经网络 结构化数据语义表征方法、装置、设备及介质 本公开提供了一种结构化数据语义表征方法,可应用于自然语言处理、结构化数据语义表征和大模型技术领域。该方法包括以下步骤:将结构化数据输入目标结构语义表征模型;使用基于图神经网络的结构特征提取器对结构化数据中的结构信息进行编... 周喜 杨奉毅 杨雅婷 马博 王磊 艾比布拉·阿塔伍拉 毕然 蒋同海基于字符串相似度的维吾尔语中汉语借词识别 被引量:6 2013年 维汉机器翻译过程中会出现较多的未登录词,这些未登录词一部分属于借词(人名、地名等)。该文提出一种新颖的根据借词与原语言词发音相似这一特性进行维吾尔语中汉语借词识别的方法。该方法对已有语料进行训练,得到面向维吾尔语中汉语借词识别的维吾尔语拉丁化规则;根据以上规则对维吾尔语拉丁化,并对汉语词进行拼音化,将借词发音相似转换为字符串相似这一易量化标准;提出了位置相关的最小编辑距离模型、加权公共子序列模型以及二者的带参数融合模型。实验结果表明,综合考虑字符串全局相似性和局部相似性的带参数融合模型取得了最佳的识别效果。 米成刚 杨雅婷 周喜 李晓 杨明忠关键词:借词 未登录词 字符串相似度 基于多策略的维吾尔文网页识别方法 2017年 经过对大量维吾尔文网站的调查与分析,该文从多语种混合网页中针对维吾尔文网页识别进行了研究,这对维吾尔语信息处理工作起着关键作用。首先该文探讨了维吾尔文不规范网页的字符编码转换规则及原理,以此对不规范维吾尔文字符进行了相应的处理,之后介绍了基于修改的N-Gram方法和基于维吾尔语常用词特征向量的两种方法,其中后者融合了维吾尔文常用候选词语料库及向量空间模型(Vector Space Model)。使用三种不同类型的维吾尔文网页文本作为本研究的数据集,在此基础上验证了该文提出的网页识别方法,以及采用不同的方法进行了网页识别的实验。实验结果表明,基于N-Gram的方法对正文较长的新闻或论坛网页的识别性能最佳,反而基于常用词特征向量的方法对短文本的网页识别性能优越N-Gram。所提方法对维吾尔文网页识别的整体性能达到90%以上,并验证了这两种方法的有效性。 阿力木.木拉提 艾孜尔古丽 杨雅婷 李晓关键词:维吾尔文 网页识别 常用词 向量空间模型