公共文化服务平台

冯冲: 作品数：72 被引量：289H指数：11; 供职机构：北京理工大学计算机学院更多>>; 发文基金：国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划更多>>; 相关领域：自动化与计算机技术文化科学政治法律电子电信更多>>

合作作者

一种在线资源相关信息抽取的知识图谱生成方法: 本发明提供了一种在线资源相关信息抽取的知识图谱生成方法，属于自然语言处理信息抽取技术领域。所述方法包括：在输入的在线资源引用句子上枚举生成候选span，基于BERT编码器学习句子中的token表示进而得到每个候选span...; 冯冲赵赫唐雨馨

基于本体的汉语领域命名实体识别被引量：3: 2009年; 命名实体识别是众多自然语言处理任务的核心内容之一,也是近年来的领域研究热点。本文将命名实体分为两大类：常规命名实体和领域命名实体。基于已经构建的领域本体MPO,本文提出一种基于本体知识规则与统计方法相结合的领域命名实体识别方法。该方法通过本体化实例,获取实体构成词性规则模板,结合CRFs机器学习模型,进行领域命名实体识别。实验结果表明：相比运用单一统计方法而言,该方法能使领域实体的识别性能显著提高,F值达到92.36%。同时表明本体化知识规则的有效运用,能够在领域实体边界和特殊形式领域实体识别的准确率上发挥积极作用。; 史树敏冯冲黄河燕刘东升王树梅; 关键词：本体 CRFS

语言工程的软件体系结构研究综述被引量：3: 2004年; 语言工程的软件体系结构已经逐渐发展成为语言工程的主要研究领域之一。它面向通用的自然语言应用 ,为其提供架构层次的参考方案。研究内容涵盖与体系结构相关的计算资源、语言资源、方法和应用等多个方面。在一定意义上 ,可以把它看作是在语言工程领域内的特定领域软件体系结构 (DSSA)。本文概要介绍了该领域的发展历程和研究意义 ,然后对其基本概念和当前主要研究进展进行了阐述和分析 ,并展望了进一步的发展趋势。; 冯冲陈肇雄黄河燕; 关键词：人工智能自然语言处理软件体系结构自然语言处理

面向大语言模型的藏语指令数据集构建: 2024年; 指令微调是增强大语言模型(LLMs)能力的关键技术,受到了学术界和工业界的广泛关注。目前针对英语、汉语等资源丰富的语种的大语言模型取得了超出预期的效果,其重要原因之一是依托丰富的语言资源构建的大规模指令数据集能够有效支撑目标任务的指令微调。而对于低资源语言,LLMs的相关研究与应用尚处于起步阶段。该文以藏语作为低资源语言的代表,研究了面向大语言模型指令微调的数据集构建方法。首先,通过收集网页及社交媒体上的藏语文本构成原始藏语数据,并对此数据进行过滤、去重等预处理,形成质量较好的藏语数据集;然后,根据不同数据的特点,有针对性地进行人工标注,形成高质量的指令数据集。此外,为了保证数据的多样性,该文收集部分高质量的中文指令数据集,采用基于翻译的方法来构造藏语指令数据集以作为人工标注数据的补充,最终形成了包含12个子任务的384K条藏语指令数据,并将数据开源用于相关科学研究。最后通过实验验证了该文发布的藏语指令数据集能够大幅提升大语言模型在藏语上的文本生成与理解能力。; 朱孟笑沙九冯冲

融合多源知识的中文医学命名实体和词性联合学习方法: 本发明涉及一种融合多源知识的中文医学命名实体和词性联合学习方法，属于自然语言处理中的信息抽取技术领域。本发明提出了一种多输入多任务学习模型，首先为来自不同数据源的任务数据分别设计模型的输入。然后利用相同的编码结构将不同的...; 冯冲赵培雯; 文献传递

一种在线资源相关信息抽取的知识图谱生成方法: 本发明提供了一种在线资源相关信息抽取的知识图谱生成方法，属于自然语言处理信息抽取技术领域。所述方法包括：在输入的在线资源引用句子上枚举生成候选span，基于BERT编码器学习句子中的token表示进而得到每个候选span...; 冯冲赵赫唐雨馨; 文献传递

一种面向术语抽取的短语过滤技术被引量：7: 2009年; 在术语抽取工作中,经常会遇到一些包含活跃词汇的短语或短语碎片,这些干扰项一般具有稳定的搭配模式,并且在语料中共现的概率也非常高。常用的短语过滤方法都是侧重于计算短语内部词语之间的黏合度,对这些干扰项的鉴别能力并不强。提出了一种基于左右熵的短语过滤方法,估算出短语或短语碎片中词语的活跃度,并过滤掉活跃度较高的短语或短语碎片。将该方法应用到一个术语抽取系统中,实验证实能够有效去除这些干扰项,提升术语抽取系统的性能。; 周浪冯冲黄河燕; 关键词：术语抽取

一种利用半自回归融合领域术语的低资源机器翻译方法: 本发明涉及一种利用半自回归融合领域术语的低资源机器翻译方法，属于自然语言处理机器翻译技术领域。本发明通过融合特定领域术语的低资源机器翻译方法，使用外部知识引导解码器，结合自回归与非自回归的解码方式，在引入先验知识的同时不...; 冯冲许达沙九; 文献传递

智能科学家——科技信息创新引领的下一代科研范式被引量：17: 2020年; 科技创新是国家发展与民族复兴的强大引擎。提高科技创新能力必须透彻理解科研活动本身,包括科学研究发展规律、科技竞争形式特点、科研人员行为方式、科研成果传播影响等。科技信息是大量科研活动信息的承载和记录,科技信息的智能挖掘服务可以有效支撑科研创新能力研究。文章提出"智能科学家"的理念,首先分析了科研范式的演变与发展趋势,然后探讨了科技信息引领下的辅助科研创新、协助科研创新、自主科研创新三阶段构想,最终实现"智能科学家"的目标,最后介绍了"智能科学家"需要依托的若干关键技术方向。; 罗威罗准辰雷帅程齐凯陆伟张瑾韩涛冯岩松韩先培冯冲张均胜刘志辉乔林波李东升许儒红陈敬一; 关键词：科研范式领域知识

一种基于历史记录的知识推送方法: 本发明涉及一种基于历史记录的知识推送方法，属于计算机应用领域。本方法通过比较两个任务之间的相似度，获取与当前任务相似的任务，并分析其在完成过程中对知识的操作记录，然后通过一个具体的值来对知识列表排序的方法实现知识推送。本...; 黄河燕史树敏冯冲李侃闫春雷; 文献传递