陈金传
- 作品数:4 被引量:14H指数:2
- 供职机构:华东师范大学图书馆更多>>
- 发文基金:国家社会科学基金更多>>
- 相关领域:文化科学自动化与计算机技术理学更多>>
- 基于BERT的领域分词优化高校图书馆借阅热点分析
- 2024年
- 【目的/意义】图书馆借阅数据的变化反映了当年借阅者关注重点的变化,一定程度上能够体现整个社会的研究关注热点。本文通过大语言模型建立高校图书馆图书借阅预约数据各字段与社会热点之间的关系模型,探索借阅数据与社会热点之间的关系,辅助实现对一段时间内社会热点的分析。【方法/过程】首先,采用编码—解码的结构构建关于图书题名的分词模型,利用大型的分词数据集进行训练,获取原始词频,然后根据字段中的读者院系和索书号进行领域匹配,最后,从借阅次数、预约持续时间和所属领域三个角度对原始词频进行权重更新,得到最终的与社会热点有关的热点词云。【结果/结论】本文首先对分词模型进行了实验,实验表明本文算法在MSR、PKU、CTB6三个数据集上F值明显优于其他算法,其中,在CTB6分词数据集上,本文算法F值达到97.18,高于CRF算法3.15个百分点,加入领域优化后的分词算法在专业性较强的文本上分词的性能更好。然后本文对图书馆借阅数据和预约数据进行了实验分析,展现了基于领域分词优化的热点词云生成框架的先进性,实验表明本文算法生成的热点词与社会热点能建立一定联系。【创新/局限】本文研究了图书借阅数据和预约数据的字段特点,创新性地提出了基于BERT的领域分词优化借阅热点生成框架。虽然本文利用了图书馆的数据字段特性构建了热点词云生成框架并且优化了词云生成结果,但是对于热点词云生成的性能没有一个量化的指标,接下来需要进行更多的探索和研究。
- 陈金传成志强熊泽泉于亚秀
- 关键词:分词人工智能图书馆
- 基于API技术的数字人文基础设施的构建被引量:11
- 2019年
- 在现有的互联网环境下,已有较多的数字人文工具、内容及系统提供者。利用API(Application Programming Interface)可以将网络上的资源相互连接,构建基础设施,实现资源的共享和人员的分工协作。文章首先介绍数字人文基础设施内涵,然后提出基于API技术构建数字人文基础设施的目的及实现架构,最后介绍目前API实现数字人文基础设施构建路径。文章认为,API接口技术在实现资源互联,构建数字人文技术设施的过程中非常重要,在开发数字人文内容库、工具及平台时应将API技术考虑在内。
- 鲁丹李欣陈金传
- 关键词:API跨平台
- 基于广义加性模型的图书馆借阅预测研究
- 2023年
- 本文意图通过建立读者特征、不同类别图书流通量、读者借阅时间3者的关系模型,探索读者特征与借阅趋势之间的隐含规律,为图书馆的智慧管理提供可靠且快速的预测与分析。本文创新性地提出了基于广义加性模型(GAM)的3阶段快速拟合模型,采用Onehot编码、线性和非线性3种函数进行数据拟合,建立读者特征与图书流通的回归模型。考虑到图书馆数据的庞大性,本文利用Nesterov方法和Power Iteration方法对回归模型进行加速,在保证回归准确率的前提下,大幅度提高了算法速度。在真实图书馆数据上的实验表明,本文方法相较于纯线性模型准确性可以提高约70%,速度仅下降约30%;相较于纯非线性模型速度可以提高约6倍,而准确率仅下降约15%,较好地满足图书馆大规模数据的分析。
- 陈金传成志强
- 关键词:图书馆
- 计算机视觉在图书馆中的应用探索被引量:3
- 2017年
- 计算机视觉将在未来图书馆智能化进程中发挥巨大的作用。文章介绍了图书馆中已经存在的计算机视觉应用,并根据计算机视觉在各个领域的已有应用、图书馆的需求和计算机视觉的原理探索计算机视觉在图书馆中的新应用。
- 陈金传
- 关键词:计算机视觉摄像头