您的位置: 专家智库 > >

张敬之

作品数:1 被引量:8H指数:1
供职机构:南京大学计算机科学与技术系计算机软件新技术国家重点实验室更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇信息抽取
  • 1篇后缀树
  • 1篇WEB信息
  • 1篇WEB信息抽...
  • 1篇抽取

机构

  • 1篇南京大学

作者

  • 1篇高强
  • 1篇耿桦
  • 1篇潘金贵
  • 1篇张敬之

传媒

  • 1篇计算机科学

年份

  • 1篇2007
1 条 记 录,以下是 1-1
排序方式:
基于重复模式的Web信息抽取被引量:8
2007年
网页中的大量数据记录往往以重复的HTML结构进行有规律的组织,从而形成一致的表现形式。根据这一特征,本文给出一种基于重复模式的Web内容抽取方法。通过使用一种叫做后缀树的数据结构,分析页面结构中所包含的重复模式,进而从模式的实例中抽取出对应的数据记录。
高强张敬之耿桦潘金贵
关键词:WEB信息抽取后缀树
共1页<1>
聚类工具0