1. 论坛系统升级为Xenforo,欢迎大家测试!
    Dismiss Notice

网页净化

Discussion in '软文发布区' started by kexuanwan2011, Aug 24, 2011.

  1. kexuanwan2011

    kexuanwan2011 New Member

    Joined:
    Jul 13, 2011
    Messages:
    839
    Likes Received:
    0
    网页净化与消重是大规模搜索引擎系统预处理环节的重要组成部分。

    网页净化(noise reduction):识别和清除网页内的噪声内容(如广告、版权信息等),并提取网页 主题以及与主题相关的内容。

    网页消重 (replicas or near—replicas detection):去除所搜集网页集合中主题内容重复的网页。

    在主题搜索领域,大量的广告、导航条等噪声内容会导致主题漂移(topicdrift)。这说明传统的主题搜索算法中以网页为粒度构造的web图不够准确,必须深入到网页内部将处理单元的粒度缩小,才能提高内容分析的准确性。在(Chakrabarti et al. 2001)中提出了一套解决方法,首先讲网页表示为一颗DOM数结构并找到与主题一致性较高的子树,然后对这些子树做特别的处理,从而提高主题的提炼的效果。
     
  2. qindw

    qindw New Member

    Joined:
    Mar 28, 2011
    Messages:
    805
    Likes Received:
    0
    很好很不错学习啦。。