`

PageRank&HITS算法

 
阅读更多

    HITS算法是Web结构挖掘中最具有权威性和使用最广泛的算法。

 

    其基本思想是利用页面之间的引用链来挖掘隐含在其中的有用信息(如权威性),具有计算简单且效率高的特点。

 

    HITS算法通过两个评价权值——内容权威度(Authority)和链接权威度(Hub)来对网页质量进行评估。

  1. 内容权威度与网页自身直接提供内容信息的质量相关,被越多网页所引用的网页,其内容权威度越高;
  2. 链接权威度与网页提供的超链接页面的质量相关,引用越多高质量页面的网页,其链接权威度越高。

    HITS算法认为对每一个网页应该将其内容权威度和链接权威度分开来考虑,在对网页内容权威度做出评价的基础上再对页面的链接权威度进行评价,然后给出该页面的综合评价。

 

    参考资料:HITS algorithm(对HITS算法权威说明和伪代码)

 

    PageRank算法是Web结构挖掘中最具有权威性和使用最广泛的算法。

    PageRank的发明者通过对网络超链接结构和文献引文机制的相似性进行研究,把引文分析的思想借鉴到网络文档重要性的计算中来,利用网络自身的超链接结构给所有的网页确定一个重要性的等级数,当从网页A链接到网页B时,就认为“网页A投了网页B一票”,增加了网页B的重要性,最后根据网页的得票数评定其重要性,以此来帮助实现排序算法的优化,而这个重要性的量化指标即PageRank值。
      在实际计算PageRank值时,除了考虑网页得票数(即链接的纯数量)之外,还要分析为其投票的网页的重要性,重要的网页所投之票有助于增强其他网页的重要性.简单的说,PageRank就是要从链接结构中获取网页的重要性,而网页的重要性决定着同时也依赖于其他网页的重要性。

 

   参考资料:PageRank algorithm(对PageRank权威说明和公式化表示)

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics