百筑吧-网站优化_搜索引擎关键词快速排名软件! www.baizhu8.com

积分充值收藏本站

1、关键词快速排名,灰色词违规行业勿扰
2、优化选择:整站优化,单词优化两种模式可选
3、优化步骤:注册账户,充值,添加关键词
4、数据查看:登录账户,查看关键词排名数据
5、扣费情况:关键词优化按天扣费,单天不达标不收费
当前位置:首页 > 算法规范

Reputation

admin 算法规范 2021-01-10 10:12:00 0

Reputation

  上面的所有算法,都是从查询项或者主题出发,经过算法处理,得到结果网页。多伦多大学计算机系Alberto Mendelzon, Davood Rafiei提出了一种反向的算法,输入为某个网页的URL地址,输出为一组主题,网页在这些主题上有声望(repution)。比如输入,www.cbing.net,可能的输出结果是“java”。

Reputation

  给定一个网页p,计算在主题t上的声望,首先定义2个参数,渗透率 和聚焦率 ,简单起见,网页p包含主题项t,就认为p在主题t上。

  是指向p而且包含t的网页数目, 是指向p的网页数目, 是包含t的网页数目。结合非条件概率,引入是WEB上网页的数目。P在t上的声望计算如下:

  指定 是既指向p有包含t的概率,即 ,显然有

  我们可以从搜索引擎(如Altavista)的结果得到 , , ,WEB上网页的总数估计值 某些组织会经常公布,在计算中是个常量不影响RM的排序,RM最后如此计算:

  给定网页p和主题t,RM可以如上计算,但是多数的情况的只给定网页p,需要提取主题后计算。算法的目标是找到一组t,使得RM(p,t)有较大的值。TOPIC系统中是抽取指向p的网页中的锚文本的单词作为主题(上面已经讨论过锚文本能很好描述目标网页,精度很高),避免了下载所有指向p的网页,而且RM(p,t)的计算很简单,算法的效率较高。主题抽取时,还忽略了用于导航、重复的链接的文本,同时也过滤了停止字(stop word),如“a”,“the”,“for”,“in”等。

  Reputation算法也是基于随机漫游模型的(random walk),可以说是PageRank和SALSA算法的结合体。

版权声明
下一篇:返回列表