贝叶斯算法
贝叶斯算法
Allan Borodin等提出了完全的贝叶斯统计方法来确定Hub和Authoritive网页。假定有M个Hub网页和N个Authority网页,可以是相同的集合。每个Hub网页有一个未知的实数参数 ,表示拥有超链的一般趋势,一个未知的非负参数 ,表示拥有指向Authority网页的链接的趋势。每个Authoritive网页j,有一个未知的非负参数 ,表示j的Authority的级别。
统计模型如下,Hub网页i到Authority网页j的链接的先验概率如下给定:
P(i,j)=Exp( + )/(1+Exp( + ))
Hub网页i到Authority网页j没有链接时,P(i,j)=1/(1+Exp( + ))
从以上公式可以看出,如果 很大(表示Hub网页i有很高的趋势指向任何一个网页),或者 和 都很大(表示i是个高质量Hub,j是个高质量的Authority网页),那么i->j的链接的概率就比较大。
为了符合贝叶斯统计模型的规范,要给2M+N个未知参数( , , )指定先验分布,这些分布应该是一般化的,不提供信息的,不依赖于被观察数据的,对结果只能产生很小影响的。Allan Borodin等在 中指定 满足正太分布N(μ, ),均值μ=0,标准方差δ=10,指定 和 满足Exp(1)分布,即x>=0,P( >=x)=P( >=x)=Exp(-x)。
接下来就是标准的贝叶斯方法处理和HITS中求矩阵特征根的运算。
简化的贝叶斯算法
Allan Borodin同时提出了简化的上述贝叶斯算法,完全除去了参数 ,也就不再需要正太分布的参数μ,δ了。计算公式变为:P(i,j)= /(1+ ),Hub网页到Authority网页j没有链接时,P(i,j)=1/(1+ )。
Allan Borodin 指出简化的贝叶斯产生的效果与SALSA算法的结果非常类似。