百度李彦宏申请超链分析专利简介

SEO算法合集 2019-08-07 59 0

链接原理:

诞生以前,传统搜索引擎主要依靠页面内容中的关键词匹配搜索词进行排在Google名。这种排名方式的短处现在看来显而易见,那就是很容易被刻意操纵。黑帽SEO在页面上堆积关键词,或加入与主题无关的热门关键词,都能提高排名,使搜索引擎排名结果质量大为下降。现在的搜索引擎都使用链接分析技术减少垃圾,提高用户体验。在排名中计入链接因素,不仅有助于减少垃圾,提高结果相关性,也使传统关键词匹配无法排名的文件能够被处理。

李彦宏超链分析专利

李彦宏超链分析专利:

百度创始人李彦宏在回国创建百度之前就是美国顶级的搜索引擎工程师之一。据说李彦宏在寻找风险投资时,投资人询问其他三个搜索引擎业界的技术高人一个问题:要了解搜索引擎技术应该间谁。这三个被问到的高人中有两个回答:搜索引擎的事就问李彦宏。李彦宏1997年就提交了一份名为“超链文件检索系统和方法”的专利申请,这比 Google创始人发明PR要早得多,不得不说这是非常具有前瞻性的研究工作。在这份专利中,李彦宏提出了与传统信息检索系统不同的基于链接的排名方法。

这个系统除了索引页面之外,还建立一个链接词库,记录链接锚文字的一些相关信息,如锚文字中包含哪些关键词,发出链接的页面索引,包含特定锚文字的链接总数,包含特定关键词的链接都指向哪些页面。

HTS算法

HITS是英文 Hyperlink-Induced Topic Searchh的缩写,意译为“超链诱导主题搜索”HTS算法由 Jon Kleinberg于1997年提出,并申请了专利:

按照HIS算法,用户输入关键词后,算法对返回的匹配页面计算两种值,一种是枢纽值( Hub scores),另一种是权威值( Authority Scores),这两个值是互相依存、互相影响的。所谓枢纽值,指的是页面上所有导出链接指向页面的权威值之和。

TrustRank算法

TrustRank算法

TrustRank是近年来比较受关注的基于链接关系的排名算法。 TrustRank可以翻译为“信任指数”。TrustRank算法最初来自于2004年斯坦福大学和雅虎的一项联合研究,用来检测垃圾网站,并且于2006年申请专利。 TrustRank算法发明人还发表了一份专门的PDF文件,说明 TrustRank算法的应用。TrustRank算法并不是由 Google提出的,不过由于 Google所占市场份额最大,而且TrustRank在 Google排名中也是一个非常重要的因素,所以有些人误以为 TrustRank是Google提出的。

Google PR算法

PR是 PageRank的缩写。 Google PR理论是所有基于链接的搜索引擎理论中最有名的SEO人员可能不清楚本节介绍的其他链接理论,但不可能不知道PR。PR是 Google创始人之一拉里佩奇发明的,用于表示页面重要性的概念。用最简单的话说就是,反向链接越多的页面就是越重要的页面,因此PR值也就越高。

1、PR的概念和计算

我们可以把互联网理解为由结点及链接组成的有向图,页面就是一个个结点,页面之间的有向链接传递着页面的重要性。一个链接传递的PR值决定于导入链接所在页面的PR值,发出链接的页面本身PR值越高,所能传递出去的PR也越高。传递的PR数值也取决于页面上的导出链接数目。

2、PR的两个比喻模型

链接构成的关于PR有两个著名的比喻。一个比喻是投票。链接就像民主投票一样,A页面链接到B页面,就意味着A页面对B页面投了一票,使得B页面的重要性提高。同时,A页面本身的PR值决定了A所能投出去的投票力,PR值越高的页面,投出的票也更重要。

3、工具条PR

真正的用于排名计算的 Google PR值我们是无法知道的,我们所能看到的只是 Google工具条PR值。需要清楚的是,工具条PR值并不是真实PR值的精确反映。真实PR值是个准确的、大于0.15、没有上限的数字,工具条上显示的PR值已经简化为0~10这11个数字,是一个整数,也就是说PR值最小的近似为0,最大的近似为10。

关于PR的几个误解


4、关于PR的几个误解

PR的英文全称是 PageRank。这个名称来源于发明人佩奇的名字,巧合的是Page在英文中也是页面的意思。所以准确地说 PageRank这个名字应该翻译为佩奇级别,而不是页面级别。不过约定俗成,再加上巧妙的一语双关,大家都把PR称为页面级别。

当然,PR还是 Google排名算法中的重要因素之一。除了直接影响排名,PR的重要性还体现在下面几点。

1、网站收录深度和总页面数。搜索引擎蜘蛛爬行时间及数据库的空间都是有限的。

2、更新频率。PR值越高的网站,搜索引擎蜘蛛访问得就越频繁,网站上岀现新页面或旧页面上内容更新时,都能更快速地被收录。

3、重复内容判定。当 Google在不同网站上发现完全相同的内容时,会选出一个作为原创,其他作为转载或抄袭。用户搜索相关关键词时,被判断为原创的那个版本会排在前面。

4、排名初始子集的选择。前面介绍排名过程时提到,搜索引擎挑选出所有与关键词匹配的文件后,不可能对所有文件进行相关性计算,因为返回的文件可能有几百万、几千万,搜索引擎需要从中挑选岀一个初始子集,再做相关性计算。

联系方式

客服QQ: 2692559667
客服电话: 18650236923

如果您还不明白,欢迎关注右侧二维码了解更多。

扫一扫关注公众号

评论

cache
Processed in 0.008238 Second.