观察行业视觉 用我们专业的角度 讲出你们的心声
THE CONSTRUCTION STATION MUST BE SEEN

SEO算法深度分析之倒排索引,来解释SEO排名的问题

发布时间:2018-10-23 / 浏览量:0

今天给大家分享一下倒排索引的一些事情,为什么要说倒排索引呢?因为当用户搜索一个词的时候,返回的搜索结果页面就是经过倒排索引和一系列算法过滤后的结果排序,seo苦苦追求的不就是排名的多少吗?

说的通俗一点,其实搜索引擎的索引好比是我们平时看书时的目录,为了让大家更快找到适合自己的东西,比如导航站其实就是互联网上小型索引的结构案例。

上面会有一些分类比如新闻、电影、小说、图片等等板块,让用户快速的找到自己所需。

索引是搜索引擎中最为核心的技术之一,因为在大量的网页中,怎样才能更快、更精准的找到用户查询这个词的搜索意图。

先给大家说几个概念,为了下面的讲述中,大家都能看得懂。

1、文档:我们是以网页的形式看到互联网页面的,而网页中包含很多的东西,比如:TXT、EXCEL、PDF等等很多各式各样的文件都被成为文档。

2、文档集合:由很多的文档组成一个集合,称为文档集合。

3、文档编号:互联网上每一个文档都有各自且独一无二的编号。

4、单词编号:每个单词都有各自的唯一编号,用编号来代表这个单词或、短语者句子。

5、倒排索引:是在搜索引起的索引库中,以单词对应网页的一种存储的形式,可以根据单词快速的获取相关的文档。

其实倒排索引非常的简单,下面就结合一些特征案例来渐渐深入的分析这个算法,大家先了解一些基本的思路即可。

SEO算法深度分析之倒排索引 来解释SEO排名的问题 SEO优化 网站优化

上图是每个文档编号对应的不同文档,如编号“1”对应“小明吃早饭”,编号“2”对应“小明早上吃了什么”,以此类推。

另外由于中文和英文的文化属性不相同,中文的汉字之间没有明显像英文单词那样的分隔符,索引首先对中文要进行一下分词(下面举例中暂时不去掉停止词),这样就把一句话变成了一个个的词组,如下图。

SEO算法深度分析之倒排索引 来解释SEO排名的问题 SEO优化 网站优化

上图单词的ID记录了每个单词的编号,第二列是编号所对应的单词,第三列是哪几个文档中包含了这个单词。

比如单词“小明”,其其单词编号为“1”,倒排列表“1,2,4,5”,表示这几个文档集合中都包含了这个单词。实际上搜索引擎更为复杂,不仅仅记录了单词的文档编号,还记录了单词的频率(TF,什么意思呢?很多seo从业者都在说关键词的密度,

市面上计算页面中关键词密度的计算公式有三个:

公式一: 关键词次数/页面总字数 x100%

公式二: 关键词次数/页面总字数/关键词字数 x 100%

公式三: 关键词次数/页面分词数量 x 100%

先不讨论哪个公式的计算方式更加精准,我们发现公式中都出现了关键词的次数,那这个TF就是该单词在页面中出现的次数)

这个TF在搜索引擎计算搜索结果排序时,分析查询词和文档库中哪个文档更为相关的一个参考因素。

SEO算法深度分析之倒排索引 来解释SEO排名的问题 SEO优化 网站优化

上图是比较复杂的,我们来看看文档频率为多个文档包含这个单词,如:“小明”在“4个文档”中出现了。“吃”在“4个文档”中出现了,后面的以此类推。倒排列表小明 (1;1<1>),1为文档1,中间的1为这个词在这个文档中出现的频率,<1>是这个词在文档中出现的位置1,即在文档中第一个词。

如果没有找到您需要的信息,您还可以直接咨询在线客服进行咨询!