热门标签

特别声明:文章多为网络转载,资源使用一般不提供任何帮助,特殊资源除外,如有侵权请联系!

想要学好SEO就要了解搜索引擎的工作原理,只有弄明白搜索引擎的工作原理,才能有效解决在今后的操作过程中遇到一些问题。

首先,一个搜索引擎一般是有抓取模块、过滤模块、收录模块、排序模块四部分构成。

一、抓取模块

搜索引擎在运行工作的时候,第一个工作就是到互联网上抓取页面,而实现这项功能的模块我们就称为抓取模块。

1、什么是蜘蛛

搜索引擎想要抓取互联网上数以亿计的页面必须要有自动抓取程序:蜘蛛(机器人)。蜘蛛的任务非常简单就是顺着链接不停的抓取互联网上,自己还没有收录的页面和链接,然后将抓取到的内容存储到自己的网页数据库中。而这些抓取的内容将有机会在最终的搜索结果中展现。

2、那么,怎么让蜘蛛来抓取我们的网站呢?

主要有以下三种方法:

外部链接:就是在搜索引擎收录的网站中发布自己的网站的链接,吸引蜘蛛来抓取(交换友情链接也可)。

提交链接:利用百度站长工具,利用这个工具把链接提交给百度,百度就会排除蜘蛛来抓取我们的网页了。站长工具网址:http://zhangzhang.baidu.com/linksubmit/url。

蜘蛛自己来抓取:想要蜘蛛定期主动来自己的网站抓取网页,就必须要提供高质量的网站内容,只有这样蜘蛛才会特别关照你的网站,定时过来看看你的网站是否有新的内容。

3、如何知道蜘蛛来过我们的网站?

通过以下两种方式就可以知道蜘蛛是否来过我们的网站。

(1)百度抓取频次工具:http://zhanzhang.baidu.com/pressure/index。

(2)服务器IIS日志:服务器中开启了这项功能,那么你就能通过IIS日志文件看到蜘蛛来访的痕迹。

4、影响蜘蛛抓取的因素?

想要好的网站排名,第一步就是要被蜘蛛抓取,那么哪些因素会影响蜘蛛来抓取我们的网页呢?

(1)网址不能过长:一般网站长度不要超过256个字节为宜。(一个英文字母代表一个字节,一个中文代表两个字节)

(2)网址不含中文:百度对中文链接的抓取效果还是比较查的,所有网址中不要带中文。

(3)网站服务器:服务器太差总是打不开,也会影响蜘蛛抓取效果。

(4)Robots.txt屏蔽:由于工作疏忽,在robots.txt文件中屏蔽了蜘蛛抓取的页面或路径。

(5)动态参数不要过于复杂:动态的url虽说百度有处理,但是过于复杂的可能会被蜘蛛认为不重要而放弃抓取。

二、过滤模块

由于互联网上有许多垃圾页面和无内容页面,而这些页面不管是用户还是搜索引擎来说都是不需要的,所以为了避免这些垃圾页面占用资源,搜索引擎会对抓取回来的内容进行过滤,而完成这项功能的模块就是过滤模块。

那么,影响过滤模块的因素有哪些呢?

1、识别:搜索引擎目前最擅长的还是分析文字和链接,对图片和视频的识别还是较差的,所以我们在编辑网站内容的时候,应该多添加些文字描述,避免被过滤掉。

2、质量:搜索引擎会将抓取到的内容与数据库中的进行对比,如果重复度过高,这个页面也是会被过滤的。

三、收录模块

将通过过滤后的网页,进行分词、数据格式标准化,然后存储到相应的索引数据库程序模块中,这个程序就叫收录模块。

1、如何查看网页收录:最常用的就是把网页链接,放到百度搜索框中进行搜索,如果能显示该页面,就说明该网站被收录了。

2、如何查看网站的收录量:通过“site:域名”的命令或者百度站长工具中的”索引量“查询工具。

3、索引量减少怎么办?

这个一般分为两种情况:

(1)新站:一般上线后一到两个月才会开始收录,前期一般只会收录首页。在日常的维护中提供高质量的内容。

(2)老站:主要是因为站内内容质量太差导致的,解决方法就是调整网站内容的质量,提供优质的内容。

四、排序模块

对存储在数据库中的页面,通过一系列的算法得到每个页面的权重,并将每个页面排序处理的程序,叫排序模块。想要自己的网站取得好的排名,需要做好以下两点:

1、完善基础优化:包含网站定位、网站结构、网站代码、网站内容等几个方面。

2、综合数据良好:可用百度统计查看后台数据,如果用户的忠诚度和外链显著的话就会及格或加分,从而超越竞争对手排在前面。

标签:

未经允许不得转载:www.zxm5.com作者:未央, 转载或复制请以 超链接形式 并注明出处
原文地址:《搜索引擎工作的原理是什么?》 发布于2019-06-07

分享到:
赞(0)

评论 抢沙发

9 + 7 =


Vieu4.0主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录