文章编号:21 /
分类:
互联网资讯 /
更新时间:2024-04-25 05:32:52 / 浏览:
次
在搜索引擎中有好的排名表现,网站的收录是基础。页面收录的数量级别也代表着网站的整体质量。要让百度收录你的网站,需要了解搜索引擎的工作原理,以迎合搜索规则,让网站收录达到理想状态。
搜索引擎的工作原理
搜索引擎的工作过程大体上可以分成三个阶段:
-
爬行和抓取:搜索引擎蜘蛛通过跟踪链接发现和访问网页,读取页面 HTML 代码,存入数据库。
-
预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引、倒排索引等处理,以备排名程序调用。
-
排名:用户输入查询词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。
一、爬行和抓取
1. 蜘蛛访问
搜索引擎蜘蛛在访问网站时,会先访问网站根目录下的 robots.txt 文件。如果 robots.txt 文件禁止搜索引擎抓取某些文件和目录,蜘蛛会遵守协议,不抓取被禁止的网址。
2. 跟踪链接
为了抓取网上尽量多的页面,搜索引擎蜘蛛跟踪页面上的链接,从一个页面爬到下一个页面。最简单的爬行策略分为两种:
-
深度优先:蜘蛛沿着发现的链接一直向前爬行,直到前面再也没有其他链接,然后返回到第一个页面,沿着另一个链接再一直往前爬行。
-
广度优先:蜘蛛在一个页面上发现多个链接时,不是顺着一个链接一直向前,而是把页面上所有第一层链接都爬一遍,然后再沿着第二层页面上发现的链接爬向第三层页面。
3. 吸引蜘蛛
要吸引蜘蛛来抓取网站,需要注意以下因素:
-
网站和页面权重
-
页面更新度
-
导入链接
-
与首页的距离
-
URL 结构
4. 地址库
为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现但还没有抓取的页面,以及已经被抓取的页面。蜘蛛在页面上发现链接后并不是马上就去访问,而是将 URL 存入地址库,然后统一安排抓取。
5. 文件存储
搜索引擎蜘蛛抓取的数据存入原始页面数据库。
6. 爬行时进行复制内容检测
二、预处理
1. 提取文字
从 HTML 代码中提取出可以进行排名处理步骤的文字内容,去除 JS、AJAX 等无法解析的内容。
2. 中文分词
中文搜索引擎特有的一步,将中文内容切分成词。
3. 去停止词
去除一些出现频率很高但对内容没有任何影响的词,例如"的"、"啊"。
4. 去噪声词
去除页面中与页面内容本身的关键词不相关的词,例如页眉、页脚、广告等区域中的词语。
相关标签:
百度网站收录、
搜索引擎的工作原理、
本文地址:https://www.zdmsl.com/demo/001/article/21.html
上一篇:WordPress管理后台一键复制文章快速复制和...
下一篇:Telegram登陆收不到短信验证码解决方法...