推外网络专注营销型网站品牌策划与推广

FOCUS MARKETING WEBSITE BRAND PLANNING AND MARKETING PROMOTION

网站在优化过程中页面抓取过程简述(图文)

2019-12-03 09:48:20 100000+ 编辑:推外网络 来源:本站原创

url,即同一资源定位符,通过对url的阐发,我们可以更好地明白页面抓取历程。本日,小小讲堂SEO学网带来的是《页面抓取历程简述》。盼望本次的SEO技能培训对各人有所资助。

一、url是什么意思?

URL,英文全称为“uniform resource locator”,中文译为“同一资源定位符”。

网站优化中要求每一个页面有且仅有一个唯一的同一资源定位符(URL),但每每许多网站同一页面临应了许多个URL,假如都被搜刮引擎收录且未做URL转向,就会产生权重不会合的环境,通常称为URL不范例。

二、url的构成

同一资源定位符(URL),由三部门构成:协议方案、主机名和资源名。

比方:

https:// www.x**.org /11806

此中https为协议方案,www.***.org 为主机名 ,11806为资源,不外这个资源不太显着,一样平常资源后缀为.html,固然还可以是.pdf、.php、.word等格式。

三、页面抓取历程简述

无论是我们平常用的互联网欣赏器,照旧网络爬虫,固然是两种差别的客户端,但获取页面的方法却是雷同的。页面抓取历程如下:

① 毗连DNS域名体系办事器

客户端都市先毗连到DNS域名办事器上,DNS办事器将主机名( www.***.org )转换为IP地点,并反馈给客户端。

PS:原来我们通过111.152 . 151.45 的地点来访问某网站,为了方便影象和利用,才使用DNS域名体系转换为了 www.***.org 。这也就是DNS域名体系的作用。

② 毗连IP地点办事器

该IP办事器下大概会有许多步伐(网站),可以通过端标语来做区分,同时每个步伐(网站)都市监听端口是否有新的毗连哀求,HTTP网站默以为80,HTTPS网站默以为443。

不外通常环境下,端标语80和443是默认不出现的。

举例来讲:

https://www.***.org:443/ = https://www.***.org/

http://www.***.org:80/ = http://www.***.org/

③ 创建毗连并发送页面哀求

客户端与办事器创建毗连后,会发送页面哀求,通常为get,也可以是post。

get 11806 HTTPS/1.0

获取HTTPS协议下的页面11806 返回给客户端。之后如需继承获取更多页面,则发送其他哀求,不然将封闭该毗连。

PS:通常环境下 ,/seo/11806.html 大概会更清楚。也就是发送 https://www.***.org/ 下的 seo文件夹下的 11806.html 的页面哀求。

以上就是小小讲堂SEO自学网带来的是《页面抓取历程简述》。谢谢您的寓目。网络营销培训认准小小讲堂!SEO培训认准小小讲堂!更多seo教程搜刮小小讲堂。原创文章接待转载并保存版权:https://www.xxkt.org/

本站文章均为推外网络摘自权威资料,书籍,或网络原创文章,如有版权纠纷或者违规问题,请即刻联系我们删除,我们欢迎您分享,引用和转载,我们谢绝直接复制和抄袭!感谢...