seo必看搜索引擎的工作原理及优化(seo搜索引擎优化从入门到精通)

1、搜索引擎的具体优化规则是什么?

这种问题其实很宽泛,相当于问“怎么做SEO?”这里,用图片解释抓取规则。

搜索引擎从用户搜索到最终搜索结果展现的步骤是(以百度为例):爬,百度不知道你的网站,怎么能得到排名?所以要让百度了解你,首先要抓住这一步;过滤,过滤掉低质量的页面内容;索引,将只存储合格的页面;处理,对搜索词进行处理,如中文特定分词,去除停用词,判断是否需要开始综合搜索,判断是否有拼写错误或错别字等。排名,向用户展示高质量页面;

border-box;”>蜘蛛(Spider):
被搜索引擎派出能在网上发现新网页并抓取的程序称为蜘蛛,其从已知的数据库出发,像正常用户的浏览器一样访问这些网页,并跟踪网页中的链接,访问更多的网页,这个过程就叫爬行;
蜘蛛对一个站点的遍历抓取策略分深度优先和广度优先两种。
seo必看搜索引擎的工作原理及优化(seo搜索引擎优化从入门到精通) seo必看搜索引擎的工作原理及优化(seo搜索引擎优化从入门到精通)

seo必看搜索引擎的工作原理及优化(seo搜索引擎优化从入门到精通)

spider抓取的基本过程:

根据爬取目标和范围,可分为

批量性爬虫:明确的抓取目标和范围,达到即停止;

增量型爬虫:应对网页不断更新的状态,爬虫需要及时反应,通用商业引擎一般都是这类;

垂直型爬虫:只针对某个特定领域的爬虫,根据主题过滤;

百度官方 spider抓取过程中的策略

1、抓取友好性,同一个站点在一段时间内的抓取频率和一段时间内的抓取流量都不同,即错开正常用户访问高峰不断的调整,避免程度过大影响被抓网站的正常用户访问行为。

2、常用抓取返回码,如503,404,403,301等;

3、多种url重定向的识别,如http 30x、meta refresh重定向和js重定向,Canonical标签也可看做变相的重定向;

4、抓取优先级调配,如深度优先遍历策略、宽度优先遍历策略、pr优先策略、反链策略、大站优先策略等;

5、重复url的过滤,包括url归一化识别,例如一个url中包含大量无效参数而实际是同一个页面;

6、暗网数据的获取,搜索引擎暂时无法抓取到的数据,如存在于网络数据库中,或由于网络环境、网站本身不符合规范、孤岛等问题而造成的无法被抓取,如百度的“阿拉丁”计划;

7、抓取反作弊,抓取过程中往往会遇到所谓抓取黑洞或者面临大量低质量页面的困扰,这就要求抓取系统中同样需要设计一套完善的抓取反作弊系统。如分析url特征、分析页面大小及内容、分析站点规模对应抓取规模等;

spider感兴趣的页面有3类:
1.从未抓取过的新页面。
2.抓取过但内容有改动的页面。
3.抓取过但现在已删除的页面。

蜘蛛不能/不喜欢抓取的内容:
1.被robot屏蔽的页面;
2.图片、视频和flash里的内容;
3.Js、iframe框架、table嵌套;
4.蜘蛛被服务器端屏蔽;
5.孤岛页面(无任何导入链接);
6.登录后才能获取的内容;

四种近似重复网页类型:
1.完全重复页面:在内容和布局格式上毫无区别;
2.内容重复页面:内容相同,但布局格式不同;
3.布局重复页面:有部分重要的内容相同,并且布局格式相同;
4.部分重复页面有部分重要内容相同,但布局格式不同;

  

典型的网页去重算法:特征抽取、文档指纹生成、相似性计算

低质量的内容页面:
1.多个URL地址指向同一网页以及镜像站点,如带www和不带www的同时解析到一个网站;
2.网页内容重复或近似重复,如采集内容,文不对题或垃圾信息;
没有丰富的内容,如纯图片页面或页面内容搜索引擎识别不了;

过滤-重复文档的处理方式:
1.低质量内容予以删除
2.高质量重复文档分组并优先展示(重复性高表示受欢迎)

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/169827.html

(0)

相关推荐

  • seo外部链接类别优化(外部链接对seo优化有什么影响)

    网站外链是SEO过程中非常重要的一个环节~往往很多站长忽略或者不知道如何开始网站外链建设。接下来,常州SEO蒋东将讲解外链建设。让大家更系统地了解外链的构建。 一、外链的基本知识 …

    教程 2022年2月12日
  • 外卖小哥神合集(外卖小哥才艺合集)

    1.百度外卖 2.饿了吗?3.美团外卖4。口碑外卖5。外卖超人6。肯德基家庭快递7。麦当劳邮件8。帮我订9号外卖。我有10号外卖。零线11。桃点12。JD.COM家13。爱新鲜的蜜…

    教程 2022年2月12日
  • 301跳转怎么做(301跳转前的页面怎么看)

    为什么设置301? 1、新旧域名转换,转移权重 2.解决一些非主域包含问题(避免镜像) 3.统一域名 此外,一些空间供应商在自己的空间中有三个域名,即没有www的域名和有www的域…

    教程 2022年2月12日
  • 销售月底该做哪些事(销售月底的最后一天能做什么事情)

    每个月底的最后几天是销售最忙、最焦虑的日子。感兴趣的客户担心如何在最后几天完成交易。那些对客户不感兴趣的人更担心,但他们没有收到钱,日子就像岁月一样。但销售人员知道,最后几天至关重…

    教程 2022年2月12日
  • 网站404什么意思(网站404页面代码)

    为什么我设置了404页面,但是状态码还是不对,如图,为什么还是显示200的状态? 其实他搞错了,就是404状态码和404页面不是一回事,404状态码是给搜索引擎用的,而404页面是…

    教程 2022年2月12日
  • 做seo前要了解什么(seo标题合理写法)

    网站的标题具体写法是什么? 标题符号如何选取,哪种最好?网站的标题有字数限制吗,控制在多少字效果最好? 2018-11-15百度近日发布公告,用图片案例解释网站标题写作。 对网页内…

    教程 2022年2月12日