深圳网站制作-网站设计-深圳网站建设
0755-28441905

百度蜘蛛现在可以抓取HTML5的标签吗?

2022-11-24

seo常见问题之一:竞价影响(1)


1. 没做竞价网站会被K吗?

image.png

描述:Baiduspider-sfkr 来过之后,当天网站收录就被K为0了,然后百度蜘蛛还是正常爬取,但就不收录。请问这是怎么回事,没有做竞价的站,,居然来了竞价蜘蛛,发现没做竞价就K站?


官方回复:百度的商业推广和自然搜索,是由完全独立的两个部门分别运营两套独立系统。Baiduspider-sfkr的抓取,和网页自然搜索无关,也不会对网页自然搜索产生任何影响。


seo常见问题之二:域名(2-3)


2. 搜索引擎对 .cn .org .com有偏好吗?


官方回复:没有偏好


3. 很多人说.info和.hk等域名被降权了,是不是真的?


官方回答:使用何种后缀的域名,对搜索引擎没有直接的影响。但.com、.cn、.net等常见的域名后缀更容易记忆,一些不常见的后缀可能会让用户产生不信任感,增加用户的判断成本。


seo常见问题之三:运维(4-8)


4. 关于使用多域名实现资源并行下载对网站有没有影响?


问题补充:很多网站为了提高网站访问速度,网站对静态资源文件使用了独立的无cookie域名。虽然提升了网站的性能,但同时也在网站页面上产生了大量的不属于该网站域名的资源调用链接。例如:abc.com网站将abcimg.com域名做为其图片资源调用的域名来使用,这时在abc.com的页面上调用的图片HTML代码为请问Lee对于这类的URL是如何判断的呢?是否会将其做为该页面的一个出站链接来判断?如果页面上这类的链接过多,是否会对网站的SEO效果产生影响呢?


官方回答:这是一种非常正当的做法,从网页搜索的角度来看,没有任何直接的影响,和调用本站的资源是一样的。


5. 网站的gzip压缩对网站的收录和权重有没有影响?


官方回复:gzip对收录和权重没有影响。对搜索引擎唯一的影响,是抓取速度会快一些。


6. 网站被黑导致K站该如何处理?


问题补充:网站在9.19被恶意攻击,被加入了大量不良信息,之后被百度收录。网站工作人员及时清理了那些信息,但是百度在10.17把本站给K了。本站为工业类正规站,并且无任何作弊记录。该如何处理?


官方回复:黑客恶意攻击网站以后,会在网站中插入大量的作弊内容。建议尽快清理黑客插入的不良信息并在Baiduspider抓取这些内容时返回404代码,这样我们才能迅速的发现网站已经恢复正常。


7. 更换服务器是否对排名有影响?


官方回复:原则上是不会的。除非新换的服务器太糟糕,三天两头访问失败,或者服务器从国内换到国外,这就很可能被和谐。


8. js代码弹窗是否会影响自然排名?


官方回复:任何对用户体验有增益或者减益的做法,其实会影响到用户的”投票”行为。而这些投票行为,又会影响搜索引擎对这个网站的评价算法。所以,弹不弹窗并不重要呀,关键是这种弹窗会对用户造成什么样的影响。


seo常见问题之四:蜘蛛(9-11)


9. 百度蜘蛛的IP,是否有降权蜘蛛IP,考核蜘蛛IP,高权重蜘蛛IP这么一说?


问题补充:例如123.125.71.* 都说这个是降权蜘蛛;220.181.108.* 这个是高权重蜘蛛


官方回复:没有


10. 如何判断是否冒充Baiduspider的抓取?


问题补充:220.181.51.* 这个ip段是百度蜘蛛吗?


官方回复:如何判断是否冒充Baiduspider的抓取?百度帮助中有详细的描述http://www.baidu.com/search/spider.html


11. 服务器加了硬防之后会不会影响蜘蛛抓取?如果有影响,那么该如何解决为好?


官方回复:不会,只要是不封禁百度的抓取,以及不写robots,就不会影响


seo常见问题之五:抓取(12-16)


12. 百度是否跟踪JavaScript链接?


官方回复:javascript的解析,是很多搜索引擎正在做的事情;同理,对flash的解析。毕竟有那么多应用javascript或者flash的网站,其实并没有意识到,他们的做法给搜索引擎的收录和索引带来的麻烦。所以,如果期望不被搜索引擎收录的话,最直接的手段,还是写robots文件。


13. 百度是否能抓取CSS样式表并识别分析?


官方回复:百度是能够抓取并分析CSS的。


14. 对较多图片和flash的页面,搜索引擎会如何处理?


问题补充:目前很多页面可能会没有很多的文字,比较多图片和flash,对没有很多文字的页面,搜索引擎能很好的将这个页面中的资源识别出来吗?


官方回复:目前在推一个工具,将spider抓取日志展示出,去看下是否符合站长的抓取意愿,且对某些js较多的网站,假设目前收录不好,可先尽量减少js的使用。


15. 百度蜘蛛现在可以抓取HTML5的标签吗?


官方回复:百度可以解析HTML5的标签。


16. 百度蜘蛛如何爬取不存在的路径?


官方回复:Baiduspider只抓取能从互联网上找到的url,如果Baiduspider大量抓取你网站上不存在的url,可能有两个原因:


1) 内链:你网站内有部分网页指向其他网页的url格式不正确。


2) 外链:互联网上有其他网站指向了你网站内不存在的网页。另外,Baiduspider抓取到不存在的网页,服务器应该返回404错误。


seo常见问题之六:收录(17-19)


17. 网站上线一个月,百度为何只抓取首页?


问题补充:网站离上线到现在已经一个月左右了,百度只抓取首页,也不见放出来,这是为何?


官方回复:建议参考《百度搜索引擎优化指南2.0》中“子域名与目录选择”部分。


18. 为什么蜘蛛每天爬n次,而收录网页只有一两篇?


官方回答:网页抓取和建立索引是不等同的。这些网页会经过一些必要的chk过程之后才会被建入索引。


19. 页面收录到一定值后,收录量就增加很缓慢怎么办?


问题补充1:比如:人人日志,上千万的数据,用了一年多的时间目前收录了几百万,且大部分内容都是很高质量的,但收录量到一个值之后,就没有增加,这个是什么原因?


问题补充2:姓名类的产品,通过sitemap提交之后,上千万的数据还是收录了700w+,会不会被认为这些页面是相似的页面。


官方回复:


回复1:人人之前有一些页面比较封闭,这两年才开始开放,但是spider根据之前的日志分析,对人人网的改动反应偏慢,所以推出了sitemap,希望大家通过sitemap将大家想进行索引的数据进行主动推送。


回复2:互联网资源很多,相似的产品很多,由于资源有限,会尽可能优先选取有价值的页面去抓取。一次提交的页面量很大,搜索引擎需要一定的时间去收录,搜索引擎可能会每天设置一定的压力上线去抓取,避免对站长产生太大的压力,可以尝试使用百度站长平台的抓取压力调节工具调试自己网站的抓取压力,增加压力,我们这边可以适当提高自己的压力加快抓取。


seo常见为题之七:url规范(20)


20. 百度建议URL静态化吗?


问题补充:还是像Google一样,不建议URL静态化?对伪静态怎样看待?和真的静态文件一样吗?


官方回复:对URL的动静态,没有歧视政策。  之所以以前有过提倡静态的说法,是因为很多动态URL,带了很多参数,而实质上内容是一样的。这个给spider以及站长都带来不必要的麻烦。我们在这上边花了不少精力。所以,总的原则就是,URL的动静态无所谓,只是尽可能的避免重复即可。但是动态url也不要动态得太变态,搞几十个参数,那会吓着蜘蛛。酝酿中的sem指南,会有对url优化方面的详细说明。


seo常见问题之八:301跳转(21-22)


21. 关于301跳转的权重继承问题


问题补充:域名A 曾经301至域名B,如果现在又将域名B 301回 A,是否还能保持原来权重?


官方回复:还能保持原来的权重,但会有一段时间的考查和权值转移期


22. 百度下的301是将权重替换还是叠加?


问题补充:新域名在百度下的权重比旧域名高的情况下,将旧域名301重定向到了新域名会有什么影响?或者说百度下的301是将权重替换还是叠加的呢?


官方回复:将旧域名301重定向到新域名,旧域名的权值会叠加到新域名上。


seo常见问题之九:nofollow(23)


23. nofllow 是否会浪费权重


官方回复:不会


seo常见问题之十:404页面(24-27)


24. 404页面不去处理的时候,会对网站权重产生影响吗?


官方回复:搜索中出现的无结果页面,是对用户最大的伤害,这种可能就会被认为该网站内容管理不好。


25. 如何处理404页面?


官方回答:建议统一筛查全站近期的404页面,做成死链的sitetmap文件(制作帮助见http://www.baidu.com/search/badlink_help.html),登录站长平台,使用死链工具进行提交。此方法对降低404页面对网站造成的负面影响效果最优。


微信咨询号

一站式互联网服务提供商

深圳市灵点网络科技有限公司

更多了解请咨询:0755-28441905