头像

网站建好后的7个蜘蛛陷阱

2019-12-14 07:45:17 来源:E819   浏览(54)   评论 ( 0 )   

在SEO工作中,网页被收录是基础工作,但对于搜索引擎来讲,极少情况会100%收录你网站的所有网页,搜索引擎的爬虫程序设计的再精巧,也难以逾越所谓的蜘蛛陷阱(蜘蛛陷进)。

蜘蛛陷阱是组织蜘蛛程序爬行网站的障碍物,通常是那些显示网页的技术方法,目前很多浏览器在设计的时候考虑过这些因素,所以可能网页界面看起来非常正常,但这些蜘蛛陷阱会对蜘蛛程序赞成障碍,如果消除这些蜘蛛陷阱,可以是蜘蛛程序收录更多的网页。

很对蜘蛛陷阱都是先进的技术方法,开发成本相对也较大,但是这些的确会影响搜索引擎对你网站的了解,甚至还可能被整个网站都不被搜索引擎收录,那么,当务之急,是消除这些蜘蛛陷阱,让搜索引擎收录你的更多网页,这才将有利于你的SEM营销计划的开展。
一、注意robots文件正确书写

robots.txt 文件看似一个简单的文本文件,放在网站的根目录下面,但它可以告诉搜索引擎的蜘蛛程序在服务器上的那些文件是可以被查看的,那些文件是私人文件将不被查看。

1、User agent(用户代理):User agent 定义了下面的禁止命令使用于那个蜘蛛程序,如果对 User agent 定义为星号(*),则表示针对所有的蜘蛛程序。
2、Disallow(禁止):禁止指明了具体那个文件蜘蛛程序不能查看,可以指定精确的文件名或者任意文件,甚至是目录名的一部分。
意外的失误对网站带来的影响很普遍,在网站上线之前可能会对整个网站暂时屏蔽,但上线以后往往忙于其他事情而忘记该文件的更正,导致网站不能正常被搜索引擎收录。

除了robots.txt文件外,还应该注意元标记也可能会导致同样的问题,但这类情况往往很少。
二、消除弹窗

虽然弹窗(弹出窗口)很吸引眼球,但大多数用户都不喜欢它,因为这些“小广告”是强制展示给用户的,可能用户正在认真浏览他感兴趣的信息,这时候弹到用户面前,感受可想而知。

如果使用弹窗来显示一些补充和重要内容,最好在网站地图或者其他正常网页上给这些页面做上链接,不然可能或导致这些页面的无法正常收录。
三、避免使用JS下拉菜单

蜘蛛程序对JS的理解还不深入,一些在JS存在的链接可能无法被蜘蛛程序捕捉到,而往往菜单中的链接又是很重要的,所以使用JS下拉菜单的网页最好使用html重新这些链接。

除了用html代码,还可以使用来使这些重要链接被正常捕捉,因为一些旧的浏览器不支持 JavaScript,或者一些用户禁用了浏览器的这些功能,这样会导致不能执行网页上的JavaScript代码,如果下拉菜单需要 JavaScript,那么,在不支持或者禁用了的浏览中,下拉菜单将不会被正常显示。

在使用标签的时候,注意标签中的html代码中的每个链接最好使用绝对地址。另外在网页地图中也加上这些网页的链接,可以更好的保证蜘蛛程序发现他们。
四、简化动态网址

动态网址是指html代码没有永久性的储存在网站服务器文件中的网页,用户看见的页面是网站程序实时创建了html。

由于动态网址中可能包含多个参数(比如“&”),这些参数给蜘蛛程序造成了障碍,因为任何值都能够传给变量,蜘蛛无法知道对于同一个网页到底能够显示多少个不同版本,有时候传递个每个参数的不同值表明了这些网页之间的差别,但这些值与显示的网页没有任何联系。有时候被用来记录用户行为的跟踪代码,这样的网页如果被蜘蛛程序捕捉到,那么,一个蜘蛛程序可能会看同一个网页很多遍,这样大大浪费了蜘蛛程序的时间(利用这些时间可能会查看更多有用的网页),而且会导致大量重复的网站被收录。

随着动态网址越来越多,搜索引擎也对蜘蛛程序进行了升级,目前对于动态网址,蜘蛛程序可能做到:

    URL中含有两个以下的动态参数:如果是这样,你可以使用 URL重写(rewrite),也就是经常说的伪静态技术来解决问题;
    URL少于1000个字母:越短的越容易读,越越容易记忆和理解;
    URL中不包含区段标记符:比如“id=”或者“session=”,这些通常是用来记录用户行为时候用到的区段标志符,可以使用URL重写技术来让这些URL变得更有意义一些;
    从列表或者网站地图链接过来的所有有效URL:一些动态URL可以使用很多参数,蜘蛛程序不可能知道网站上有效网页对应的所有参数,所以需要确保给一些动态网址留有蜘蛛通道。

五、消除页面显示的依赖条件

某些网站的开发考虑了一些重要因素,可能需要用户开启浏览器的某项功能或者采取某些行为才能正常执行,这些对于网页的用户体验损害很大,常见的有:

1、需要 cookie:cookie是储存在用户计算机中的信息,网页可以使用这些数据来了解用户信息,但是蜘蛛程序不能接受cookie,如果你的网页必须依赖cookie,建议取消这些功能或使用其他技术来实现搜索引擎与用户看见相同的网页。

2、需要下载软件:蜘蛛程序只能读懂文本文件,例如html和pdf文件,因为这些文件中含有可供搜索的文字信息,因此当他们遇到需要软件下载的时候,可能就是绕过去了。所以尽量避免这样的事情发生,尤其是在网站首页。

3、要求提供信息:很多网站设计人员要求用户输入某些信息或者回答一些问题才允许浏览网页,如果你的网页需要用户操作而不是点击一个标准的超文本链接,蜘蛛程序可能会无法理解而转走。

4、需要JavaScript:蜘蛛程序不能执行JavaScript,而且一些用户可能会由于考虑到安全原因将浏览器的JavaScript关闭,如果你的网页在允许显示之间先要测试JavaScript,那么,他就不能向蜘蛛程序显示,而上面的链接也不能让蜘蛛程序抓取。
六、妥善处理重定向

重定向允许旧的URL被重新指向到目前的URL上,往往发生在URL临时或永久性改变的时候用到,我们在SEO中有时候为了规范URL或确定首选域的时候也会用到重定向,但可能会用有些原因会让用户依然使用旧的URL:

1、书签:如果用户给旧的URL加了书签,那么,这些书签会在改变之后,首次访问出现404错误;

2、链接:互联网上的其他链接可能或链接在旧的URL,所有这些链接在改变URL又没有使用重定向的时候就成为了死链接;

3、搜索结果:在改变URL之前,你的旧URL可能被搜索引擎收录而且出现在某些词的搜索结果中,由于没有使用重定向,用户点击这些旧的URL,也可能会出现404错误。

对于蜘蛛程序来讲,重定向的结果最好是返回301状态码,也就是我们经常说的301重定向,那么,这样可以使蜘蛛程序:

    爬过新的URL的网页:蜘蛛程序遇到301状态码,会爬虫所提供的新的URL去爬虫新的网页,并索引上面的内容;
    将旧网页上的所有链接权重值进行传递:当蜘蛛程序遇见301代码的时候,它会更新索引库中的所有链接信息,因此旧的URL下网页的所有链接权重值都会被转移到新的URL下面。
七、确保网站服务器相应

这样的问题看起来发生才可能性很小,但存在这样问题的网站还是很多,当蜘蛛程序访问网站的时候,网站服务器必须处于正常的运行状态。否则可能会因为蜘蛛程序多次访问不成功,误认为你的网站已经不存在而将搜索引擎中的网页删除。

另外一个因素是访问速度过于缓慢,很对时候网站服务器在技术重启的时候会变得很慢,导致蜘蛛程序很快放弃网站,很少有蜘蛛程序会等待一个网页加载10秒以上,而且缓慢的加载速度同样会影响对你网站感兴趣的忠实用户,为了让蜘蛛和用户更加喜欢你的网站,迅捷的响应速度是非常有必要的。凡科建站模板http://www.faisco.com/model.html
声明:转载请注明来源(E819)并保留原文链接:http://www.e819.com/semjq-10779.html
评论0

后面还有条评论,点击查看>>