动态 / dynamic

了解国风最新市场动态

技术对收录的影响

行业新闻 TIME:2013-08-13
2597 2
 

  爬虫抓取网页过程中是可以看到网页url、HTML代码和head信息。

a)、URL规范化

1、静态化  唯一化

    http://www.xxxxxe.com/?p=9

    http://www.xxxxxxe.com/archives/9.html

2、url中带关键词:英文/拼音

 

2、url中带关键词:英文/拼音

    在排名上有一定的优势

    http://www.nmgf.net/

b)、W3C标准

    HTML代码要符合标准。

    结构层、表现层、行为层标签完整性。用开源程序就可以了。

c)、head信息正确性(服务器)

    抓包工具httpwatch(安装、下载、使用)

Accept          */*

指示能够接受的返回数据的范围, */*表示所有

Accept-Language         zh-cn

表示能够接受的返回数据的语言

Accept-Encoding          gzip, deflate

Accept-Encoding表明了浏览器可接受的除了纯文本之外的内容编码的类型,比如gzip压缩还是deflate压缩内容。

Last-Modified       Fri, 04 Jan 2008 01:01:00 GMT

指定被请求资源上次被修改的日期和时间节省带宽,减少重复抓取

Server              Apache

一种标明Web服务器软件及其版本号的头标

content-length    内容长度   通过文字长度判断是否更新过,但是不准,如果文字一样,就无法判断了。

 

联系电话:0471- 6934705/6934710/6934715

网  址:www.2400.cn www.nmgf.net 企业邮箱:kefu@nmgf.net

地  址:呼市中山东路6号金天帝广场6-9层(波士名人国际、新世纪广场旁) 

Copyright © 2003-2021 www.nmgf.net All Rights Reserved. 蒙ICP备05001757号  蒙公网安备 15010202150104号  设为首页 加入收藏 投诉电话:15848128138 18604718919

内蒙古网站建设 呼和浩特网络公司 微信小程序开发 微网站 软件开发 网站建设 内蒙古手机网站 呼和浩特网站建设 内蒙古网络公司 呼和浩特网站制作 呼和浩特网站设计 呼和浩特网页设计 呼和浩特网页制作 呼和浩特做网站 呼市考试系统 内蒙古考试系统 呼和浩特系统开发 

快捷导航
点击联系我们

Copyright © 2003-2021 国风网络

蒙公网安备 15010202150104号

蒙ICP备05001757号