动态 / dynamic

了解国风最新市场动态

内蒙古网站建设|搜索索引库不都是HTML编码

行业新闻 TIME:2013-07-11
2087 2

内蒙古网站建设http://www.nmgf.net/

现在该介绍搜索引擎对这些网页做什么处理了。首先,你将发现搜索索引库中的文件不都是HTML编码的网页。

 

迄今为止,我们假设所有的网页都是由HTML编码写成的,其实并不都是这样。现代搜索引擎可以分析Adobe Acrobat (PDF)文件和许多其他种类的文件。尤其可信内容源程序往往需要用它们白己的格式。当搜索引擎扫过一个非HTML的文件,它们将这些文件转换到一个标准的格式,也就是它们储存所有其他文件使用的那种格式。为方便起见,我们在接下来考察文本分析过程时,会当作所有的文件都是HTML格式的,但是你已经知道实际上的情况要复杂得多。

 

确定哪些词是重要的

如果你浏览一般的网页,看到的不仅仅是屏幕上显示的文本。如果你查看HTML源代码,会发现实际上你在页面看到的大多数只是标记,或是HTMI标签。既然在搜索的时候,你并不想找到这些标签的名字,你也许认为搜索引擎会把它们扔掉,但其实不然。搜索引擎使用标记来帮助分析文本。

 

当你用浏览器查看屏幕上的网页时,会看到有些词比其他的更醒目。有些词使用粗体或者标以颜色,另外一些被设定成大号字体,还有一些像标题一样被分隔开。而且,因为大多数的网页是按照“报纸风格”书写,最重要的信息往往靠近页首。搜索引擎知道那些被强调的词和靠近页面顶端的词,比同一页面中其他的词更重要。这是建立搜索索引库过程中的一个步骤,在这里搜索引擎决定放在哪个位置的词会比其他的词更重要。

 

有一些最重要的标签是你通常看不到的。因为搜索引擎查看实际的HTML代码,它们可以获悉网页的一些信息,而这些信息除非你自己查看HTML源代码,否则永远不会注意。这些含有网页信息的标签通常被称为meta标签。

 

最重要的meta标签是标题标签(title tag),但是标题标签的作用可能并不是你所认为的那样。在网页顶端的词——你的眼睛告诉你组成了标题的那些词——很有可能是由一个段落标题标签或者一个图片做成的。真正的HTML标题标签显示在浏览器窗口的标题栏,(当你为网页做书签或存入收藏夹时,由标题标签形成的词也会作为网页的名字出现。)

 

联系电话:0471- 6934705/6934710/6934715

网  址:www.2400.cn www.nmgf.net 企业邮箱:kefu@nmgf.net

地  址:呼市中山东路6号金天帝广场6-9层(波士名人国际、新世纪广场旁) 

Copyright © 2003-2021 www.nmgf.net All Rights Reserved. 蒙ICP备05001757号  蒙公网安备 15010202150104号  设为首页 加入收藏 投诉电话:15848128138 18604718919

内蒙古网站建设 呼和浩特网络公司 微信小程序开发 微网站 软件开发 网站建设 内蒙古手机网站 呼和浩特网站建设 内蒙古网络公司 呼和浩特网站制作 呼和浩特网站设计 呼和浩特网页设计 呼和浩特网页制作 呼和浩特做网站 呼市考试系统 内蒙古考试系统 呼和浩特系统开发 

快捷导航
点击联系我们

Copyright © 2003-2021 国风网络

蒙公网安备 15010202150104号

蒙ICP备05001757号