Google搜索

目录·搜索引擎
·各种版本



Google是由Google公司推出的一个互联网搜索引擎,它是互联网上最大、影响最广泛的搜索引擎的首位。

Google每日透过不同的服务,处理来自世界各地超过2亿次的查询。

除了搜索网页外,Google亦提供搜索图像、新闻组、新闻网页、影片的服务。2005年6月,Google已储存超过80亿的网页,1亿3千万张图片,以及超过1亿的新闻组讯息 - 总计大概10亿4千万个项目。它也缓存了编入索引中的绝大多数网页的内容。

因为Google的名声,“Google”一个事物做动词表示的是“在Google上寻找某事”。它还有广义的“搜索网路”的意思。Google官方并不鼓励这种滥用他们公司名字的习惯,因为它可能会导致Google变成一个通用商标名。

搜索引擎


物理构造

Google于全球数个地方,雇用服务器中心来存放较低成本的普通电脑,运行Red Hat Linux操作系统来回应搜索要求和索引网页。这个于服务器中心建立的“服务器园地”以Shared nothing architecture(分布式数据库结构) 建造。索引是由程序Googlebot执行,它会定期地请求访问已知的索引建立新页面。页面更新愈快,Googlebot访问亦会愈多。再通过在这些已索引网页上的连结来发现新页面,并加入到数据库。索引数据库和网页缓存大小是以兆字节(terabyte)来衡量的。Google发展了一套档案系统名为Google 档案系统 ,储存这些资料。

Google使用的这些机器的精确大小和位于何处至今未知;Google官方刻意含糊其词。在John Hennessy和David A. Patterson所著的《计算机结构:走进大数》中,推测Google的服务器场中群集计算机群形成的“搜寻场”在2000年大约应该有6000个处理器,12000个普通IDE硬盘(即每个机器2个硬盘1个处理器),他们位于四个地方:二个在 硅谷和二个在 维吉尼亚。每个都以OC 48的线路(2488 Mbit/s,参见带宽)连接着因特网并且有一个OC 12(622 Mbit/s)线路连接着其他3个Google分站点。这些连接使用思科12000路由器(Gateway),用二个Foundry Networks BigIron 8000的以太网交换器分流成4 x 1 Gbit/s的线路连接到64个服务器夹,里面前后各是40台电脑和1台惠普以太网交换机,所以一个架子共有80个机器和2个惠普交换机。

Google在2004年4月发布的IPO S-1表单后,大财政公司的英特网开发单位副总裁Tristan Louis估计了现在的服务器场包含下列各项:

719个服务器架
63,272台机器
126,544个处理器
253,088 GHz的处理能力
126,544 GB内存
5,062 TB的硬盘空间

依照这一估计,Google服务器场组成了全球最强大的超级计算机,每秒运行速度至少三倍于地球模拟器。

PageRank

Google使用一种名为PageRank的算法,配合搜索字串来排名网页,PageRank是以公司创办人拉里·佩奇命名。

PageRank算法根据加权系数,推断该其他连结到网页的价值来处理。PageRank如此取得由人所建立的连结,与及与人关联的重要性。先前的排名搜索方法,采用了许多搜索器,以搜索的关键词和何时搜索来排名页面,或有多相关地关联该搜索。 另外,Google亦采用其他秘密准则,决定排名网页的结果。

Google不止索引和缓冲HTML档案,亦索引13种其他档案类型,例如PDF、Word文件、Excel试算表,以及纯文字档案。除了文本文件,其他文件的是先转换为HTML版本后缓存的。 所以借助Google可以不需要有这些文件的相应程序就可以看见这些非网页文件,如Word或是Excel。

Google创新的搜索技术和典雅的用户界面设计使Google从第一代搜索引擎中脱颖而出。Google并非只使用关键词或代理搜索技术,它将自身建立在高级 PageRank? (网页级别)技术基础之上。这项专利技术可确保始终将最重要的搜索结果首先呈现给用户。网页级别可对网页的重要性进行客观的分析。用于计算网页级别的公式包含5亿个变量和20多亿个项。网页级别利用巨大的网络链接结构对网页进行组织整理。当从网页A链接到网页B时,Google就认为“网页A投了网页B一票”。Google还对投票的网页进行分析。Google复杂的自动搜索方法和结构设计被认为可以避免任何人为感情因素提供公正的搜索结果。随着搜索引擎优化(SEO)和各种针对PageRank的交换链接的行为的流行,Google的PageRank?及公正性也越来越受到人们的质疑。

使用者能自定义搜寻引擎。他们能设定一个缺省语言或使用 "SafeSearch" 过滤技术,设定在每页上被显示的结果多少。Google受争议的放置永久cookie在用户的机器上以储存这些信息,这使他们能够了解过去用户的搜索内容。任何一次搜索请求(只有头10个关键字被查询),每次最多查询头1000个结果(以每一页最多100个结果的方式显示)。

尽管它有极大的索引数目,仍然有相当多数量的数据库的数据只能是从网站访问到,而不是借由连接。这所谓的深网暂时不能被Google数据库所覆盖,举例来说包含了图书馆的目录,官方的法定(政府)公文,电话簿等。
(关于 PageRank? 的介绍,参见Google的 Why Use Google 页)

Google跳舞

Google跳舞是一种经常被讨论的现象,Google跳舞指的是Google月底大量更新数据库和算法的几天时间,因为可以发现,这几天对Google搜索关键字如www.yahoo.com得到的结果数是不一样的.

在跳舞期间,一个站点的等级可能在短时间里戏剧般的改变,而且不同的Google服务器可能为相同的关键字提供不同的结果。跳舞似乎当是googlebot机器人抓取网页期间随即发生的。快速更新的网站,高级别的网页和新闻网站是最经常被检查的,虽然新闻不一定如此。小的调节在每月里持续进行以确定网页级别。在一些情况下,可能需要二到三个月让新建页面出现在搜索结果里。 从2003年的夏季开始,每月的搜索,索引和等级更新被不间断的持续更新所取代。这种改变大大减少了Google搜索结果的不稳定性。2003年11月15日,Google似乎进行了有史以来最重要的一次算法升级,后来被称为“佛罗里达更新”。在这次更新中,几乎所有商业领域的关键词都受到了影响,尤其是一些热门的关键词,Google搜索的结果页完全变了个样儿,很多头一天还排在首位的网站被远远甩到了500名之后。

Google目前的主要挑战之一是,它的算法和结果越是得到网路使用者的信赖,商业网站为了利益而暗中破坏结果的风险就越戏剧般的增加。一些搜索引擎优化公司已经开始尝试使用各种不同的技巧提升Google网页评级,以使他们客户的网站更多的被搜索到。Google已经设法减少了一些已知的使用这种方法的网站的Google页面评级。

由于Google实际上已经成为最流行的搜索引擎之一,很多网站管理员十分热衷于跟踪他们网站在Google上的左侧排名,并试图解释他们排名变化的原因。现在已有不少网站提供排名Google搜索引擎优化(Search Engine Optimization,SEO)服务,如在一些高流量的讨论区内刻意加入商业网站的链接,从而使该网站在Google的排名提高。这种“发明”虽然的确有一定成效,但这种收取客户金钱,在第三者的讨论区上大卖广告,一方面对讨论区的读者造成困扰,也侵害了讨论区的商业利益;这种做法也明显违反了商业道德。

还有一种被普遍采用的技术是很多网站使用一个相同的关键字连接到某一个特定的网站,以使用户在Google搜索这个关键字的时候,这个网站的排名会出现在结果的较前面。这种方法被称为Google炸弹。现在Google算法更新的频率非常快,据猜测,现在算法公式中涉及的变量有300多个,PageRank?在整个Google算法中的影响力已经下降到20%左右,最终平衡的算法中最重要的变量所占的比例不会超过10%,单纯靠技术手段提升排名的网站已经禁不住时间的考验。

Google发布了一系列的文章以指导站长们提升他们网站的页面评级。


各种版本


中文版
搜索中文页在各种版本中有不同效果

外语版
因各地而异,大部分与COM相同


贡献者:
VOIP之子kedeng
Copyright © 1999-2024 C114 All Rights Reserved | 联系我们 | 沪ICP备12002291号-4