8月5日,百度公司在美国纳斯达克上市,其表现引起全球关注。该公司的发行价为27美元,其时的P/E即已超过去年8月在纳斯达克上市的Google,而Google是全球排名第一的搜索引擎。去年的Google以发行价85美元上市后,股价上冲到300美元以上,市值达到800亿美元。百度上市当日,开盘价即达到66美元,最高股价达到151美元,最后收盘于122美元。其当日股价上升幅度超过Google一年的“努力”。
百度总裁李彦宏在回答本报记者“为什么百度会受到追捧,获得成功”的提问时说:“这是因为百度一直非常专注(于搜索引擎)。”
为什么连续两年全球资本均看好搜索引擎公司——家为全球最大的搜索引擎公司,一家为全球最大的中文搜索引擎公司?
为什么搜索引擎具有如此大的“杀伤力”,会成为继互联网第一波的门户网站,以及第二波的网络游戏、短信、电子邮件之后,成为互联网第三波的新主?
人们进一步的问题是:搜索引擎公司到底是什么样的公司,搜索引擎的员工在做什么?搜索引擎公司的盈利模式是什么,它们的盈利空间究竟有多大?新的搜索引擎公司能像百度、Google一样成功吗?搜索引擎公司相互之间如何竞争?搜索引擎现在发展到了一个什么样的阶段,明天搜索引擎有什么用处……
搜索引擎应信息时代而生
搜索是如此简单。
打开Google或百度主页,键入想要搜索的任何一个词语,不到10秒的时间里,浏览器页面里就哗啦啦给你吐出一大堆搜索结果。“百度一下”某个关键词,一个“搜索”的操作,简单到用户认为这是互联网天生就应该具备的功能。
但是,搜索引擎的背后——支撑这一“简单”的背后,是非常复杂的搜索技术。
众所周知,我们生活在信息大爆炸时代,每天的信息量太大了,足以将所有人湮没。在如此庞杂的新鲜信息与存量信息面前,人们如何找到斯时有用或急需的信息,那,请搜索吧。搜索引擎如此应运而生。
那么,什么是搜索引擎?曾有人形象地比喻说:“搜索引擎就像一个巨大的吸尘器,能将互联网海洋的任何东西都吸上来,不管它在多深的海底。”这句解释尽管并不准确,但比较形象,我们来看看真实的搜索引擎工作是怎样一个流程吧。
蜘蛛程序
实际上,搜索引擎捕捉网页并不是“吸”,而是“抓”——抓取。还是继续以海洋作为互联网的形象代表吧。这个海洋,是以不计其数的网页组成的,而网页间,靠一个个链接相连,形成一个宽广无垠的互联“网”。
搜索引擎“抓取”网页的工具,人们叫它蜘蛛程序(SpiderPro-gram),它沿着网页的链接,从一个网页爬到另一个网页,并有选择地将一个个网页抓取回来。
我们知道,每一个互联网页面,都是用html语言写成的。“蜘蛛程序”访问的并不是我们日常看到的页面,而是后台的html源码,如果“蜘蛛”认为这个页面有用,它就会将关于这个页面的html源码复制下来,发送回搜索引擎的服务器进行存储,然后继续它的旅程,去访问下一个页面。
从理论上来说,从一个页面出发,根据该页面的链接信息,这个蜘蛛可以访遍互联网上所有的网页——就好像你认识一个人,你可以根据这个人认识的人,和这个人认识的人所认识的人,一直和这个世界上所有的人建立某种关系。“蜘蛛程序”的工作原理也是这样的。
不同的搜索引擎,它们所拥有的“蜘蛛程序”不一样,蜘蛛的能力大小也不一样。比如,每天能抓到网页的数量是一个指标,避免抓重复网页的能力是一个指标,如何抓到最新网页的能力也是一个指标。因此,“蜘蛛”能力的大小,首先就会导致不同搜索引擎之间的差异。
·雅虎阿里巴巴结合搜索引擎市场竞争提前引爆
·全面阐述搜索引擎技术、应用及商业模式
·默多克欲与雅虎争高下 将巨资收购搜索引擎