搜索引擎

编辑
本词条由“匿名用户” 建档。

搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上信息,在对信息进行组织和处理后,是为用户提供检索服务的系统。一个搜索引擎由搜索器、索引器、检索器和用户接口四个部分组成。搜索器的功能是在互联网中漫游,发现和搜集信息。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。检索器的功能是根据用户的查询在索引库中快速检出文档,...

搜索引擎定义

编辑

索引擎 (search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上信息,在对信息进行组织和处理后,是为用户提供检索服务系统。一个搜索引擎由搜索器、索引器 、检索器和用户接口 四个部分组成。搜索器的功能是在互联网 中漫游,发现和搜集信息。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档 以及生成文档库的索引表。检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。如果想要搜索引擎为我们服务那就必须要学习SEO,用SEO的技术来优化网站,可以让你的网站排名百度首页,从而获得更多的流量。那么该如何学习SEO呢,你可以来这个群,群号前面是235中间是142后面是871,组合起来就可以看到我们的群了,群里有SEO的大神解答,每天还有SEO的公开课,能帮助你更好的学习,不是真心想要学习的就不要加了。

发展史

编辑

互联网发展早期,以雅虎为代表的网站分类目录查询非常流行。网站分类目录由人工整理维护,精选互联网上的优秀网站,并简要描述,分类放置到不同目录下。用户查询时,通过一层层的点击来查找自己想找的网站。也有人把这种基于目录的检索服务网站称为搜索引擎,但从严格意义上讲,它并不是搜索引擎。
1990年,加拿大麦吉尔大学计算机学院的师生开发出Archie。

当时,万维网还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分别在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索,Archie告诉用户哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页HTML文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。

搜索引擎

起源

所有搜索引擎的祖先,是1990年由Montreal的McGill University三名学生(Alan Emtage、Peter Deutsch、Bill Wheelan)发明的Archie(Archie FAQ)。Alan Emtage等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。搜索引擎是SEO中一小部分知识想更深入了解SEO,可以加群:前面叁叁仈,中间六贰柒后面七伍肆,Archie是xxx个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载该文件。 由于Archie深受欢迎,受其启发,Nevada System Computing Services大学于1993年开发了一个Gopher(Gopher FAQ)搜索工具Veronica(Veronica FAQ)。Jughead是后来另一个Gopher搜索工具。

发展(1)

世界上xxx个Spider程序,是MIT Matthew Gray的World wide Web Wanderer,用于追踪互联网发展规模。刚开始它只用来统计互联网上的服务器数量,后来则发展为也能够捕获网址(URL)。
搜索引擎一般由以下三部分组成:
爬行器(机器人、蜘蛛)
索引生成器
查询检索器

发展(2)

Excite 的历史可以上溯到1993年2月,6个Stanford University(斯坦福大学)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。到1993年中,这已是一个完全投资项目,他们还发布了一个供webmasters在自己网站上使用的搜索软件版本,后来被叫做Excite for Web Servers。
注:Excite后来曾以概念搜索闻名,2002年5月,被Infospace收购的Excite停止自己的搜索引擎,改元搜索引擎 Dogpile

发展(3)

1994年4月,斯坦福大学的两名博士生,美籍华人杨致远和David Filo共同创办了Yahoo!。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。因为Yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。Yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。
注:Yahoo以后陆续有 Altavista、Inktomi、Google提供搜索引擎服务
Yahoo!--几乎成为20世纪90年代因特网的代名词。

发展(4)

1995年,一种新的搜索引擎形式出现了——元搜索引擎(Meta Search Engine)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。
xxx个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜索引擎概念上好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。

发展(5)

智能检索的产生:它利用分词词典、同义词典,同音词典改善检索效果,进一步还可在知识层面或者说概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典检索处理形成一个知识体系概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。

发展(6)

个性化趋势是搜索引擎的一个未来发展的重要特征和必然趋势之一。一种方式通过搜索引擎的社区化产品(即对注册用户提供服务)的方式来组织个人信息,然后在搜索引擎基础信息库的检索中引入个人因素进行分析,获得针对个人不同的搜索结果。自2004年10月yahoo推出myweb测试版,到11月a9推出个性化功能,到2005年Googlesearchhistory基本上都沿着一条路子走,分析特定用户的搜索需求限定的范围,然后按照用户需求范围扩展到互联网上其他的同类网站给出最相关的结果。另外一种是针对大众化的,Google个性化搜索引擎,或者yahooMindSet,或者我们都知道的前台聚类的vivisimo。但是无论其中的哪一种实现方式,即Google的主动选择搜索范围,还是yahoo(http://blog.sina.com.cn/u/2941211752),vivisimo的在结果中重新组织自己需要的信息,都是一种实验或者创想,短期内无法成为主流的搜索引擎应用产品。

发展(7)

网格技术(great global grid):由于没有统一的信息组织标准对网络信息资源进行加工处理,难以对无序的网络信息资源进行检索、交接和共享乃至深层次的开发利用,形成信息孤岛。网格技术就是要消除信息孤岛实现互联网上所有资源的全面连通。

美国全球信息网格
Robot(机器人)一词对编程者有特殊的意义。Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程序像蜘蛛(spider)一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为spider程序。

1993年Matthew Gray开发了 World Wide Web Wanderer,这是xxx个利用HTML网页之间的链接关系来检测万维网规模的“机器人(Robot)”程序。开始,它仅仅用来统计互联网上的服务器数量,后来也能够捕获网址(URL)。

1994年初,华盛顿大学(University of Washington )的学生Brian Pinkerton开始了他的小项目WebCrawler。1994年4月20日,WebCrawler正式亮相时仅包含来自6000个服务器的内容。WebCrawler是互联网上xxx个支持搜索文件全部文字全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程序自动取正文的前100个字。

1994年7月,卡内基·梅隆大学(Carnegie Mellon University) 的Michael Mauldin将John Leavitt的spider程序接入到其索引程序中,创建了Lycos。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycosxxx个在搜索结果中使用了网页自动摘要,而xxx的优势还是它远胜过其它搜索引擎的数据量。

1994年底,Infoseek正式亮相。其友善的界面,大量的附加功能,使之和Lycos一样成为搜索引擎的重要代表。

1995年,一种新的搜索引擎形式出现了——元搜索引擎(A Meta Search Engine Roundup)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理,提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。xxx个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。

1995年12月,DEC的正式发布AltaVista。AltaVista是xxx个支持自然语言搜索的搜索引擎,xxx个实现高级搜索语法的搜索引擎(如AND、 OR、 NOT等)。用户可以用AltaVista搜索新闻组(Newsgroups)的内容并从互联网上获得文章,还可以搜索图片名称中的文字、搜索Titles、搜索Java applets、搜索ActiveX objects。AltaVista也声称是xxx个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。AltaVista最有趣的新功能之一,是搜索有链接指向某个URL的所有网站。在面向用户的界面上,AltaVista也作了大量革新。它在搜索框区域下放了“tips”以帮助用户更好的表达搜索式,这些小tip经常更新,这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的的有趣功能。这系列功能,逐渐被其它搜索引擎广泛采用。1997年,AltaVista发布了一个图形演示系统LiveTopics,帮助用户从成千上万的搜索结果中找到想要的。

1995年9月26日,加州伯克利分校助教Eric Brewer、博士生Paul Gauthier创立了Inktomi,1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前。声称每天能抓取索引1千万页以上,所以有远超过其它搜索引擎的新内容。HotBot也大量运用cookie储存用户的个人搜索喜好设置。

1997年8月,Northernlight搜索引擎正式现身。它曾是拥有最大数据库的搜索引擎之一,它没有Stop Words,它有出色的Current News、7100多出版物组成的Special Collection、良好的高级搜索语法,xxx个支持对搜索结果进行简单的自动分类。

1998年10月之前,Google只是斯坦福大学(Stanford University)的一个小项目BackRub。1995年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了google.com的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日认作自己的生日。Google以网页级别(Pagerank)为基础,判断网页的重要性,使得搜索结果的相关性xxx增强。Google公司的奇客(Geek)文化氛围、不作恶(Don’t be evil)的理念,为Google赢得了极高的口碑品牌美誉。2006年4月,Google宣布其中文名称“谷歌”,这是Googlexxx个在非英语国家起的名字。

Fast(Alltheweb)公司创立于1997年,是挪威科技大学(NTNU)学术研究的副产品。1999年5月,发布了自己的搜索引擎AllTheWeb。Fast创立的目标是做世界上最大和最快的搜索引擎,几年来庶几近之。Fast(Alltheweb)的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。(2003年2月25日,Fast的互联网搜索部门被Overture收购)。

1996年8月,sohu公司成立,制作中文网站分类目录,曾有“出门找地图,上网找搜狐”的美誉。随着互联网网站的急剧增加,这种人工编辑的分类目录已经不适应。sohu于2004年8月独立域名的搜索网站“搜狗”,自称“第三代搜索引擎”。

Openfind 创立于1998年1月,其技术源自中国台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。2002年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累计抓取网页35亿,开始进入英文搜索领域。

2000年1月,两位北大校友,超链分析专利发明人、前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司。2001年8月发布Baidu.com搜索引擎Beta版(此前Baidu只为其它门户网站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。Baidu搜索引擎的其它特色包括:百度快照、网页预览/预览全部网页、相关搜索词、错别字纠正提示、mp3搜索、Flash搜索。2002年3月闪电计划(Blitzen Project)开始后,技术升级明显加快。后推出贴吧、知道、地图、国学、百科、文档、视频、博客等一系列产品,深受网民欢迎。2005年8月5日在纳斯达克上市,发行价为USD 27.00,代号为BIDU。开盘价USD 66.00,以USD 122.54收盘,涨幅353.85%,创下了5年以来美国股市上市新股当日涨幅最高纪录。

2003年12月23日,原慧聪搜索正式独立运做,成立了中国搜索。2004年2月,中国搜索发布桌面搜索引擎网络猪1.0,2006年3月中搜将网络猪更名为IG(Internet Gateway)。

2004年8月3日,搜狐公司推出搜狗,目的是增强搜狐网的搜索技能,主要经营搜狐公司的搜索业务。在搜索业务的同时,也推出搜狗输入法、免费邮箱、企业邮箱等业务。2010年8月9日搜狐与阿里巴巴宣布将分拆搜狗成立独立公司,引入战略投资,注资后的搜狗有望成为仅次于百度的中文搜索工具。

2005年6月,新浪正式推出自主研发的搜索引擎“爱问”。2007年起,新浪爱问使用google搜索引擎。

2005年,拥有中国xxxIM用户群资源优势的腾讯自然不愿意放弃搜索业务。腾讯董事长马化腾曾多次在公开场合阐述其发展战略:为用户量身打造满足各层次需求的在线生活模式,而SOSO网上线正是“在线生活模式”的具体体现。05年12月,腾讯搜索获得的www.soso.com域名就已可打开,但当时只是跳转so.qq.com,此次SOSO网正式成立。

2007年7月1日 全面采用网易自主研发的有道搜索技术,并且合并了原来的综合搜索和网页搜索。有道网页搜索、图片搜索和博客搜索为网易搜索提供服务。其中网页搜索使用了其自主研发的自然语言处理、分布式存储及计算技术;图片搜索xxx根据拍摄相机品牌、型号,甚至季节等高级搜索功能;博客搜索相比同类产品具有抓取全面、更新及时的优势,提供“文章预览”,“博客档案”等创新功能。[1]

2012年8月,奇虎360推出综合搜索业务。

搜索引擎分类

编辑

全文索引

全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。

根据搜索结果来源的不同,全文搜索引擎可分为两类,一类拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,能自建网页数据库,搜索结果直接从自身的数据库中调用,上面提到的Google和百度就属于此类;另一类则是租用其他搜索引擎的数据库,并按自定的格式排列搜索结果,如Lycos搜索引擎。

目录索引

目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中xxx代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索。

元搜索引擎

元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo。

其他非主流搜索引擎形式:
1、集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。
2、门户搜索引擎:AOL Search、MSN Search等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。
3、免费链接列表(Free For All Links简称FFA):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。

工作原理

编辑

xxx步:爬行

搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。比如:蜘蛛如果跟踪链接想去爬行一个站点的时候,先要通过robots文件说明,如果robots文件不允许蜘蛛爬行的话,蜘蛛是不能跟踪链接的。当然,蜘蛛也需要理解HTTP返回码、nofollow标签、mate标签等等,所以蜘蛛的爬行是在一定规律和要求下进行的。除了搜索引擎蜘蛛要遵循的一些规则外,还有一些搜索引擎蜘蛛无法做到的事情。比如:要求注册的站点,FLASH里的链接,图片里的链接等等。所以,我们了解搜索引擎蜘蛛爬行的时候,不能一味的认为搜索引擎蜘蛛无所不能。

第二步:抓取存储

搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户游览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面是,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不在爬行。这也就是为什么有一些采集站的数据量很大,但是收录量很低的原因。不过,大部分的去重工作,还是在预处理阶段进行。

第三步:预处理

搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。

1、提取文字
现在搜索引擎的排名,还是主要以文字内容为基础。蜘蛛抓取到数据库里的原始页面文件,需要进行文字提取,去除页面中的标签、JS程序、图片等无法用于排名的内容。当然,搜索引擎也会提取游览器中发现显示的标签文字、图片注释文字、FLASH注释文字和锚文本文字等。

2、中文分词
中文分词主要是针对中文搜索引擎的特有步骤,英文搜索引擎不存在这个步骤。由于中文字和词是连载一起的,搜索引擎要分辨哪些字组成的一个词,所以进行一种分词步骤。中文分词一般都是按照两种方法,一种是词典匹配;一种是基于统计分析。词典匹配比较容易理解,是根据以往词典中出现的词语匹配。而基于统计分析,主要是分析大量的文字样本,计算出字与字相邻出现的频率,来判断是不是一个词。在这里,我们就比较容易理解关键词里所说到的完全匹配,基本上是基于词典匹配,反之则是根据统计分析出来的词。

3、去停词
去停词主要是去除对内容无关紧要的一些助词(如中文的:的,地,哈。英文的the.a,an等),使索引数据主题更为突出,减少无谓的计算量。

4、消除噪音
消除噪音主要是去除一些对页面主题内容没什么贡献,并且大量重复出现的文字。比如,导航、页脚、和广告

5、去重
去重处理,其实就是搜索引擎判断是否原创的一种计算方式。一般情况,搜索引擎运用的方法是对页面特征关键词计算指纹,也就是说从页面主题内容中选取最有代表性的一部分关键词,然后计算这些关键词的数字指纹。实验证明,一般复制的内容即使增加了的、地、哈等文字或者把段落重新组合,都能被搜索引擎轻易判断出来。这些只能从推理上来理解,现阶段的搜索引擎还不能完全判断原创内容,因为还会涉及到页面被抓去的时间的先后,网站的信任度等很多方面的信息。

6、正向索引
正向索引主要是指搜索引擎在完成了以上5个步骤后,就得到了独特的、能反应页面内容的、以词为单位的内容。搜索引擎就可以分词程序划分好的词,把页面转化成关键词组成的集合。搜索引擎索引程序将页面及关键词形成词表的结构存储进索引库。实际上在搜索引擎索引库中,关键词也已经转换成为关键词的ID,这样的数据库结构就称为正向索引。

7、倒排索引
倒排索引是指搜索引擎将正向索引数据库重新构造为倒排索引,把文件对应到关键词的影视转换为关键词到文件的映射。在倒排索引中是以关键词为主,每个关键词对应着一系列文件,这些文件都出现了这个关键词。这样当用户搜索某个关键词的时候,排序程序在倒排索引中定位到这个关键词就可以马上找到所有包含这个关键词的文件。一般用户在搜索引擎中搜索关键词时,都是运用的倒排索引。

8、链接关系计算
链接关系是搜索引擎排名的重要依据。所以,搜索引擎对于大量网页的导入及导出链接、链接的权重、相关性等数据进行充分的计算,从而作为某个文件对应关键词的排序依据。

9、特殊文件处理
对于搜索引擎无法爬行和读取的flash、图片、js等文件,暂时无法作为搜索引擎的排名考量指标,仅能以特殊文件的代替文件作为xxx有价值的排序依据。
搜索引擎的预处理阶段也是在后台完成的,用户搜索时感觉不到这个过程。

第四步:排名

用户在搜索框输入关键词后,排名程序调用索引库数据,计算排名显示给用户,排名过程与用户直接互动的。但是,由于搜索引擎的数据量庞大,虽然能达到每日都有小的更新,但是一般情况搜索引擎的排名规则都是根据日、周、月阶段性不同幅度的更新。

全文搜索引擎

编辑

在搜索引擎分类部分我们提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。

另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前xxx的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。

当用户以关键词查找信息时,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。 这种引擎它的特点是搜全率比较高。

目录索引

编辑

与全文搜索引擎相比,目录索引有许多不同之处。

首先,搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。

其次,搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其象Yahoo这样的超级索引,登录更是困难。

此外,在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。

最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。

目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。

目前,搜索引擎与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而象 Yahoo!这些老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围(注)。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如国内搜狐、新浪、网易等;而另外一些则默认的是网页搜索,如Yahoo。这种引擎的特点是找的准确率比较高。

影响

编辑

搜索引擎给网吧行业带来的影响

百度联盟可以算是目前xxx一个能够覆盖所有网吧并和几乎所有主流网吧软件缔结合作关系的媒体运营平台。而google方面也不甘示弱,谷歌已经注意到了网吧市场,网吧已经成为了谷歌的新型合作伙伴。网吧的首页和工具条上都会出现谷歌的标志,相应地会给谷歌带去流量。谷歌对网吧市场的关注,表明谷歌注意到网吧作为中国互联网市场的特色之一。由于中国PC拥有量远落后于美国等西方国家,网吧作为网民主要上网地点的比例逐年在上升,中国网民在网吧上网的比例偏高。据CNNIC 第20次中国互联网络发展状况统计报告显示,超过1/3(37.2%)的网民表示经常去网吧上网,比2006年12月的32.3%高了5个百分点,xxx次超过网民在工作单位上网的比例而成为第二大上网场所。

搜索引擎对网站的影响

一个网站的命脉就是流量,而网站的流量可以分为两类。一类是自然流量,一类就是通过搜索引擎而来的流量。如果搜索引擎能够能多能有效的抓取网站内容,那么对于网站的好处是不言而喻的。所以,SEO也应运而生了。

在两大搜索引擎的工作中,百度的工作周期相对来说比google短一些,百度大约在10天左右重新访问网站一次,Google大约在15天左右重新访问一次网站。由于一天之内不能游历全球所有的网站,如果推广网站时,能到更多的网站上提交相应的网站信息,也是加快蜘蛛收录网站内容的重要环节。

作用

编辑

搜索引擎是网站建设中针对“用户使用网站的便利性”所提供的必要功能,同时也是“研究网站用户行为的一个有效工具”。高效的站内检索可以让用户快速准确地找到目标信息,从而更有效地促进产品/服务的销售,而且通过对网站访问者搜索行为的深度分析,对于进一步制定更为有效的网络营销策略具有重要价值。

1、从网络营销的环境看,搜索引擎营销的环境发展为网络营销的推动起到举足轻重的作用。

2、从效果营销看,很多公司之所以可以应用网络营销是利用了搜索引擎营销。

3、就完整型电子商务概念组成部分来看,网络营销是其中最重要的组成部分,是向终端客户传递信息的重要环节。

特点

编辑

1、搜索引擎营销与企业网站密不可分。一般说来,搜索引擎营销作为网站推广的常用方法,在没有建立网站的情况下很少被采用,搜索引擎营销需要以企业网站为基础,企业网站设计专业性对网络营销的效果又产生直接影响。

2、搜索引擎传递的信息只发挥向导作用。搜索引擎检索出来的是网页信息的索引,一般只是某个网站/网页的简要介绍,或者搜索引擎自动抓取的部分内容,而不是网页的全部内容,因此这些搜索结果只能发挥一个“引子”的作用。

3、搜索引擎营销是用户主导的网络营销方式。没有哪个企业或网站可以强迫或者诱导用户的信息检索行为,使用什么搜索引擎、通过搜索引擎检索什么信息完全是有用户自己决定的,在搜索结果中点击哪些网页也可取决于用户的判断。

4、搜索引擎营销可以实现较高度的定位。网络营销的主要特点之一就是可以对用户行为进行准确分析并实现高程度定位,搜索引擎营销在用户定位方面具有更好的功能,尤其是在搜索结果页面的关键词广告,完全可以实现与用户检索所使用的关键词高度相关,从而提高营销信息被关注的程度,最终达到增强网络营销效果的目的。

5、搜索引擎营销的效果表现为网站访问量的增加而不是直接营销。搜索引擎营销的使命就是获得访问量,因此作为网站推广的主要手段,至于访问量是否可以最终转化为收益,不是搜索引擎营销可以决定的。

6、搜索引擎营销需要适应网络服务环境的发展变化。搜索引擎营销是搜索引擎是搜索引擎服务在营销中的作业,因此在应用方式上依赖于搜索引擎的工作原理、提供的服务模式等,当搜索引擎检索方式和服务模式发生变化时,搜索引擎营销方法也应随之变化。

市场

编辑

2012年,我国搜索引擎行业市场规模达到280.7亿元,同比增长48.6%。其中,2012第四季度中国搜索引擎市场规模79.5亿元,环比增长2.5%,同比增长37.4%。自2012一季度以来,搜索引擎各季度增长率呈现持续缓慢下滑趋势,但四季度增幅仍高于中国网络广告市场整体33.9%的增速。

从全年来看,客户数量的拓展、流量变现能力的提升以及搜索引擎广告良好的投资回报率共同促进了搜索引擎市场的快速增长,推动了市场的健康发展。从季度层面而言,当前搜索市场仍面临与上一季度相同的问题。除宏观经济疲软影响外,360搜索流量尚未大量变现,还没有对搜索市场规模增长起到显著推动作用,同时移动流量的变现困局对搜索市场的成长性造成持续困扰,导致四季度中国搜索引擎企业收入规模增长相对减缓。

2012年,百度营收占搜索市场年度总营收的79.5%,继续占据行业xxx地位,优势明显。谷歌中国以15.8%的收入份额位居第二。搜狗占比3.0%,搜搜占比1.5%,分别位居第三、四位。

2012年,中国搜索引擎市场流量结构发生了较为显著的变化,但在市场营收份额结构层面上,变化尚未显现。从流量层面来看,奇虎360进入搜索市场之后,短时间内迅速获取近10%的流量份额。受其影响,百度、谷歌中国及搜搜的流量份额有所下滑。从营收结构来看,由于2012年360搜索商业化进程启动时间较短,当前尚未将奇虎360营收计入中国搜索引擎企业总营收。进入2013年后,随着商业化进程的推进,360搜索的收入将逐步增长。将奇虎360营收计入搜索市场总营收后,市场格局将发生变化。

搜索建议

编辑

细化搜索条件

你给出的搜索条件越具体,搜索引擎返回的结果也会越精确。

比方说你想查找有关电脑冒险游戏方面的资料,输入game是无济于事的。computer game范围就小一些,当然xxx是敲入computer adventure game,返回的结果会精确得多。

此外一些功能词汇和太常用的名词,如对英文中的“and”、“how”、“what”、“web”、“homepage”和中文中的“的”、“地”、“和”等等搜索引擎是不支持的。这些词被称为停用词(Stop Words)或过滤词(Filter Words),在搜索时这些词都将被搜索引擎忽略。

搜索逻辑命令

搜索引擎基本上都支持附加逻辑命令查询,常用的是“+”号和“-”号,或与之相对应的布尔(Boolean)逻辑命令AND、OR和NOT。用好这些命令符号可以大幅提高我们的搜索精度。

精确匹配搜索

除利用前面提到的逻辑命令来缩小查询范围外,还可使用“”引号(注意为英文字符。虽然一些搜索引擎已支持中文标点符号,但顾及到其他引擎,xxx养成使用英文字符的习惯)来进行精确匹配查询(也称短语搜索)。
特殊搜索命令

标题搜索

多数搜索引擎都支持针对网页标题的搜索,命令是“title:”,在进行标题搜索时,前面提到的逻辑符号和精确匹配原则同样适用。

网站搜索

此外我们还可以针对网站进行搜索,命令是“site:”(Google)、“host:”(AltaVista)、“url:”(Infoseek)或“domain:”(HotBot),(soubaike).org

链接搜索

在Google和AltaVista中,用户均可通过“link:”命令来查找某网站的外部导入链接(inbound links)。其他一些引擎也有同样的功能,只不过命令格式稍有区别。你可以用这个命令来查看是谁以及有多少网站与你做了链接。
关键词竞争程度判断

搜索结果数越大,竞争越大

Intitle搜索,结果数越多,竞争越大

竞价结果数越多,竞争越大

竞争对手情况

内页排名数量

关键词的挖掘

头脑风暴

咨问客户

下拉菜单

相关搜索

竞价词

百度指数

百度关键词工具

金花

追问

飞达鲁

八爪交叉组合

百度风云榜

使用方法

编辑

简单查询

在搜索引擎中输入关键词,然后点击“搜索”就行了,系统很快会返回查询结果,这是最简单的查询方法,使用方便,但是查询的结果却不准确,可能包含着许多无用的信息。   

高级查询

双引号(“”)

给要查询的关键词加上双引号(半角,以下要加的其它符号同此),可以实现精确的查询,这种方法要求查询结果要精确匹配,不包括演变形式。例如在搜索引擎的文字框中输入“电传”,它就会返回网页中有“电传”这个关键字的网址,而不会返回诸如“电话传真”之类网页。

使用加号(+)
在关键词的前面使用加号,也就等于告诉搜索引擎该单词必须出现在搜索结果中的网页上,例如,在搜索引擎中输入“+电脑+电话+传真”就表示要查找的内容必须要同时包含“电脑、电话、传真”这三个关键词。

使用减号(-)
在关键词的前面使用减号,也就意味着在查询结果中不能出现该关键词,例如,在搜索引擎中输入“电视台-中央电视台”,它就表示最后的查询结果中一定不包含“中央电视台”。

通配符(*和?)
通配符包括星号(*)和问号(?),前者表示匹配的数量不受限制,后者匹配的字符数要受到限制,主要用在英文搜索引擎中。例如输入“computer*”,就可以找到“computer、computers、computerised、computerized”等单词,而输入“comp?ter”,则只能找到“computer、compater、competer”等单词。

使用布尔检索
所谓布尔检索,是指通过标准的布尔逻辑关系来表达关键词与关键词之间逻辑关系的一种查询方法,这种查询方法允许我们输入多个关键词,各个关键词之间的关系可以用逻辑关系词来表示。
and,称为逻辑“与”,用and进行连接,表示它所连接的两个词必须同时出现在查询结果中,例如,输入“computer and book”,它要求查询结果中必须同时包含computer和book。
or,称为逻辑“或”,它表示所连接的两个关键词中任意一个出现在查询结果中就可以,例如,输入“computer or book”,就要求查询结果中可以只有computer,或只有book,或同时包含computer和book。
not,称为逻辑“非”,它表示所连接的两个关键词中应从xxx个关键词概念中排除第二个关键词,例如输入“automobile not car”,就要求查询的结果中包含automobile(汽车),但同时不能包含car(小汽车)。
near,它表示两个关键词之间的词距不能超过n个单词。
在实际的使用过程中,你可以将各种逻辑关系综合运用,灵活搭配,以便进行更加复杂的查询。

使用元词检索

大多数搜索引擎都支持“元词”(metawords)功能,依据这类功能用户把元词放在关键词的前面,这样就可以告诉搜索引擎你想要检索的内容具有哪些明确的特征。例如,你在搜索引擎中输入“title:清华大学”,就可以查到网页标题中带有清华大学的网页。在键入的关键词后加上“domainrg”,就可以查到所有以org为后缀的网站。
其他元词还包括:image:用于检索图片,link:用于检索链接到某个选定网站的页面,URL:用于检索地址中带有某个关键词的网页。

区分大小写

这是检索英文信息时要注意的一个问题,许多英文搜索引擎可以让用户选择是否要求区分关键词的大小写,这一功能对查询专有名词有很大的帮助,例如:Web专指万维网或环球网,而web则表示蜘蛛网。

特殊搜索命令

intitle:是多数搜索引擎都支持的针对网页标题的搜索命令。例如,输入“intitle:家用电器”,表示要搜索标题含有“家用电器”的网页。

商业模式

编辑

在搜索引擎发展早期,多是作为技术提供商为其他网站提供搜索服务,网站付钱给搜索引擎。后来,随着2001年互联网泡沫的破灭,大多转向为竞价排名方式。

现在搜索引擎的主流商务模式(百度的竞价排名、Google的AdWords)都是在搜索结果页面放置广告,通过用户的点击向广告主收费。这种模式最早是比尔·格罗斯(Bill Gross)提出的。他于1998年6月创立GoTo公司(后于2001年9月更名为Overture),实施这种模式,取得了很大的成功,并且申请了专利。这种模式有两个特点,一是点击付费(Pay Per Click),用户不点击则广告主不用付费。二是竞价排序,根据广告主的付费多少排列结果。 2001年10月,Google推出AdWords,也采用点击付费和竞价的方式。2002年,Overture起诉Google侵犯了其专利。2004年8月,和Yahoo!(Yahoo!于2003年7月收购Overture)达成和解,向后者支付了270万普通股(合3亿美元不到)作为和解费。

AdSense是Google于2003年推出的一种新的广告方式。AdSense使各种规模的的第三方网页发布者进入Google庞大的广告商网络。Google在这些第三方网页放置跟网页内容相关的广告,当浏览者点击这些广告时,网页发布者能获得收入。AdSense在blogger中很受欢迎。同时,Google武断地删除一些帐号,引起部分人的不满。类似的广告方式,其他搜索引擎也先后推出。雅虎的广告方式是YPN(Yahoo Publisher Network),YPN 除了可以在网页上显示与内容相关的广告以外,还可以通过在 RSS 订阅中来显示广告。微软的广告计划叫AdCenter。百度也推出主题推广。

竞价排名:竞价排名是一种按效果付费的网络推广方式,由百度在国内率先推出。企业在购买该项服务后,通过注册一定数量的关键词,其推广信息就会率先出现在网民相应的搜索结果中。如企业在百度注册“电气设备”这个关键词,当消费者寻找“电气设备”的信息时,企业就会优先被找到,并且百度按照给企业带去的潜在客户访问数收费。

垂直搜索

垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索、购物搜索等等),在其特定的搜索领域有更好的用户体验。相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。

集合式搜索

集合式搜索引擎:该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot在2002年底推出的搜索引擎。

门户搜索

门户搜索引擎:AOLSearch、MSNSearch等虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎。

免费链接

免费链接列表(Free For All Links简称FFA):一般只简单地滚动链接条目,少部分有简单的分类目录,不过规模要比Yahoo!等目录索引小很多。

可见度

一个网站在搜索引擎自然检索结果的可见度状况对于网站是否可以通过搜索引擎获得用户至关重要,同样网站自然检索的可见度与该网站需要多大程度投放搜索引擎广告具有密切关系,本研究报告从网站搜索引擎自然检索状况的调查揭示搜索引擎关键词推广的意义。[2]

著名的引擎

编辑

目前互联网时代搜索引擎层出不,目前比较有名的搜索引擎有这么几个:

百度

百度(Nasdaq简称:BIDU)是全球xxx的中文搜索引擎,2000年1月由李彦宏、徐勇两人创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。“百度”二字源于中国宋朝词人辛弃疾的《青玉案·元夕》词句“众里寻他千百度”,象征着百度对中文信息检索技术的执著追求。

360综合搜索

360综合搜索属于元搜索引擎,是搜索引擎的一种,是通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。而360搜索+,属于全文搜索引擎,是奇虎360公司开发的基于机器学习技术的第三代搜索引擎,具备“自学习、自进化”能力和发现用户最需要的搜索结果。

必应

微软必应(英文名:Bing)是微软公司于2009年5月28日推出,用以取代Live Search的全新搜索引擎服务。为符合中国用户使用习惯,Bing中文品牌名为“必应”。作为全球xxx的搜索引擎之一,截至2013年5月,必应已成为北美地区第二大搜索引擎,如加上为雅虎提供的搜索技术支持,必应已占据29.3%的市场份额。2013年10月,微软在中国启用全新明黄色必应搜索标志并去除Beta标识,这使必应成为继Windows、Office和Xbox后的微软品牌第四个重要产品线,也标志着必应已不仅仅是一个搜索引擎,更将深度融入微软几乎所有的服务与产品中。

未来展望

编辑

随着互联网的发展,网上可以搜索的网页变得愈来愈多,而网页内容的质量亦变得良莠不齐,没有保证。所以,未来的搜索引擎将会朝着知识型搜索引擎的方向发展,期以为搜索者提供更准确及适用的数据。网上的百科全书如雨后春笋般发展起来;另一方面,亦有不少公司尝试在搜索方面改进,务求更符合用户的要求。当中诸如Copernic Agent之类的搜索代理就是其中之一。

内容由匿名用户提供,本内容不代表vibaike.com立场,内容投诉举报请联系vibaike.com客服。如若转载,请注明出处:https://vibaike.com/4134/

(10)
词条目录
  1. 搜索引擎定义
  2. 发展史
  3. 起源
  4. 发展(1)
  5. 发展(2)
  6. 发展(3)
  7. 发展(4)
  8. 发展(5)
  9. 发展(6)
  10. 发展(7)
  11. 搜索引擎分类
  12. 全文索引
  13. 目录索引
  14. 元搜索引擎
  15. 工作原理
  16. 第一步:爬行
  17. 第二步:抓取存储
  18. 第三步:预处理
  19. 全文搜索引擎
  20. 目录索引
  21. 影响
  22. 作用
  23. 特点
  24. 市场
  25. 搜索建议
  26. 细化搜索条件
  27. 搜索逻辑命令
  28. 精确匹配搜索
  29. 标题搜索
  30. 网站搜索
  31. 链接搜索
  32. 使用方法
  33. 简单查询
  34. 高级查询
  35. 使用元词检索
  36. 区分大小写
  37. 特殊搜索命令
  38. 商业模式
  39. 垂直搜索
  40. 集合式搜索
  41. 门户搜索
  42. 免费链接
  43. 可见度
  44. 著名的引擎
  45. 百度
  46. 360综合搜索
  47. 必应
  48. 未来展望

轻触这里

关闭目录

目录