外贸营销(www.TradeKeyService.com)

专注于中小型外贸企业网络推广,分享产品海外推广知识和普及外贸网络营销经验。

[置顶] 外贸精英群—外贸QQ群大集合

动态网站的搜索引擎策略

摘要:动态网站丰富了网站的功能,但是对于搜索引擎来说,情况就不同了,动态页面是在用户“输入内容”或者进行“选择”时动态生成的,但是搜索引擎的“搜索机器人”无法“输入”和“选择”。另外,搜索引擎要避免“搜索机器人陷阱(spider traps)”的脚本错误。

一、动态网站的出现和优势

  最早互联网出现时,站点内容都是以HTML静态页面形式存放在服务器上,访问者浏览到的页面都是这些实际存在的静态页面。随着技术的发展,特别是数据库和脚本技术PERL、ASP、PHP和JSP的发展,越来越多的站点都开始采取动态的页面发布手段。比如,我们在Google.COM上搜索一个内容,得到的搜索结果页面文件"本身"在Google服务器上并不存在,而是通过程序在我们输入搜索内容时调用后台数据库实时生成的,也就是说,这些结果页面是动态的。

  静态页面的站点只涉及文件的传输问题,而动态站点则复杂得多,用户和站点之间出现大量的交互,网站不再仅仅是内容的发布,而是成为了一种"应用(Application)",是软件业向互联网上的扩张,从软件的角度看,动态站点是逻辑应用层和数据层的分离,数据库负责站点数据的存储管理,而ASP、PHP、JSP等负责处理站点的逻辑应用。这样做的好处除了增加很多交互功能外,更重要的是站点的维护、更新和升级都方便了许多。可以说,没有动态网站技术,目前互联网上的这些超大型站点就不可能出现。

二、搜索引擎抓取动态网站页面时面临的问题

 从用户的角度看,动态网站非常不错,丰富了站点的功能,但是对于搜索引擎来说,情况就不同了。(关于搜索引擎和分类目录的区别,以及搜索引擎的工作原理,请? "了解搜索引擎"http://www.emarketer.cn/em/expert/45.htm)

  根本的问题在于"输入"和"选择",动态页面是在用户"输入内容"或者进行"选择"时动态生成的,但是搜索引擎的"搜索机器人"无法"输入"和"选择"。比如我们要在当当书店站点查看冯英健的《网络营销基础与实践》一书,介绍页面是动态生成的,URL地址是:http://www.dangdang.com/product_detail/product_detail.asp?product_id=493698
这里在"?"后面的product_id参数值需要我们输入的,"搜索机器人"可以通过链接找到http://www.dangdang.com/product_detail/product_detail.asp 页面,但是它无法输入"?"后面的product_id参数值,从而无法抓取这个页面文件。

  另外,对于通过链接达到这种带"?"的页面,技术上搜索引擎可以抓取,但是一般情况下搜索引擎选择不去抓取,这是为了避免一种叫"搜索机器人陷阱(spider traps)"的脚本错误,这种错误会让搜索机器人进行无限循环的抓取,无法退出而浪费时间。

三、动态网站的搜索引擎策略

 动态网站要被搜索引擎抓取,可以采用内容发布系统软件将动态站点转化成静态页面,这种办法对于页面发布后变动少的站点比较合适,比如一些新闻类的站点(如新浪的新闻中心:http://news.sina.com.cn/ )。

  一般的动态网站可以通过下面的办法让搜索引擎抓取:
首先,我们要让动态页面的URL地址中没有"?",让动态页面看上去象"静态页面"。看看下面这个页面http://www.amazon.com/exec/obidos/tg/detail/-/043935806X/ ,这明显是一个动态页面,但是URL地址看上去却象"静态页面"。针对不同的动态技术可以采用下面技术实现:

  ·对于采用ASP技术的动态页面Exception Digital公司提供一种工具叫着XQASP(http://www.xde.net/products/product_xqasp.htm )可以将"?"替换为"/"。
   ·对于采用ColdFusion技术的站点,需要重新配置服务器上的ColdFusion,用"/"代替"?"将参数传输到URL,更详细的信息请见http://coldfusion.com/ 站点。
   ·对于使用Apache服务器的站点,可以使用rewrite模块将带参数的URL地址转换成搜索引擎支持的形式,该模块mod_rewrite在Apache服务器中不是缺省安装的,详细的信息请见http://httpd.apache.org/docs/mod/mod_rewrite.html 。

  对于其他的动态技术也能找到对应的方法改变URL的形式。

  然后,要创建一些静态页面指向这些动态页面(以改变过的URL链接)。
前面说过,搜索引擎机器人并不会自己"输入"参数,所以要让上面这些动态页面被搜索引擎抓取,我们还需要告诉机器人这些页面的地址(也就是参数)。我们可以创建一些静态的页面,一般在网络营销中称? "gateway page"(入口页面),这些页面上有大量指向这些动态页面的链接。

  将这些入口页面的地址提交到搜索引擎,这些页面和链接的动态页面(改变过URL形式)就能都被搜索引擎抓取了。

四、搜索引擎对动态网站支持的改进

  在我们调整动态站点适应搜索引擎的同时,搜索引擎也在发展。到目前为止,绝大多数的搜索引擎还不支持动态页面的抓取,但是Google、HOTBOT等和国内的百度开始尝试抓取动态网站页面(包括? "?"的页面),这就是我们现在在这些搜索引擎进行搜索时,结果中出现动态链接的原因。

  这些搜索引擎抓取动态页面时,为了避免"搜索机器人陷阱",都只抓取从静态页面(至少"看上去"是静态的页面)链接到的动态页面,而从动态页面链接出的动态页面都不再抓取。

  所以一个动态站点如果只针对上面这些搜索引擎,可以在上面小节介绍方法的基础上简化:只用创建一些入口页面,链接很多动态页面,然后将这些入口页面递交到这些搜索引擎就可以了。

  对于直接使用动态的URL地址,请注意:

文件URL中不要有Session Id,同时不要用ID作为参数名称(特别是对于Google)
·参数越少越好,尽量不要超过2个
能在URL中不用参数尽量不要用,一些参数转移到其他地方,这样可以增加动态页面被抓取的深度和数目。

搜索引擎工作流程

互联网是一个宝库,搜索引擎是打开宝库的一把钥匙。然而,绝大多数网民在搜索引擎的相关知识及使用技巧上能力不足。国外的一次调查结果显示,约有71%的人对搜索的结果感到不同程度的失望。作为互联网的第二大服务,这种状况应该改变。 互联网的迅速发展,导致了网上信息的爆炸性增长。全球目前的网页超过20亿,每天新增加730万网页。要在如此浩瀚的信息海洋里寻找信息,就像“大海捞针”一样困难。搜索引擎正是为了解决这个“迷航”问题而出现的技术。 搜索引擎的工作包括如下三个过程:

1.在互联中发现、搜集网页信息;
2.对信息进行提取和组织建立索引库;
3.再由检索器根据用户输入的查询关字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。

发现、搜集网页信息
需要有高性能的“网络蜘蛛”程序(Spider)去自动地在互联网中搜索信息。一个典型的网络蜘蛛工作的方式,是查看一个页面,并从中找到相关信息, 然后它再从该页面的所有链接中出发,继续寻找相关的信息,以此类推,直至穷尽。网络蜘蛛要求能够快速、全面。网络蜘蛛为实现其快速地浏览整个互联网,通常在技术上采用抢先式多线程技术实现在网上聚集信息。通过抢先式多线程的使用,你能索引一个基于URL链接的Web页面,启动一个新的线程跟随每个新的URL链接,索引一个新的URL起点。当然在服务器上所开的线程也不能无限膨胀,需要在服务器的正常运转和快速收集网页之间找一个平衡点。在算法上各个搜索引擎技术公司可能不尽相同,但目的都是快速浏览Web页和后续过程相配合。目前国内的搜索引擎技术公司中,比如百度公司的网络蜘蛛采用了可定制、高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息,并把所 获得的信息保存下来以备建立索引库和用户检索。

索引库的建立
关系到用户能否最迅速地找到最准确、最广泛的信息,同时索引库的建立也必须迅速,对网络蜘蛛抓来的网页信息极快地建立索引,保证信息的及时性。对网页采用基于网页内容分析和基于超链分析相结合的方法进行相关度评价,能够客观地对网页进行排序,从而极大限度地保证搜索出的结果与用户的查询串相一致。新浪搜索引擎对网站数据建立索引的过程中采取了按照关键词在网站标题、网站描述、网站URL等不同位置的出现或网站的质量等级等建立索引库,从而保证搜索出的结果与用户的查询串相一致。新浪搜索引擎在索引库建立的过程中,对所有数据采用多进程并行的方式,对新的信息采取增量式的方法建立索引库,从而保证能够迅速建立索引,使数据能够得到及时的更新。新浪搜索引擎在建立索引库的过程中还对用户搜索的查询串进行跟踪,并对查询频率高的查询串建立Cache页。

FTP搜索引擎

FTP搜索引擎的功能是搜集匿名FTP服务器提供的目录列表以及向用户提供文件信息的查询服务。由于FTP搜索引擎专门针对各种文件,因而相对WWW搜索引擎,寻找软件、图像、电影和音乐等文件时,使用FTP搜索引擎更加便捷。

http://www.philes.com/
号称全球最大的FTP搜索引擎。

http://www.alltheweb.com/
fastsearch.com的产品。

http://www.filesearching.com/
Chertovy Kulichki Inc.的产品。

http://www.souborak.com/
internauci.pl的产品。

http://www.ftpfind.com/
www.echo.fr的产品。

http://parker.vslib.cz/
作者是Technical University of Liberec Czech Republic的Jiri A. Randus,是国内大多数小型FTP搜索引擎系统的原型。

http://bingle.pku.edu.cn/
北大天网中英文FTP搜索引擎。

http://bbs.njust.edu.cn/parker
南京理工“一网打尽”搜索引擎。

http://sesa.nju.edu.cn/cgi-bin/parker/search
南京理工“轻松搜之” 搜索引擎。

http://clilac.fmmu.edu.cn/
百合谷搜索

http://search.zixia.net/Parker
清华ZIXIA搜索

http://parker.5470.net.cn/
幻想FTP搜索

http://search.xjtu.edu.cn/
西安交大思源搜

为什么在Google上搜不到我的网页

         我的网站提交Google有1个月了,但就是找不到我的网页,这是怎么回事?其实Google在收录网站方面还是相当宽容的,有时新网站在Google上找不到,并不等于没被收录,而是你太心急了。

  如果你的网站没有违反Google的Spam规则,并且网址也已加到了其他各大搜索引擎,或至少与其他网站交换了链接,并且也向Google提交了网址,但却搜不到你的网页,出现这种情况有几个原因:

  第一种情况是,Google实际上已扫描了你的网站,但只是将抓取的网页放在了数据库缓存里,还没有将它调入主数据库,这时你在Google上当然是找不到自己的网页的。Google刷新数据库的时间间隔通常为1个月,一般一个月后网页便可出现在搜索结果中。不过对全新的网站来说,这一过程有可能需要2个月。

  第二种情况是,你的网页已进入主数据库,但刚好碰上Google每月一次的数据库刷新,有时在www.Google.com中找不到的网址,在www2.Google.com或www3.Google.com上却能看到,因此如果在Google主站搜不到你的网页,不妨试试Google的其他站点。

  第三种情况是,你的网页在关键词搜索结果中排名太靠后,此时可以用网站名称或网址在Google上搜,如果能找到你的网页链接,就证明Google已收录了你的网站。

  另外还有一种方法可以大概看出网站是否已被收录,当然前提是你已安装了Google工具栏。首先访问你的网站首页,然后检查工具栏上的pagerank分值,如果能够显示得分(有时可能是0分),则可以肯定你的网站已在Google的数据库里了。如果pagerank为灰色,则有几种可能:一是你的网站没被收录;一是你的网站触犯了Spam规则被Google惩罚了;另外当网速太慢无法连接Google时,也有可能造成pagerank为灰色,不过这种情况比较少见。

网站登录Google与网站设计

对网友来说,没有比Google将自己呕心沥血建好的网站拒之门外更让人郁闷的事了。的确,就目前Google所处的地位来说,将自己的网站登录Google搜索引擎成了站主们心中的头等大事。可有时就是天不随人愿,花好大代价建成的网站,谁见了都被迷得五迷三道,而让对面的Google看过来,它却不理不睬,搞得站主们心里直犯嘀咕:我到底哪儿得罪Google了?

  其实在对待收录网站的问题上,Google还是相当宽容的,而且从扫描技术上说它也是最全面的,不过万一你的网站得不到Google的赏识,不仿从以下几个方面找找原因(请首先确认Google的确没收录你的网站):

     网站设计是否搜索引擎友好
  1、纯Java网站

  如果你的网站是用纯Java设计的,那么就要小心了,因为Google曾在一些场合明确表示过不会收录用纯Java技术制作的网站。

  2、Flash网站

  如果你的网站大量使用Flash,例如首页为一个Flash动画,并且链接内嵌在Flash中,对这种网站Google是不太感冒的,而且一些搜索引擎(Google、Fast/AllTheWeb等)虽然已能解读图象中的内嵌文字和链接,但并未正式使用在对内部网页的检索上。

  3、纯图象首页

  目前许多网站(尤其是企业网站)将首页设计成仅包含图象的形象页面(splash page),加上网站内容太少,因此常常造成无法成功登录Google。听听Google对此是怎么说的:“We want to point users to content pages,not to doorways 或 splash screens”。

  4、网页框架(frameset)

  Google可以检索使用网页框架结构的网站,但由于搜索引擎工作方式与一般的网页浏览器不同,因此会造成返回的结果与用户的需求不符,这是搜索引擎所极力要避免的,所以Google在收录网页框架结构的网站时还是有所保留的。如果你非用框架结构不可,可以将相关内容放在<noframes></noframes>标签中。

  5、动态网页

  Google是较早支持动态网页检索的搜索引擎之一,但有一定限度,Google的解释是:“because our web crawler can easily overwhelm and crash sites serving dynamic content, we limit the amount of dynamic pages we index”。

  不过据我们观察,Google现在对动态网页的支持很好。但如果动态网页存在回路(loop),很容易将spider套住让它无法脱身,所以当你找不到其他无法登录Google的原因时,可以试着将动态网页改成静态html文件。

  6、网站内部链接

  网页之间的链接最好是文字链接,其次是图象链接。虽然Google已能跟踪和解析JavaScript和Flash中内嵌的链接,但从搜索引擎友好的角度讲还是不要大量采用JavaScript和Flash链接。

  网站/网页访问是否正常
   1、网站访问速度

  你也许想不到,网站访问速度太慢也是影响成功注册Google引擎的原因。这方面我们是有“血”的教训的。如果发现网站响应速度过慢,建议你赶快换一个主机。如果你对登录Google是认真的,多花些钱还是值得的。

  2、网页大小

  虽然网页大小不是最关键的因素,但从搜索引擎友好的角度说,下载越快的网页被成功收录的几率也就越大。至于网页字节数多少合适没有一个正式的标准,一般说法是不超过50K,不过有一点是肯定的,如果你做一个100多K的网页,无论对搜索引擎还是普通浏览者来说都不是件好事吧?

  3、更改文件名

  对网站进行调整时要注意,不要对网页文件名做过多地更改。当Google探测到用户点击的多数是无效连接时,会将你的网页从搜索结果中摘除。如果你必须大面积更改文件名,可以使用主机的301转发功能,将原来的链接指向新的文件(切记不要在原页面设置META Refresh转发)。

搜索引擎的技术发展趋势

     搜索引擎经过几年的发展和摸索,越来越贴近人们的需求,搜索引擎的技术也得到了很大的发展。搜索引擎的最新技术发展包括以下几个方面:

   一、提高搜索引擎对用户检索提问的理解

  为了提高搜索引擎对用户检索提问的理解,就必须有一个好的检索提问语言,为了克服关键词检索和目录查询的缺点,现在已经出现了自然语言智能答询。用户可以输入简单的疑问句,比如“how can kill virus of computer?”。搜索引擎在对提问进行结构和内容的分析之后,或直接给出提问的答案,或引导用户从几个可选择的问题中进行再选择。自然语言的优势在于,一是使网络交流更加人性化,二是使查询变得更加方便、直接、有效。就以上面的例子来讲,如果用关键词查询,多半人会用“virus”这个词来检索,结果中必然会包括各类病毒的介绍、病毒是怎样产生的等等许多无效信息,而用“how can kill virus of computer?”,搜索引擎会将怎样杀病毒的信息提供给用户,提高了检索效率。

  二、对检索结果进行处理

  1)基于链接评价的搜索引擎

  基于链接评价的搜索引擎的优秀代表是Googel,它独创的“链接评价体系”是基于这样一种认识,一个网页的重要性取决于它被其它网页链接的数量,特别是一些已经被认定是“重要”的网页的链接数量。这种评价体制与《科技引文索引》的思路非常相似,但是由于互联网是在一个商业化的环境中发展起来的,一个网站的被链接数量还与它的商业推广有着密切的联系,因此这种评价体制在某种程度上缺乏客观性。

  2)基于访问大众性的搜索引擎

  基于访问大众性的搜索引擎的代表是direct hit,它的基本理念是多数人选择访问的网站就是最重要的网站。根据以前成千上万的网络用户在检索结果中实际所挑选并访问的网站和他们在这些网站上花费的时间来统计确定有关网站的重要性排名,并以此来确定哪些网站最符合用户的检索要求。因此具有典型的趋众性特点。这种评价体制与基于链接评价的搜索引擎有着同样的缺点。

  3)去掉检索结果中附加的多余信息

  有调查指出,过多的附加信息加重了用户的信息负担,为了去掉这些过多的附加信息,可以采用用户定制、内容过滤等检索技术。

  三、确定搜索引擎信息搜集范围,提高搜索引擎的针对性

  1)垂直主题搜索引擎

  网上的信息浩如烟海,网络资源以十倍速的增长,一个搜索引擎很难收集全所有主题的网络信息,即使信息主题收集得比较全面,由于主题范围太宽,很难将各主题都做得精确而又专业,使得检索结果垃圾太多。这样以来,垂直主题的搜索引擎以其高度的目标化和专业化在各类搜索引擎中占据了一系席之地,比如象股票、天气、新闻等类的搜索引擎,具有很高的针对性,用户对查询结果的满意度较高。作者认为,垂直主题有着极大的发展空间。

  2)非www信息的搜索

  提供FTP等类信息的检索

  3)多媒体搜索引擎

  多媒体检索主要包括声音、图像的检索。

  四、将搜索引擎的技术开发重点放在对检索结果的处理上,提供更优化的检索结果

  1)纯净搜索引擎

  这类搜索引擎没有自己的信息采集系统,利用别人现有的索引数据库,主要关注检索的理念、技术和机制等。

  2)元搜索引擎

  现在出现了许多的搜索引擎,其收集信息的范围、搜索机制、算法等都不同,用户不得不去学习多个搜索引擎的用法。每个搜索引擎平均只能涉及到整个www资源的30-50%(search engine watch数据),这样导致同一个搜索请求在不同搜索引擎中获得的查询结果的重复率不足34%,而每一个搜索引擎的查准率不到45%。

  元搜索引擎(metasearch enging)是将用户提交的检索请求到多个独立的搜索引擎上去搜索,并将检索结果集中统一处理,以统一的格式提供给用户,因此有搜索引擎之上的搜索引擎之称。它的主要精力放在提高搜索速度、智能化处理搜索结果、个性搜索功能的设置和用户检索界面的友好性上,查全率和查准率都比较高。目前比较成功的元搜索引擎有metacrawler、dopile、ixquick等。

目前搜索引擎提供的主要检索服务

目前主要一些搜索引擎提供的检索服务有:
         目录与关键词检索相结合(Browsing & Searching Integration)。这种类型的检索工具的典型代表是sohu(http://www.sohu.com)
         精确检索(Precise Search)。精确检索有两种方法,一种是用受控词表,另一种是用XML技术。
         自然语言检索(Natural Language Search)。自然语言检索的代表有Ask Jeeves、GoTo、InQuizit和LexiQuest等。使用这种检索工具时用户可以提出象“What is Jamestown?”、“When did Web searching start?”等诸如此类的问题。
         多语种检索(Multilingual)。用户可以在检索结果中限制检索结果的语言。在AltaVista、HotBot、Excite、Infoseek/Go中都提供这种检索服务。其中Infoseek/Go还提供检索结果的自动翻译服务。
         多媒体检索(Multimedia Search)。多媒体检索包括基于描述的多媒体检索和基于内容的多媒体检索。基于描述的多媒体检索就是用一个关键词来描述所要查找的图片或是音乐,比如可以用“classroom”这个词来查找教室的图片,也可以“spring”这个词在Lycos的MP3搜索引擎中查找相关音乐。基于内容的多媒体检索就是用一些视觉特征来查找多媒体信息,这些视觉特征包括颜色、形状、纹理等。
         过滤检索(Filtered Search)。在检索中自动将一些网站信息过滤去掉,比如一些内容不健康的黄色网站信息,影响国家安全的政治反动网站信息等,这种检索服务技术受到父母们的欢迎,可以避免孩子们上网时受到不健康影响。
         智能检索(Intelligent Search)。智能检索的含义就是检索系统能够自动地分析检索结果,为用户提供最满意的信息。
         检索结果修正(Search Midification)。检索结果的修正就是在上一次检索结果的范围内调整检索方案,以期达到更精确的相关信息。
         检索结果排序(New Ranking/Selection Techniques)。搜索引擎会自动分析查询到的页面,根据相关性算法将相关性最大的网页排在前面。
         提供最新收录的新站(Sites for Staying Current on Web Search Tools)。大部分搜索引擎都有新站通告,向用户公布搜索引擎收集了哪些网站的信息。

自动分词与中文搜索引擎

笔者一直从事中文自动分词的研究,其中一个朴素的想法就是该研究对WWW上的中文搜索引擎一定会有帮助,但又常常为开放环境下自动分词难以达到满意的精度而苦恼。近来忽似有所悟,在此将点滴心得写出来,以抛砖引玉。一个关于中文搜索引擎的“有趣”体验

  先讲一段笔者的“有趣”经历。一日,偶然想在WWW上查找与日本“和服”有关的资料。打开Yahoo China(http://cn.yahoo.com/)的搜索引擎,很自然地选择“和服”作为query。

  检索结果完全出乎意料:找到了255个“相关网站”,却鲜有与“和服”相关者,如:“中国人才热线 GB - 提供招聘及求职的资讯和服务”。在255个网站中逐一查看实不能忍受,重新(即独立于以前的检索结果,下同)键入“和服” and “日本”,希望能缩小搜索范围。这次只得到一个与“和服”相关的网站:“宁波市江东星星丝织腰带厂 GB - 从事日本和服腰带的刺绣及制造”。

  笔者不相信诺大的Yahoo China仅存此硕果,故又试“和服” and “服装”。这次共返回45个网站,但相关的仍只有“宁波市江东星星丝织腰带厂”,检索精度为1/45。笔者着实感到疑惑:难道真的要守宝山空手而归吗?脑海中忽跳出一个绝妙好词:“日式”,赶快键入“和服” and “日式”,终于挖出不少“宝”来:返回了1140个网页(不知为什么,查的是“相关网站”,操作也与以前完全相同,但反馈却死活都是“相关网页”),其中不乏与“和服”相关的内容,如:“和服文化“,下面是和服、日式服装商品的市场和其他纤维制品市场的比较图……”终于“大功告成”,当时心里一阵轻松。过后回想此事,却觉得不那么简单:如果想不出“日式”这个词,还要试多少个其他词?又有多少个相关的网页笔者根本就无从知道?不确定性太强了,似乎并不很易琢磨。检索好像成了一门“艺术”,而不是一门“技术”。

  中文搜索引擎性能的初步测试
   这一段体验促使我对中文搜索引擎的性能做了一个初步的调查。当时我正在香港大学讲学,于是要求50名香港大学的学生每人向Yahoo Hong Kong(http://hk.yahoo.com/)键入一个感兴趣的词作为查询,然后分别考察所查询的检索精度。检索精度定义为:检索出来的与查询真正相关的网站(页)数/检索出来的网站(页)数。如果检索出来的网站(页)大于50个,则只考察前50个。

  这50个检索词及所对应的检索精度(%)如表1所示。
   检索结果表明,Yahoo Hong Kong没有做分词处理,平均检索精度仅为48.8%,其中一半是垃圾。表2列出了部分检索实例。从检索错误来看,情况相当复杂,涉及中文自动分词的各个方面,包括交叉歧义(如“研究生态学理论及应用”。下划线指示检索词,下同)、组合歧义(“推动以人为本的教育”)、中国人名(如“山东安百合律师事务所”)、外国人名(如“海伦和约翰”、“介绍酒井法子”)、 中国地名(如“泌阳县双庙街乡”)、外国地名(如“埃及和约旦”)、机构名( 如“掌天气功疗法中心”)、缩略语(如“中大型ERP软件”)等。

为了粗略估计分词系统对中文搜索引擎可能带来的影响,笔者用清华大学自行研发的中文分词系统CSeg&Tag对与这50个词相关的122个典型例句(均由Yahoo Hong Kong 给出,包括“检索错误的例子”78句及“检索正确的例子”44句,其中部分例句见表2)进行了自动分词,分词结果如表3所示。

  总体上,对这122句的分词正确率为76.2%。假设这可在一定程度上反映对50个词检索出来的所有句子的分词结果的话,则检索精度则可以从48.8%上升到76.2%。可见,虽然目前分词系统的性能距理想状态还有相当的距离,对搜索引擎的作用也是所谓的“有一利也有一弊”,但权衡利弊,还是利大于弊。换言之,分词技术在搜索引擎中是可用的。

  进一步分析CSeg&Tag系统分词出错的29个句子, 还可以分为两类:第一类(共11句),基本上是由于对未登录词没能做正确的处理, 被切开了, 但幸运的是,该词的边界并没有同周围的其他词产生纠葛(如“联 有 机器 有限公司”);第二类(共18句),则是或者把词的边界搞错了(如“掌天气 功 疗法 中心”),或者不该合的成分被当做一个“词”合起来了(如“含 学会 及第 十 届 亚洲 医学会 大会 介绍”)。第一类对搜索引擎的影响,在效果上与不做分词处理的完全一样,

  所以,如果加上这11句,针对50个词的检索精度可望由76.2%提高到85.2%。第二类对搜索引擎则属致命伤,是我们最不希望也是最怕遇见的情形。再仔细分析一下,

  其中有的情形通过简单的规则可以解决(如“及第”,如果后面紧跟数词,一般应分开),但大部分情形并不容易对付,甚至在WWW环境下,我们连到底会遇到多少类似的情形都不可能预测出,更遑论有效解决了。经验告诉我们,不管投入怎样的努力,分词系统永远不可能在开放环境下达到完美境界——这意味着我们在构造中文搜索引擎时,必须首先接受这样一个基本假设:再健壮的中文分词系统在处理真实文本时也会不可避免地发生某些不可预期的错误,而能达到90%的分词精度已经是谢天谢地了,出现错误是必然的、正常的。研究中文搜索引擎的机制也好,算法也罢,试图提高检索的召回率也好,精确率(精度)也罢,必须在这个基本假设上进行,否则无异于缘木求鱼。

未来的研发方向

  鉴于以上讨论,笔者认为:面向搜索引擎的中文分词系统一定是基于一个字词混合的模型,相应的文本检索机制也一定是字词混合的。而针对这种模型和机制的研究势必成为未来几年内中文自动分词系统及中文搜索引擎系统研发中的前沿与热点课题。

  笔者得到的另一个启发是:中文搜索引擎关于不同词的响应特性存在着很大的差异,比如,即使不分词,对“旗袍”的检索精度仍可达到100%,对“土人”的检索精度则为0。我们有必要对全部汉语常用词做穷举式的逐一调查:相对于中文搜索引擎,该词的“响应”特性如何?是否存在某种简捷的解决办法(如“土人”几乎均出现于“风土人情”中)?或者干脆受研究水平的限制,目前根本就不可能找到解决之道?等等。这项调查对设计基于分词技术的新一代中文搜索引擎将是一个颇具价值的基础性工作。

搜索引擎的定义—什么是搜索引擎?

搜索引擎(Search Engines)是一个对互联网上的信息资源进行搜集整理,然后供你查询的系统,它包括信息搜集、信息整理和用户查询三部分。搜索引擎是一个为你提供信息“检索”服务的网站,它使用某些程序把因特网上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息。

  早期的搜索引擎是把因特网中的资源服务器的地址收集起来,由其提供的资源的类型不同而分成不同的目录,再一层层地进行分类。人们要找自己想要的信息可按他们的分类一层层进入,就能最后到达目的地,找到自己想要的信息。这其实是最原始的方式,只适用于因特网信息并不多的时候。随着因特网信息按几何式增长,出现了真正意义上的搜索引擎,这些搜索引擎知道网站上每一页的开始,随后搜索因特网上的所有超级链接,把代表超级链接的所有词汇放入一个数据库。这就是现在搜索引擎的原型。

  随着Yahoo!的出现,搜索引擎的发展也进入了黄金时代,相比以前其性能更加优越。现在的搜索引擎已经不只是单纯的搜索网页的信息了,它们已经变得更加综合化,完美化了。以搜索引擎权威Yahoo!为例,从1995年3月由美籍华裔杨致远等人创办Yahoo!开始,到现在,他们从一个单一的搜索引擎发展到现在有电子商务、新闻信息服务、个人免费电子信箱服务等多种网络服务,充分说明了搜索引擎的发展从单一到综合的过程。

  然而由于搜索引擎的工作方式和因特网的快速发展,使其搜索的结果让人越来越不满意。例如,搜索“电脑”这个词汇,就可能有数百万页的结果。这是由于搜索引擎通过对网站的相关性来优化搜索结果,这种相关性又是由关键字在网站的位置、网站的名称、 标签等公式来决定的。这就是使搜索引擎搜索结果多而杂的原因。而搜索引擎中的数据库因为因特网的发展变化也必然包含了死链接。

 怎样才能使搜索引擎精确地为人们提供相关的信息应该是它以后发展的方向,而不是只求综合服务。

AdWords与中国供应商

        编者按:目前Google已经推出了“出口易”产品,实质上就是帮助广大外贸企业实施海外推广,通过Adwords优化,能够极大提升外贸客户的投资回报率,这都需要非常专业的adwords客服团队。

  去年我曾说过,电子商务要成为中国互联网的另一根支柱(目前的支柱是广告),取决于一个前提,即它是否能让更多的消费者、商家和合作网站从中受益。马云在这一点上是非常聪明的,在大家都一窝蜂地扑向互联网的娱乐价值的时候,他把目光投向了娱乐之外。

  中国作为世界工厂,国际贸易是很多制造型企业的命根,比如中国的打火机、纽扣和鞋子的生产商。如果你能帮这些企业拿到国际订单,那么这些企业就非常愿意付出一部分收入给你。这就是阿里巴巴的模式。阿里巴巴帮中国企业赚外国人的钱,但它自己赚的却是中国企业的钱。

  一个朋友年初开始创业,也是做国际贸易。他花6万块钱买了一个阿里巴巴的“中国供应商”资格,同时,他也试着自己在Google上投放英文关键词广告。经过比较他发现,阿里巴巴确实可以带给他一部分订单,但成本却要远远高于Google带给他的订单。

  借助Google提供的网站访问分析工具和AdWords优化工具,他的网站目前达到了一个很高的转化率,即通过广告产生的订单数与他的广告的点击数的比率。也就是说,只要他增加广告费的投放,就会带来更多的订单。现在他非常理解为什么Google值1600亿美元,因为一个庞大的长尾电子商务市场在支撑着它。这就是为什么在Google AdWords最大的买家中,亚马逊和eBay占据了前两位。

  但让我的朋友感到迷惑的是,作为最大的跨国B2B平台,阿里巴巴为什么不加大对Google的英文广告投放,就像它在国内与搜索引擎和门户网站合作推广淘宝一样,帮助中国供应商更好地取得国际订单。

  在他看来,AdWords优化,可能是一个比SEO更有效,更快捷,而且更可控的绝好的生意。因为大多数国内生产企业对此所知甚少,缺乏专业知识,而且不了解西方客户的搜索习惯。所以,大多数制造企业只能被动地依赖阿里巴巴,却无法自己利用互联网开展业务。而阿里巴巴并不是一个交易平台,它只能向国内的经销商收费,却无法向国外的采购商收费。这大概也导致它投放AdWords广告的意愿不足。

  相比亚马逊和eBay各自约800万个Google关键词的购买量,国内有如此魄力的电子商务公司很少,而能提供AdWords专业服务的公司更少,这很可能是一个巨大的市场机会。

  同时我也想到,Google的价值到底是什么?肯定不是娱乐,娱乐比Google做得好的有的是;也不是简单的流量,Google的流量一直没有超过Yahoo!。Google的最大价值,或许就在于通过它所创造的价值。我朋友的公司,只是个成立几个月的很小的公司,到今年年底,销售额估计将接近200万美元,他当然乐于把更多的钱送给Google。问题是,国内有他这样的互联网操作能力的公司太少了。

                                                                                                                作者:洪波

搜索引擎与spam

         乱世用重典,搜索引擎在与spam的长期战争中总是处于不利地位(这很容易理解,搜索引擎公司真正考虑搜索结果相关性和排序的只有几个人,而互联网上整天琢磨怎么对付搜索引擎的有几万几十万webmaster),所以对spam的惩罚很严厉,事实上,所有的搜索引擎对它们认定的spam行为,通常只有一种惩罚:永久屏蔽。现在流行的太极链、凤凰链这些超链群,就存在被当做spam的可能性。国内的搜索引擎注册还没有形成市场,但在国外是很发达的产业,每年以200%的速度增长,它们叫SEO,即search engine optimization 从某种角度来说,几乎是spam在推动着搜索引擎的进步,很久很久以前的一天,搜索引擎们为了搜索结果能更准确,为了能把最相关的搜索结果排在前面,发明了meta tag。起初,meta tag是很好用的,那时候,诚实的webmaster们如实的填写网站摘要,如实的列出跟他的网站最相关的关键词,搜索引擎们抓取、索引、检索这些诚实的meta tag,并作为搜索结果排序的重要依据,然后,是一段相安无事的甜蜜时光。

  岁月迅速流逝,甜蜜时光挡不住资本的力量。“一旦有适当的利润,资本就大胆起来……有50%的利润,他就铤而走险;有100%的利润,他就敢践踏一切人间法律;有300%的利润,他就敢犯任何罪行,甚至冒绞首的危险。” 越来越多的网站开始追求收入追求pageview,它们开始欺骗搜索引擎,它们在meta tag中塞进成堆的关键词,塞进跟自己的网站内容无关的但是流行的关键词。群众的力量是巨大的,搜索引擎的相关性被破坏了。。。

  搜索引擎们对作弊者开始第一轮反击,但是无力的,它们的做法是:在排序时更多的依赖网页正文而不是meta tag。

  作弊者以进为退,开始第二轮攻击,他们在正文中大量使用与网页背景相同颜色的关键词,在image tags中塞进关键词,在网页代码加入“看不见的注释”。

  搜索引擎开始第二轮反击,它们找到了有效的方法来过滤这些看不见的文字,取得了小小的胜利。

  善良是善良者的墓志铭,卑鄙是卑鄙者的通行证”,作弊者眼见常规武器无效,开始利用搜索引擎的真诚。搜索引擎的spider是互联网上的谦谦君子,它们访问任何网站都会自报身份,并且查阅网站的访问规定,完全按照各网站的规矩来办事。于是,作弊者精心制作了两个网站,一个专供网友访问,一个专供搜索引擎访问,每当发现访问请求来自搜索引擎时,就返回专供搜索引擎看的能令搜索引擎满意的网页,而正常访问者只能看到另一个截然不同的网站。这种方法叫做cloaking。这第三轮攻击,作弊者大胜。

  1998年3月1日,分别在AltaVista、Excite、HotBot、Infoseek、Lycos搜索当时的热门词汇“Monica Lewinsky”,各搜索引擎首页居然分别有50%、30%、30%、10%、50%的搜索结果是spam。由此可见当时作弊者们猖獗至何等程度!

  搜索引擎们,因为它们道德上的弱点,因为有些手段不愿用,所以无法完全辨别cloaking网站,也就无法完全对付作弊者。搜索引擎能做的只是严厉的惩罚被发现的spam,以警告作弊者,发展到今天的结果是,所有的搜索引擎对它们认定的spam行为,只有一种惩罚:永久屏蔽。

  但是,严厉的惩罚从来只是无能者推卸责任的借口,而不能真正的改善状况。“一旦有适当的利润,资本就大胆起来……有50%的利润,他就铤而走险;有100%的利润,他就敢践踏一切人间法律;有300%的利润,他就敢犯任何罪行,甚至冒绞首的危险。” 作弊者从来就不怕惩罚,当互联网狂潮来临,追求pageview的作弊者们更是肆无忌惮。

  无可奈何的搜索引擎,只有去寻找新的相关性排序依据,只有去寻找作弊者不能控制的排序依据,只有去网站以外寻找排序的依据,搜索引擎,真的别无选择。

  于是,开始出现了超链分析,出现了Pagerank。一个网页,说它自己是什么,它就是什么吗?物以类聚,如果它说的是真的,那么指向这个网页的链接应该来自具有同类内容的网页,所以指向这个网页的链接可以被用来验证这个网页的相关性。

  谁,最不可能出于贪婪而作弊?谁,最可能如实提供网页内容?是政府网站,和教育网站。所以,在超链分析中,gov和edu网站通常被赋予较高的排名,来自gov和edu的超链也有更高的价值。

  但是PageRank也带来了一些不请自来的错误排序因素:新站不如旧站,小站不如大站,专业站不如通俗站。一个新网站,一个小网站,一个专业网站,它的内容再好,因为不可能迅速得到大量的超链,所以无法得到合适的排名,即使它的内容是无与伦比的。而一个历史悠久的老网站、大网站、通俗网站,即使它已久不更新,或者内容远不如某些小网站,却可以获得很高的排名。

  当超链分析刚出来时,SEO界一片悲观论调,认为这是无法作弊的,SEO业完蛋了(就象近期各搜索引擎纷纷收费,SEO业更觉得自己前景惨淡,其实虽然搜索引擎排名市场的大头要给搜索引擎们,但SEO还是有钱赚的,毕竟,只有劳动模范有下岗的可能,从来没听说骗子会失业的),但是,道高一尺魔高一丈,很快SEO们发现了对付超链分析的方法:你不是喜欢链接么,好,我就做大量的网站,准备大量的链接,哪个客户出钱,我所有的网页都给它一个链接。这种SEO方法被称为link firm。这种方法刚出现时还算有效,不过很快就不行了,因为一个网站是否有大量来自内容不相干网页的链接,或者一个不是搜索引擎的网站给出大量不相干的链接还不难判断。而每当发现一个link firm,那些使用了该link firm的网站就全部死翘翘。我在wmw的论坛上看过一个家伙的帖子,说他的网站被封了,但他觉得自己很干净,没有做spam,所以主动去问Google封他网站的原因,原来仅仅是因为他用了一个link firm,真是可怜。

  一种搜索结果的排序算法,如果更多的是基于概念、主题、基于网页内容的质量,而不是网络上互相链来链去的超链的重要性,那么搜索结果的相关性在本质上会更好。

  只是,让计算机学会理解和评价网页内容吗?好像还是很遥远的事情;花大量的人力一个个网页评估么?这肯定是亏本的商业行为,只有靠志愿者。ODP庶几近之,但也只能点击,用关键词搜索时还是无法跟超链分析的结果相比。

五天让google收录你的网站

    做网站的人都希望自己的网站迅速地被搜索引擎收录.让搜索引擎尽快收录被不少站长视为网站推广中一件重要的事.无数的站长为了尽快让搜索引擎收录想尽了办法.又是做seo呀,又是拼命与别的网站交换链接.不过好像都没什么效果,搜索引擎还是迟迟未收录.我当初想做网站的时候,也看了不少网站推广的文章,其中有不少是关于google的推广.按照那些办法,我的网站还是N久未被google收录,相信不少人都有和我一样的经历.后来我终于找到了很有效的办法,现在就与大家分享一下.


     方法是:去google申请Google AdSense,两到三天就会收到的通过Google AdSense审核的邮件,然后用Google AdSense代码放在你的网站上.一般第五天你就可以发现google收录你的网站了.google为了给自己带来流量,它的Google AdSense也要发展所以它就会很快地收录你的网站.其实这个方法很简单,只是比较难想到而已.

中文搜索引擎的十大误区

         误区1:网站目录就是搜索引擎
         网站目录通常是经过人工分类的有系统的网站列表,通常附带有搜索功能。网站目录就是搜索引擎的名词始于雅虎,雅虎初创时就是只有一个网站目录。当然很快就通过外包的形式增加了网页级的搜索。中文网站提供目录搜索的远多于提供网页搜索的,加之媒体的各种炒作,许多网民误以为网站目录的搜索功能就是搜索引擎。在美国,因特网搜索引擎通常指的是收集了因特网上几千万到几亿个网页并对网页中的每一个词进行索引的搜索服务系统,是基于网页的全文检索系统。

         误区2:搜索引擎就是门户站点
         如果你要提供搜索服务,大家就认为你是一个门户网站,你就要吸引用户、提高页视率(PageView)。实际上,搜索引擎完全可以为内容提供商(ICP)、门户网站提供专业的搜索服务,而不必直接面对用户,这是一种典型的应用服务提供(ASP)模式。

         误区3:搜索引擎的概念已经过时
         搜索引擎是互联网上最先商业化的一个应用服务,它对于帮助网民快速寻找到所需要的信息非常关键。因特网搜索引擎是一个全自动的软件服务,并且非常容易在搜索结果网页中插入具有很高针对性的广告,CPM 最高可达70美元;所以一旦投入运转,其收益与成本的比率远高于一般的网站内容服务。根据中国互联网信息中心(CNNIC)2000年1月的统计结果,在中国网民中,搜索是排在电子邮件之后的第二大互联网应用。

         误区4:中文搜索引擎技术已经成熟
         不要说中文,即使英文的搜索引擎也没有发展成熟。这一方面表现在新的搜索引擎公司层出不穷,如Google, Ask Jeeves等;另一方面更表现在美国前三大网站都外包了它们的网页搜索部分。实际上,美国在线、雅虎和微软网络的搜索服务都是由一家叫Inktomi 的公司提供的。这是因为搜索引擎技术变化非常快,这些网站无法自行跟踪最前沿的技术。之所以有人会有搜索引擎技术已经成熟的概念,其实是因为网站门户公司意识到了它们的长处并不是搜索技术的创新,而是互联网上大众品牌的建立。中文搜索引擎技术出现的时间并不比英文的晚多少,然而发展速度却远远赶不上英文,这是由于网页级搜索引擎的开发难度相当大,该方面的专业人才奇缺,有开发这种搜索引擎经验的人,即使在硅谷也属凤毛麟角,开发所需要的硬件要求也比一般的网页制作高出很多。百度公司结合硅谷搜索引擎人才精英,依托北京最优秀的软件人才,开发了大型商业化的中文搜索引擎,中文搜索从此与英文站在了同一起跑线上。

         误区5:中文搜索引擎速度很慢
  某些中文网站的网页搜索服务外包给了一些服务器在境外的应用服务提供商(ASP),如AltaVista或Openfind等, 由于用户搜索需要占用出国带宽,因而速度极慢。这不是中文搜索引擎的错,而是这些网站没有选对ASP 所致。

         误区6:中英文混合检索词是不被支持的
      当你输入“MP3” 时,有些网站会认为你在查找英文网页,进而自动将你送到一个英文搜索引擎上;更多的网页搜索服务不能对“甲A”、“F-1一级方程式”等中英混合查询作出恰当的反应。然而搜索技术并非对此无能为力,百度搜索就完全解决了中英文混查的问题。

         误区7:中文搜索引擎的相关性无法与英文相媲美
         中文与英文最大的不同之处在于中文中有词的概念,检索字串与网页中文字的简单匹配并不见得就是语义上的匹配;要想提高中文搜索的相关性,必须结合中文词和中文字,并使用一些先进的算法,如新一代信息检索(IR)算法、超链分析(Link Analysis)等。中文搜索也有许多英文搜索望尘莫及之处,如中文网页极少有针对搜索引擎的欺骗(Spamming)行为,中文没有单复数、时态等的变化,大多数先进的算法也完全适用于中文。中文搜索的相关性完全可以与英文媲美。百度搜索使用了目前国际上先进的搜索引擎技术,并结合中文的语言特点和文化特点,成功地解决了中文搜索的相关性问题。

         误区8:用户要找的信息在网上不存在
     目前大多数的中文搜索引擎都收集了较少数量的网页,收集上百万的就算是信息量很大了;可是随着中国互联网的繁荣、政府、企业和各行各业对互联网的重视,以及大量风险投资的进入,中文互联网的内容日益丰富,网页数量激增。另外很多搜索引擎不支持新的中文编码标准,如“GBK”。例如“朱镕基”的“镕”字不在GB2312的字符集中,但是却在GBK编码中可以找到,许多搜索引擎由于不支持GBK,因而用“朱镕基”无法找到有关的网页。所以许多网上存在的信息在当前的主要搜索引擎中无法找到很可能是因为您用的搜索引擎不好,而不是因为您要找的信息在网上不存在。

         误区9:搜索引擎数据更新最快要30天
      对于那些依靠海外服务器提供检索的网站来说,这也许是对的;网易掌门丁磊辞职的消息传出后的三个星期内,各大门户网站的网页搜索服务都无法查到任何相关的网页。但这绝不是说及时更新数据是做不到的。百度搜索就巧妙地解决了数据更新的瓶颈,整个中文网页的数据库可以最快每天更新一次。

         误区10:搜索引擎不能查找动态生成的网页
      目前世界上没有一家主要的搜索引擎支持动态网页,因为大多数负责搜索网页的蜘蛛软件不敢去碰动态网页,怕被变化无穷的动态系统黑洞吸进去出不来。然而,网站使用动态网页生成工具乃是大势所趋,ASP、 PHP、 JSP 等编程工具日益流行,解决动态网页查找的问题已经是人心所向。百度在这一方面又在国际互联网界首开先河,成功解决了动态网页的收集和索引问题,用搜索引擎来查找动态生成的网页已经不是神话。

搜索知识与技巧集锦

         以搜索引擎为例
         1. 在进行关键词搜索时,怎样分类别搜索信息?

  搜狐的搜索引擎提供网站、类目、网址、网页、黄页、新闻、软件等类信息的查找,您可以通过搜索框后面的下拉式菜单进行选择,或直接在搜索框下的选择项中进行选择。不做选择时,默认选项为"网站"搜索。

  2. 一些类目后附带的@标记是什么意思呢

  分类类目后面的“@”表示,这个类目也存在于其它的不同分类类目下面。

  3. 搜狐的导航检索类目主要涉及哪些行业或领域?

  目前,搜狐"分类目录"共有十八大类,包括娱乐休闲、工商经济、公司企业、文学、国家与地区、电脑网络、教育、艺术、体育与健身、卫生与健康、生活服务、社会与文化、社会科学、新闻与媒体、科学与技术、旅游与交通、政治与法律、个人主页,五万多不同层次的子类目,形成了一个十分庞大的树枝状结构,几乎涉及到所有行业或领域。

  4. 网站搜索和网页搜索有什么不同?

  搜狐的网站搜索力求信息的"精",充分发挥人工编辑的优势,每个收录的网站都经过浏览和筛选,只收录质量高的网站,保证了检索出的信息质量。如果想查找企业、单位等信息,用网站搜索可以找到比较简洁准确的结果。

  网页搜索一般都是由"spider"采集互联网上的信息,力求信息的"全",并且对信息的揭示更加深入了一步;缺点是信息比较杂乱。用网页搜索适合查找比较具体的信息,比如一首歌、一个产品等。

  搜狐的网站搜索和网页搜索互为补充,满足不同的信息搜索需求。

  5. 什么是“搜狐黄页”

  “搜狐黄页”( http://yp.sohu.com/)是以搜狐访问量巨大的搜索引擎为依托,根据行业和产品分类,收录了大量企业信息的网上电子黄页。企业可以通过“搜狐黄页”宣传自己的产品/服务、促进销售、寻找商业合作伙伴、提高企业知名度。搜狐黄页具有查询方便的特点,查找公司信息不再需要翻一本厚厚的大部头,只需要输入一个关键词,如“建材”、“食品”、“手机”,马上可以找到搜狐黄页中收录的所有相关公司或产品信息。

  6. 搜索引擎的种类

  搜索引擎按其工作的方式分为两类:一类是分类目录型的检索,把因特网中的资源收集起来,由其提供的资源的类型不同而分成不同的目录,再一层层地进行分类,人们要找自己想要的信息可按他们的分类一层层进入,就能最后到达目的地,找到自己想要的信息;另一类是基于关键词的搜索,这种方式用户可以用逻辑组合方式输入各种关键词(Keyword),搜索引擎计算机根据这些关键词寻找用户所需资源的地址,然后根据一定的规则反馈给用户包含此关键字词信息的所有网址。

  7.关键词

  关键词,就是你输入搜索框中的文字,也就是命令搜索引擎寻找的东西。关键词的内容可以是:人名、网站、新闻、小说、软件、游戏、星座、工作、购物、论文等等,可以是任何中文、英文、数字,或中文英文数字的混合体。例如,你可以分别搜索“大话西游”、“windows”、“911”、“F-1赛车”等。你可以输入一个,也可以输入两个、三个、四个(多个关键词之间必须留一个空格)。你甚至可以输入一句话。关键词要求“一字不差”。例如:分别输入“舒淇”和“舒琪”,搜索结果是不同的;分别输入[电脑]和[计算机],搜索结果也是不同的。因此,如果你对搜索结果不满意,建议检查输入文字有无错误,并换用不同的关键词搜索。

  8. 怎样使用搜狐的关键词搜索方式?

  在搜狐的首页(http://www.sohu.com)或搜狐网站的"分类与搜索"主页(http://dir.sohu.com)及其下的任何页面上,您会看见一条状搜索框,在搜索框内输入想要查找的信息的关键词,然后点击"搜索"按纽,就能找到相关的信息。

  9. 如何使用“搜狐黄页”

  可以根据你要找的企业的某项相关信息,比如地区、主要经营模式、主营行业、产品/服务、邮编中的一项或几项内容, 在搜索框内键入关键字,单击旁边的搜索按纽,搜狐黄页搜索引擎会返回搜索结果。搜狐黄页搜索的默认搜索方式是精确查询方式,返回的查询结果是包含完全符合关键字串的企业。

  10. 怎样使用搜狐的目录导航检索方式?

  目录导航检索是按照信息所属的类别层层点击查找信息,您只要遵循一定的查询规律(与图书馆的图书分类法类似),就能很快找到您需要的所有网站信息。用目录导航检索时最关键的是要考虑清楚想要查找的信息属于哪个类别。比如查找"计算机杀毒软件",首先浏览搜狐的十八大类,看到"电脑网络"类目,点击进入,下层有"软件"类目,点击"软件"进入下面有"病毒与安全",再点击"病毒与安全"进入下面有"杀病毒软件",最后点击进入"杀病毒软件"就会找到许多有关杀病毒软件的的网站。

  11. 使用关键词搜索时有那些技巧?

  一: 用最少的词表达清楚所查信息的主题,比如想查流氓兔动画,只需要输入"流氓兔"就可以了,不需要加上"动画",因为"流氓兔"就是一个动画作品。

  二:少用修饰词。不过如果搜索结果太多,可以用修饰词去掉一些不想要的信息。

  三:太长的关键词改用逻辑组合,比如想查孙燕姿的歌曲,可以输入"孙燕姿""歌曲",中间空一格或是加上一个"+"号或者加上"and"组合搜索就可以了,最好不要用"孙燕姿的歌曲"来查,那样会把许多相关的信息漏掉。

  12. 使用目录导航检索方式有哪些技巧?

  一:如果想查找的信息不是很具体,通过搜狐的分类目录搜索通常会比寻找单个的网站来得有效。例如,要找关于体育彩票的信息,在"首页>娱乐休闲>彩票>体育彩票"类目下有许多高质量的网站。这比起通过输入关键字后,在搜索结果页面中一页一页翻动要效率高。

  二:在关键词搜索结果页面中看到了似乎合适的一个网站,可以点击进入列在该网站下面的该网站所在的类目,在这个类目下可能就有许多相关的网站。

  13. 搜索结果怎样排序?

  搜索引擎的搜索结果一般都是按照相关性进行排序,相关性比较高的放在前面,相关性低的放在后面。

  各个搜索引擎确定相关性的原则各有不同,搜狐搜索引擎的相关性排序是将网站的质量、指向这个网站的链接数量多少和与关键词的相关性算法综合起来决定搜索结果的排序(商业性网站除外)。

  14. 用逻辑"与"、"或"、"非"进行高级搜索

  一:网站高级搜索

   逻辑"与"的组合搜索,用空格、"+"、"and"组合,例如,计算机 病毒,计算机+病毒,计算机and病毒; 逻辑"或"的组合搜索,用"or"组合,比如计算机or电脑;

  多条件逻辑组合,比如计算机or电脑and病毒; 中英文数字混检,比如mp3歌曲。

  二: 网页高级搜索 请参考 http://dir.sohu.com/help/advsearch.html

  15.使用双引号进行精确搜索

  简单搜索往往会反馈回大量不需要的信息,如果查找的是一个词组或多个汉字,最好的办法就是将它们用双引号括起来(即在英文输入状态下的双引号),这样得到的结果最少、最精确。例如在搜索引擎的查询框中输入"电脑技术",就等于告诉搜索引擎只反馈回网页中有“电脑技术”这几个关键字的网址,这会比输入电脑技术得到更少、更好的结果。

  16.使用加减号限定查找

  很多搜索引擎都支持在搜索词前冠以加号(+)限定搜索结果中必须包含的词汇,用减号(-) 限定搜索结果不能包含的词汇。 例如:希望搜出得网页中同时包括“盐城、信息、网络”3个关键词时,就可用“盐城+信息+网络”来搜索;再例如:要查找包含“电脑”的网页,但不希望网页中包含“技术”,就可以用“电脑 -技术”来搜索。

  17.不要使用停用词

  一些搜索引擎会忽略这些词,当你把停用词输入搜索框时,不管网上有多少数量的相关文件,它们一个都不会找回来给你。这些被叫做“停用词”(stop words),因为停用词可能太常见了以至于无法搜索出有意义的结果,或者是语言中的副词、连词、介词,或者是"be" 的变体如is、are、were、been等无意义的词,除非它们在一个短语中且有重要的名词和动词相伴。

  18.大写字母

  如果你在搜索关键词中使用大写字母,那么搜索引擎返回的结果将只有一种,其网页中含有大小写跟你的搜索关键词完全相同的单词。象人名和地名之类关键词使用大写字母是个好选择,但是其它对大小写没那么敏感的单词,如果也使用大写字母,可能使你错过很多有用的网页。

  19.词组搜索

  如果只给出一个单词进行搜索,那么将发现数以千计甚至以百万计的匹配网页。然而如果再加上一个单词,那么搜索结果会更加切题。在搜索时,给出两个关键词,并将两个词用AND(与逻辑)结合起来,或者在每个词前面加上加号,这种与逻辑技术大大地缩小了命中范围,从而加快了搜索。幸运的是,所有主要的搜索引擎都使用同样有语法。一个带引号的词组意味着只有完全匹配该词组(包括空格)的网页才是要搜索的网页。例如在搜索说明中,有“this exact phrase(这个确切词组)”这个词组,那么搜索引擎只搜索包含“this exact phrase(这个确切词组)”的网页。

  20.根据要求选择查询方法

  如果需要快速找到一些相关性比较大的信息,可以使用目录式搜索引擎的查找功能。如果想得到某一方面比较系统的资源信息,可以使用目录一级一级地进行查找。如果要找的信息比较冷门,应该用比较大的全文搜索引擎查找。

  21. 搜索行为分析

  搜索行为分析技术的核心是跟踪分析用户的搜索行为,充分地利用这些信息来提高用户的搜索效率。提高搜索行为分析效率的途径主要有两种:“群体行为分析”和“个性化搜索”。现在许多搜索引擎推出的“热门关键词”服务就是一个群体行为分析的典型例子。“热门关键词”随时提供用户使用最多的关键词,用户可以直接点击这些关键词连接。由于人们的从众心理,“热门关键词”往往也是你想查询的关键词。个性化搜索则是搜索行为分析技术最有前途的方向。通过积累用户的搜索个性化数据,将使用户的搜索更加精确,更符合每个用户的需求。

  22.如何缩小搜索范围

  有时查询会得到过多的结果。为得到最实用的资料,您需要进一步缩小查询。这就是"缩小搜索"或"在结果中搜索"。您只要输入更多的关键词筛选查询出来的资料,或者在您想删除的内容前加上减号"-"(切记要在减号前留一个空格位。),即可缩小搜索范围。

  23.最常见的搜索失败(一)

  搜索引擎没有帮你找到草堆中的那根针,而是给了你整个草堆。通常,这种搜索失败有两个原因,这两个原因其实都很容易解决。第一,你用来搜索的关键词太短了,可能只有一两个字。第二,你要搜索的内容太常见了,以至网上有巨大数量的相关内容。

  24.最常见的搜索失败(二)

  网站已搬走;转向地址未知 搜索到的网站已搬走,地址未知。网站就象人,有时会被迫迁移。学生毕业了;网页从免费社区搬到有独立域名的大网站了;人们改变ISP了。当遇上这种事时,你最好赌一下运气,搜索你在寻找的文件的标题或者作者的名字。搜索标题很简单,只要用双引号括起来进行短语搜索就行。

  25.最常见的搜索失败(三)

  上次能搜到的内容,这次却搜不到了。你做了所有努力,可是,上星期还带给你很好搜索结果的搜索请求,这次无论你怎么努力,都只搜索到一堆无用的结果,你想要找的网页已经 不见了。发生了什么事?有关搜索引擎的一个肮脏的小秘密是:搜索引擎永不停息的从它们的索引库中抛弃已索引的网页。有时是成千上万的网页。有时这些被遗弃的网页会重新出现在索引库中,有时不会。

  26常见错误1:错别字

  经常发生的一种错误是,你输入的关键词含有错别字。统计表明,常有大量的错误搜索,光一个谢霆锋就有“谢霆锋”、“谢庭锋”、“谢霆峰”、“谢廷锋”、“谢庭峰”、“谢廷峰”6种查法,还有什么“星际争吧”、“以德制国”之类的,这样的关键词能搜索到什么有用资料吗?所以每当你觉得某种内容网上应该有不少、却搜索不到结果时,你应该先查一下是否有错别字。

  27.常见错误2:关键词太常见

  搜索引擎对常见词的搜索存在缺陷,因为这些词曝光率太高了,以至于出现在成百万网页中,使得它们事实上不能被用来帮你找到什么有用的内容。比如,搜索“电话”, 有无数网站提供跟“电话”相关的信息,从网上黄页到电话零售商到个人电话号码都有。所以当搜索结果太多太乱的时候,你应该尝试使用更多的关键词或者减号来搜索,不使用过于通用的词汇来搜索,设计一个类似“上海 常用电话”这样特殊的搜索关键词,会给你真正有用的结果。当然,如果你想找的是一串汽车网站或一串MP3网站,那么用“汽车”、“MP3”搜索就是正确的。

  28.常见错误3:多义词

  要小心使用多义词,比如搜索“Java”,你要找的信息究竟是太平洋上的一个岛、一种著名的咖啡、还是一种计算机语言?搜索引擎是不能理解辨别多义词的。最好的解决办法是,在搜索之前先问自己这个问题,然后用短语、用多个关键词或者用其他的词语来代替多义词作为搜索关键词。比如用“爪哇 印尼”、“爪哇 咖啡”、“Java 语言”分别搜索可以满足不同的需求。

  29.常见错误4:不会输关键词,想要什么输什么

  搜索失败的另一个常见原因是类似这样的搜索:“现代爱情故事歌词”、“信息早报在济南发行情况”、“铃羊车的各种图案”、“上海到成都列车时刻表”。网友错把搜索引擎当成是听话的服务员了,其实搜索引擎是很机械的,当你用关键词搜索的时候,它只会把含有这个关键词的网页找出来,根本不管网页上的内容是什么。

  30.常见错误5:在错误的地方搜索

  2001年7月23日这一天,正逢高考发榜,各大搜索引擎竟有超过100万次以上的搜索跟高考查分有关。考生们不知道,搜索引擎从抓取网页、解析、索引到提供搜索是有一个周期的,各搜索引擎的信息滞后周期从一周到一月不等,所以找最新内容应该去看新闻,用搜索引擎是找不到最新内容,只能找到一个星期或一个月以前的内容。另外,搜索引擎对动态内容,如:论坛、数据库内容,以及带frame结构的网页搜索能力较弱,所以这类信息也不适合用搜索引擎搜索,而是应该去相关的网站寻找,当然,寻找相关网站的任务搜索引擎是当仁不让的。

比较Google和百度收录网站页面的区别

         Google和Baidu收录网站页面的标准是不同的。我用一句话来形容,就是Google更乐于收录大站的页面,百度则乐于收录新站的页面。

  为此我做一个实验:先申请了一个新域名,在上面放一个网站,然后不在其他任何网站做链接,而直接往百度和Google搜索引擎的提交页面进行提交。一个月过去了,百度收录的网页是24,900篇,Google收录的网页是0,这证实了我以前的猜测。

  这说明了什么呢?说明百度比Google好吗?绝对不是的。因为Baidu和Google收录页面的标准是完全不同的。

  Google是按照网页级别(PageRank)来收录的,只要网站有一定的网页级别,Google会快速收录的,而没有网页级别的网站,Google则坚决不去收录。Baidu则很夸张,采用的是来者不拒,多多益善的原则,无休止的进行收录。Baidu的这种不按网页级别的收录方式其实有很大的恶果,最主要的恶果是造成大量的垃圾网站流行,因为只要做一个垃圾站,Baidu就会立刻收录(25000页以内),这等于变相的鼓励大家去做垃圾站,去盲目采集。当垃圾站横行的时候,Baidu再通过人工的方式封站,甚至一些百度业务员对于大流量的网站还会要求其站长办理百度竞价排名。

  这两种收录方式哪种更好呢?我个人认为Google的这种收录方式是比较科学的。因为互联网上的页面是个天文数字,收录应该是有选择的收录,好的网站则多收录,新站则应该少收录,等其慢慢知名了以后再多收录,这样也提高了效率,让用户搜索到更好的页面而不是更多的页面。如果对于新站不做分析就快速收录,那么会使得从技术上对抗恶意网站作弊(SEO)变得非常困难,Google通过给予新站给出一定的“考察期”来分析这个新站是否是作弊的垃圾站,而百度就只能依靠人工方式手动地删除垃圾站。对于收录网站的具体操作上,Google的爬虫显得较为“体贴”站长-Google爬虫占用服务器的资源非常少,通常是先用head来查看网页是否更新,如果更新了再抓取整个页面,这种方法耗费流量较少。而百度则不管三七二十一上来就抓整个站,有时甚至不遵守robots规则,而且其爬虫数量非常庞大,对于页面较多的网站通常会耗费惊人的流量,并且常常造成恶劣的后果。

  当然,百度这种“贪婪”爬虫抓取方法,虽然会让用户能够在百度搜索出一些Google里搜索不到的页面,但这实在是损人利己。其带给网站站长不少负面效果:服务器和带宽资源过度消耗,垃圾站被变相鼓励了,原创的有特色的网站则被边缘化,MP3音乐网站则更苦不堪言-自己的MP3被百度盗链后带来大量文件下载却没有带来页面访问。

  因此,中国的网民也出现了很奇怪的现象:大量的新网民和菜鸟新手喜欢用百度搜索,因为百度往往搜索到很多别处搜索不到的页面,但内容的匹配度则令人质疑,而专业人士和老鸟则更喜欢用Google,个人站长则普遍和百度有“个人恩怨”。因此百度在业界的Blog以及社区中口碑都不太好,但在普通的低层次的网民心中却不错,这些大量的普通网民给百度带来了大量流量。

分页:[«]1[2][»]

Copyright ® 2008-2010   TradeKey中国代理  SiteMap  ATOM  RSS  闽ICP备08002439号