作者 InfoQ中文站 发布于 2012年2月25日
互联网产品形形色色,有产品导向的,有营销导向的,也有技术导向的,但是以技术见长的互联网产品比例相对小些。搜索引擎是目前互联网产品中最具技术含量的产品,如果不是唯一,至少也是其中之一。
经过十几年的发展,搜索引擎已经成为互联网的重要入口之一,Twitter联合创始人埃文?威廉姆斯提出了“域名已死论”:好记的域名不再重要,因为人们会通过搜索进入网站。搜索引擎排名对于中小网站流量来说至关重要。了解搜索引擎简单界面背后的技术原理其实对很多人都很重要。
最初写本搜索引擎技术书籍的想法萌生于两年前,当时的场景是要给团队成员做搜索技术培训,但是我找遍了相关图书,却没有发现非常合适的搜索技术入门书籍。当时市面上的书籍,要么是信息检索理论方面的专著,理论性太强不易懂,而且真正讲搜索引擎技术的章节并不太多;要么是Lucene代码分析这种过于实务的书籍,像搜索引擎这种充满算法的应用,直接分析开源系统代码并不是非常高效的学习方式。所以当时萌生了写一本既通俗易懂,适合没有相关技术背景的人员阅读,又比较全面,且融入最新技术的搜索引擎书籍,但是真正动手开始写是一年前的事情了。
写书前我给自己定了几个目标。首先内容要全面,即全面覆盖搜索引擎相关技术的主要方面,不仅要包含倒排索引、检索模型和爬虫等常见内容,也要详细讲解链接分析、网页反作弊、用户搜索意图分析、云存储及网页去重,甚至是搜索引擎缓存等内容,这些都是一个完整搜索引擎的有机构成部分,但是详述其原理的书籍并不多,我希望能够尽可能全面些。
第二个目标是通俗易懂。我希望没有任何相关技术背景的人也能够通过阅读这本书有所收获,最好是不懂技术的同学也能大致看懂。这个目标看似简单,其实很不容易达到,我也不敢说这本书已经达到了此目的,但是确实已经尽自己所能去做了。至于具体的措施,则包含以下三个方面。
第三个目标是强调新现象新技术,比如Google的咖啡因系统及Megastore等云存储系统、Pregel云图计算模型、暗网爬取技术、Web 2.0网页作弊、机器学习排序、情境搜索、社会化搜索等在相关章节都有讲解。
第四个目标是强调原理,不纠缠技术细节。对于新手一个易犯的毛病是喜欢抠细节,只见树木不见森林,搞明白了一个公式却不了解其背后的基本思想和出发点。我接触的技术人员很多,十有七八会有这个特点。这里有个“道术孰优”的问题,何为“道”?何为“术”?举个例子的话,《孙子兵法》是道,而《三十六计》则为术。“道”所述,是宏观的、原理性的、长久不变的基本原理,而“术”则是在遵循基本原理基础上的具体手段和措施,具有易变性。技术也是如此,算法本身的细节是“术”,算法体现的基本思想则是“道”,知“道”而学“术”,两者虽不可偏废,但是若要选择优先级的话,无疑我会选择先“道”后“术”。
以上四点是写书前定下的目标,现在书写完了,也许很多地方不能达到最初的期望,但是尽了力就好。写书的过程很辛苦,起码比我原先想象的要辛苦,因为工作繁忙,所以只能每天早早起床,再加上周末及节假日的时间来完成。也许书中还存在这样那样的缺点,但是我可以无愧地说写这本书是有诚意的。
如果您是下列人员之一,那么本书就是写给您的。
如果您对其中三个以上的问题感兴趣,那么这本书就是为您而写的。
如果您对上述问题感兴趣,相信可以从书中找到答案。
最近有一批电子商务网站针对搜索引擎优化,结果被Google认为是黑帽SEO而导致搜索排名降权,如何避免这种情况?从事相关行业的营销人员和网站站长应该深入了解搜索引擎反作弊的基本策略和方法,甚至是网页排名算法等搜索引擎核心技术。SEO技术说到底其实很简单,虽然不断发生变化,但是很多原理性的策略总是相似的,万变不离其宗,深入了解搜索引擎相关技术原理将形成您的行业竞争优势。
作者: 张俊林
欢迎您 免费下载这本书(PDF) ::...
或是邮件反馈可也:
askdama[AT]googlegroups.com
订阅 substack 体验古早写作:
关注公众号, 持续获得相关各种嗯哼: