聊聊Doug Cutting

1998年9月4日，Google公司在美国硅谷成立。正如大家所知，它是一家做搜索引擎起家的公司。
2022-08-12T06:06:00.png

无独有偶，一位名叫Doug Cutting的美国工程师，也迷上了搜索引擎。他做了一个用于文本搜索的函
数库（姑且理解为软件的功能组件），命名为Lucene。
2022-08-12T06:06:45.png

Lucene是用JAVA写成的，目标是为各种中小型应用软件加入全文检索功能。因为好用而且开源（代码公
开），非常受程序员们的欢迎。
早期的时候，这个项目被发布在Doug Cutting的个人网站和SourceForge（一个开源软件网站）。后
来，2001年底，Lucene成为Apache软件基金会jakarta项目的一个子项目。
2004年，Doug Cutting再接再励，在Lucene的基础上，和Apache开源伙伴Mike Cafarella合作，开发
了一款可以代替当时的主流搜索的开源搜索引擎，命名为Nutch。
2022-08-12T06:07:25.png

Nutch是一个建立在Lucene核心之上的网页搜索应用程序，可以下载下来直接使用。它在Lucene的基础
上加了网络爬虫和一些网页相关的功能，目的就是从一个简单的站内检索推广到全球网络的搜索上，就
像Google一样。
Nutch在业界的影响力比Lucene更大。
大批网站采用了Nutch平台，大大降低了技术门槛，使低成本的普通计算机取代高价的Web服务器成为
可能。甚至有一段时间，在硅谷有了一股用Nutch低成本创业的潮流。
随着时间的推移，无论是Google还是Nutch，都面临搜索对象“体积”不断增大的问题。
尤其是Google，作为互联网搜索引擎，需要存储大量的网页，并不断优化自己的搜索算法，提升搜索效
率。
2022-08-12T06:08:17.png

在这个过程中，Google确实找到了不少好办法，并且无私地分享了出来。
2003年，Google发表了一篇技术学术论文，公开介绍了自己的谷歌文件系统GFS（Google File
System）。这是Google公司为了存储海量搜索数据而设计的专用文件系统。
第二年，也就是2004年，Doug Cutting基于Google的GFS论文，实现了分布式文件存储系统，并将它
命名为NDFS（Nutch Distributed File System）。
2022-08-12T06:08:49.png

还是2004年，Google又发表了一篇技术学术论文，介绍自己的MapReduce编程模型。这个编程模型，
用于大规模数据集（大于1TB）的并行分析运算。
第二年（2005年），Doug Cutting又基于MapReduce，在Nutch搜索引擎实现了该功能。
2022-08-12T06:09:24.png

2006年，当时依然很厉害的Yahoo（雅虎）公司，招安了Doug Cutting。
2022-08-12T06:09:42.png

加盟Yahoo之后，Doug Cutting将NDFS和MapReduce进行了升级改造，并重新命名为
Hadoop（NDFS也改名为HDFS，Hadoop Distributed File System）。
这个，就是后来大名鼎鼎的大数据框架系统——Hadoop的由来。而Doug Cutting，则被人们称为
Hadoop之父。
2022-08-12T06:10:28.png

还是2006年，Google又发论文了。
这次，它们介绍了自己的BigTable。这是一种分布式数据存储系统，一种用来处理海量数据的非关系型
数据库。
Doug Cutting当然没有放过，在自己的hadoop系统里面，引入了BigTable，并命名为HBase。
2022-08-12T06:11:16.png

2008年1月，Hadoop成功上位，正式成为Apache基金会的顶级项目
同年2月，Yahoo宣布建成了一个拥有1万个内核的Hadoop集群，并将自己的搜索引擎产品部署在上
面。
7月，Hadoop打破世界纪录，成为最快排序1TB数据的系统，用时209秒。
Lucene是一套信息检索工具包，并不包含搜索引擎系统，它包含了索引结构、读写索引工具、相关性工
具、排序等功能，因此在使用Lucene时仍需要关注搜索引擎系统，例如数据获取、解析、分词等方面的
东西。
为什么要给大家介绍下Lucene呢，因为我们学过的solr 和即将要学习的elasticsearch都是基于该工具包
做的一些封装和增强罢了~

Elasticsearch的前后今生(B站狂神)