Hadoop本质上起源于()的集群系统
hadoop本质的由来如下:
Hadoop源于2002年开始的Apache Nutch项目。是阿帕奇吗?Lucene的子项目之一。2004年,Google在“操作系统的设计与实现”大会上发表了一篇名为MapReduce:大型集群上的简化数据处理(MapReduce:Simplified Data Processing on the Large Clusters)的论文。
开明的Doug Cutting等人开始尝试实现MapReduce计算框架,并将其与NDFS (Nutch分布式文件系统)相结合,以支持Nutch引擎的主要算法。因为NDFS和MapReduce在Nutch引擎中有很好的应用。
它们在2006年2月被分离出来,成为一个完整独立的软件,被命名为Hadoop。到2008年初,hadoop已经成为Apache的顶级项目,包括很多子项目,应用于包括雅虎在内的很多互联网公司。
Hadoop的发展现状
在设计之初,目标就是高可靠性、高可扩展性、高容错性和高效率。正是这些设计上的先天优势,使得Hadoop一出现就受到很多大公司的青睐,同时也引起了研究领域的广泛关注。
Hadoop技术已经广泛应用于互联网领域。百度使用Hadoop每周处理200TB的数据,从而进行搜索日志分析和web数据挖掘。国内高校和科研院所基于Hadoop进行数据存储、资源管理、作业调度、性能优化、系统高可用性和安全性等方面的研究,大部分相关研究成果以开源的形式贡献给Hadoop社区。