大数据分析的Hadoop是什么?
在之前的博客《大数据教程》中,我们已经详细讨论了大数据及其挑战。在这篇博客中,我们将讨论:
1,传统方法的问题
2.Hadoop的发展
3.Hadoop
4.Hadoop即用型解决方案
5.什么时候用Hadoop?
6.什么时候不用Hadoop?
首先,欧洲核子研究中心的案例研究
大数据正在成为组织的机遇。现在,组织已经意识到他们可以从大数据分析中获得许多好处,如下图所示。他们正在检查大型数据集,以发现所有隐藏的模式、未知的相关性、市场趋势、客户偏好和其他有用的商业信息。
这些分析结果有助于组织实施更有效的营销、新的收入机会和更好的客户服务。他们正在提高运营效率、与竞争对手相比的竞争优势以及其他业务优势。
什么是Hadoop——大数据分析的优势?
因此,让我们继续前进,了解与实现大数据机会的传统方法相关的问题。
第二,传统方法存在的问题
在传统方法中,主要问题是处理数据的异构性,即结构化、半结构化和非结构化。RDBMS主要关注银行交易和运营数据等结构化数据,而Hadoop主要关注文本、视频、音频、脸书帖子和日志等半结构化和非结构化数据。RDBMS技术是一个经过验证的、高度一致的、成熟的系统,受到许多公司的支持。另一方面,因为大数据(主要由不同格式的非结构化数据组成),所以需要Hadoop。
现在我们来了解一下大数据相关的主要问题有哪些。因此,向前看,我们可以理解Hadoop是如何成为一种解决方案的。
什么是Hadoop–大数据问题?
第一个问题是存储大量数据。
大量数据无法存储在传统系统中。显然,存储将被限制在一个系统中,数据正以惊人的速度增长。
第二个问题是存储异构数据。
现在,我们知道存储是一个问题,但让我告诉你,这只是问题的一部分。因为我们讨论过,数据不仅庞大,而且以非结构化、半结构化、结构化等多种格式存在。因此,您需要确保有一个系统来存储从各种来源生成的所有这些类型的数据。
第三个问题是访问和处理的速度。
硬盘容量在增加,但磁盘传输速度或访问速度并没有以类似的速度增加。我举个例子给你解释一下:如果你只有一个100 Mbps的I/O通道,而你正在处理1TB的数据,大概需要2.91小时。现在,如果您有四台具有一个I/O通道的计算机,那么同样数量的数据将需要大约43分钟。所以相比存储大数据,访问和处理速度是更大的问题。
在了解Hadoop是什么之前,我们先来了解一下Hadoop在一段时间内的发展。
Hadoop的发展
2003年,Doug Cutting启动了Nutch项目,处理数十亿次搜索,并对数百万个网页进行索引。65438年6月下旬+2003年10月——Google用GFS(Google文件系统)发表论文。从2004年6月5日到2月,Google发表了MapReduce论文。2005年,Nutch使用GFS和MapReduce进行运营。2006年,雅虎与Doug Cutting及其团队合作,基于GFS和MapReduce创建了Hadoop。如果我告诉你,你会大吃一惊。2007年,雅虎开始在1000个节点的集群上使用Hadoop。
2008年6月下旬,雅虎向Apache软件基金会发布了Hadoop开源项目。2008年7月,Apache通过Hadoop成功测试了4000个节点的集群。2009年,Hadoop在不到17小时的时间内成功整理了PB级数据,处理了数十亿次搜索并索引了数百万个网页。2011 65438+2月,Apache Hadoop发布版本1.0。2013年8月下旬,2.0.6版本发布。
当我们讨论这些问题时,发现分布式系统可以是一种解决方案,Hadoop提供了同样的解决方案。现在,我们来了解一下什么是Hadoop。
三、Hadoop是什么?
Hadoop是一个框架,允许你先把大数据存储在分布式环境中,这样就可以并行处理。Hadoop中基本上有两个组件:
1,大数据Hadoop认证培训
2.教师指导课程:现实生活中的案例研究和评估;终身参观探索课程。
什么是Hadoop–Hadoop框架?
第一个是用于存储的HDFS(Hadoop分布式文件系统),它使您能够在集群中以各种格式存储数据。第二个是YARN,用于Hadoop中的资源管理。它允许并行处理数据,也就是说,跨HDFS存储数据。
让我们先来了解一下HDFS。
HDFS
HDFS创造了一个抽象概念,让我简化一下。与虚拟化类似,您可以从逻辑上将HDFS视为存储大数据的单个单元,但实际上您是以分布式方式跨多个节点存储数据。HDFS遵循主从架构。
什么是Hadoop–HDFS?
在HDFS,名称节点是主节点,数据节点是从节点。Namenode包含关于存储在数据节点中的数据的元数据,例如哪个数据块存储在哪个数据节点中,以及数据块被复制到哪里。实际数据存储在数据节点中。
我还要补充一点,我们实际上复制了数据节点中存在的数据块,默认的复制因子是3。因为我们使用商业硬件,并且我们知道这些硬件的故障率非常高,所以如果其中一个数据节点出现故障,HDFS仍将拥有这些丢失数据块的副本。您还可以根据需要配置复制因子。你可以阅读HDFS指南来了解更多关于HDFS的信息。
第四,Hadoop是解决方案。
让我们了解一下Hadoop是如何为刚刚讨论的大数据问题提供解决方案的。
什么是Hadoop–Hadoop就是解决方案。
第一个问题是存储大数据。
HDFS提供了一种存储大数据的分布式方法。您的数据存储在整个DataNode中的块中,您可以指定块的大小。基本上,如果您有512MB的数据并配置了HDFS,它将创建128MB的数据块。因此,HDFS将数据分为512/128 = 4四个块,存储在不同的datanode上,并将数据块复制到不同的datanode上。现在,因为我们使用的是商用硬件,存储不再是问题。
它还解决了缩放问题。它侧重于水平缩放而不是垂直缩放。您总是可以根据需要向HDFS集群添加一些额外的DataNodes,而不是扩展数据节点的资源。我给你总结一下,基本上就是用来存储1 TB的数据,不需要1 TB的系统。您可以在128GB或更少的多个系统上执行此操作。
接下来的问题是存储各种数据。
借助HDFS,您可以存储各种数据,无论是结构化、半结构化还是非结构化数据。因为在HDFS,没有预转储模式验证。它也遵循一次写入多次读取的模式。所以,你只需要写一次数据,就可以多次读取数据,找到真知灼见。
Hird的挑战是更快地访问和处理数据。
是的,这是大数据的主要挑战之一。为了解决这个问题,我们将处理转移到数据,而不是将数据转移到处理。这是什么意思?而不是将数据移动到主节点然后处理它。在MapReduce中,处理逻辑被发送到每个从节点,然后在不同的从节点之间并行处理数据。然后,处理后的结果被发送到主节点,在那里结果被合并,响应被发送回客户机。
在YARN架构中,我们有ResourceManager和NodeManager。ResourceManager可能与NameNode配置在同一台计算机上,也可能不在同一台计算机上。但是,应该在DataNode所在的同一台计算机上配置NodeManager。
YARN通过分配资源和调度任务来执行所有的处理活动。
什么是Hadoop-yarn?
它有两个主要组件,即资源管理器和节点管理器。
ResourceManager再次成为主节点。它接收处理请求,然后将请求的每个部分传递给相应的节点管理器。什么是大数据分析Hadoop在这里做实际的处理。NodeManager安装在每个DataNode上。它负责在每个单独的DataNode上执行任务。
我希望现在您对Hadoop及其主要组件有所了解。让我们继续学习什么时候使用Hadoop,什么时候不使用它。
什么时候用Hadoop?
Hadoop用于:
1,搜索–雅虎、亚马逊、Zvents
2.日志处理-脸书,雅虎
3.数据仓库-美国在线脸书
4.视频和图像分析——纽约时报。
到目前为止,我们已经看到了Hadoop如何使大数据处理成为可能。但是,在某些情况下,不建议使用Hadoop。