Apache Hadoop 和Hadoop生态圈

   2023-02-10 学习力0
核心提示:Apache Hadoop 和Hadoop生态圈Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户能够在不了解分布式底层细节的情况下。开发分布式程序。充分利用集群的威力进行快速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File Sys

Apache Hadoop Hadoop生态圈


Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户能够在不了解分布式底层细节的情况下。开发分布式程序。充分利用集群的威力进行快速运算和存储。


Hadoop实现了一个分布式文件系统Hadoop Distributed File System),简称HDFS

HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。并且它提供高吞吐量(high throughput)来訪问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。

HDFS放宽了(relaxPOSIX的要求。能够以流的形式訪问(streaming access)文件系统中的数据。

Hadoop的框架最核心的设计就是:HDFSMapReduce

HDFS为海量的数据提供了存储。则MapReduce为海量的数据提供了计算。

 

虽然HadoopMapReduce及其分布式文件系统HDFS而出名,但Hadoop这个名字也用于一组相关项目的统称,这些相关项目都使用这个基础平台进行分布式计算和海量数据处理。


Hadoop Common:

一组分布式文件系统和通用I/O的组件与接口(序列化,Java RPC 和持久化数据结构)

 

HDFS: Hadoop分布式文件系统(Distributed File System) - HDFS (Hadoop Distributed File System)。执行于大型商用机集群


MapReduce

分布式数据处理模型和执行环境,执行于大型商用机集群


HBase

一个分布式、按列存储数据库。HBase使用HDFS作为底层存储,同一时候支持MapReduce的批量式计算和点查询(随机读取)。


Hive:数据仓库工具。由Facebook贡献。一种分布式、按列存储的数据仓库。

Hive管理HDFS中存储的数据。并提供基于SQL的查询语言(有执行时引擎翻译成MapReduce作业)用以查询数据。


Zookeeper:分布式锁设施,提供类似Google Chubby的功能,由Facebook贡献。

一种分布式、可用性高的协调服务。提供分布式锁之类的基本服务用于构建分布式应用。


Avro:一种支持高效、跨语言的RPC以及永久存储数据的序列化系统。新的数据序列化格式与传输工具,将逐步代替Hadoop原有的IPC机制。


Pig: 

大数据分析平台。为用户提供多种接口。

一种数据流语言和执行环境,用以检索很大的数据集。Pig执行在MapReduceHDFS的集群上。


Ambari

Hadoop管理工具。能够快捷的监控、部署、管理集群。


Sqoop

在数据库和HDFS之间高效数据传输的工具。

 

 

參考文献:

http://baike.baidu.com/link?url=5TXA32tcYO3i-xO4cIMNT4b6EJv9rNo-2hO7L5FpZsEzeSHMh_BXS8d9yX4T80El7rGMUMMCgVRVfx-8a-Dl2q

 

http://hadoop.apache.org

 

Hadoop权威指南》

 
反对 0举报 0 评论 0
 

免责声明:本文仅代表作者个人观点,与乐学笔记(本网)无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
    本网站有部分内容均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,若因作品内容、知识产权、版权和其他问题,请及时提供相关证明等材料并与我们留言联系,本网站将在规定时间内给予删除等相关处理.

  • Apache80端口被占用解决办法
    Apache80端口被占用解决办法
    1. win+R,输入 cmd,打开命令行窗口2. 命令行输入netstat -ano3. 找到80端口及对应进程 4. 在任务管理器中的进程处查看与上述80端口对应的PID相同的进程,并关闭。如果没有PID,选择“查看”--"选择列"--勾选“PID”。4. 关闭进程。如果进程为上述系统服务,
    03-08
  • Hadoop中mapreduce运行WordCount程序报错Error:
    这个问题是因为map的方法参数与继承mapper定义的参数类型不一致导致的,应该将Mapper的key参数类型设置成Object,就可以解决这个问题 
    03-08
  • 使用 Apache Hudi 实现 SCD-2(渐变维度)
    使用 Apache Hudi 实现 SCD-2(渐变维度)
    数据是当今分析世界的宝贵资产。 在向最终用户提供数据时,跟踪数据在一段时间内的变化非常重要。 渐变维度 (SCD) 是随时间推移存储和管理当前和历史数据的维度。 在 SCD 的类型中,我们将特别关注类型 2(SCD 2),它保留了值的完整历史。 每条记录都包含有
    03-08
  • 一个用 Python 分析 Apache 日志的故事
    一个用 Python 分析 Apache 日志的故事
    介绍不久前,公司里有人告诉我“我想知道 Apache 的访问日志是否可以用来做一些事情”。数据分析,Apache,发文章,我是初学者,写的不好请见谅。访问日志分析导入模块我正在使用以下模块。# データの処理import pandas as pdimport numpy as np# グラフ表示i
    03-08
  • [转]用apache反向代理解决单外网ip对应内网多个
    用apache反向代理解决单外网ip对应内网多个web主机的问题  转载一个有独立外网IP,需内网服务器对外发布的例子,是应用apache虚拟主机的。来源地址:http://www.itshantou.com/Servers/web/06/10/44219.html    几年前开始在学校的服务器上建网站,那时
    02-10
  • Apache service named reported the following
    apache启动失败报错:The Apache service named reported the following error: AH00451: no listening sockets available, shutting down . The Apache service named reported the following error: (OS 10055)由于系统缓冲区空间不足或队列已满,不能执行
    02-10
  • struts布局管理---SiteMesh一个优于Apache Tile
    1. SiteMesh的基本原理       一个请求到服务器后,如果该请求需要sitemesh装饰,服务器先解释被请求的资源,然后根据配置文件 获得用于该请求的装饰器,最后用装饰器装饰被请求资源,将结果一同返回给客户端浏览器。 2. 如何使用SiteMesh    这里以st
    02-10
  • linux 安装 apache2.2.31
     Linux下安装和配置Apache 概要:本文介绍在CentOS5.4 Linux中安装和配置Apache2.2.14,并且实现Apache和Tomcat6的整合。文章分为三部分,分别是删除系统自带的Apache、安装Apache2.2.14和配置Apache2.2.14。 文章中介绍的知识也可以在其它版本的Linux中
    02-10
  • Apache CXF使用Jetty发布WebService
    Apache CXF使用Jetty发布WebService
    一、概述Apache CXF提供了用于方便地构建和开发WebService的可靠基础架构。它允许创建高性能和可扩展的服务,可以部署在Tomcat和基于Spring的轻量级容器中,也可以部署在更高级的服务器上,例如Jboss、WebSphere或WebLogic。 CXF提供了以下功能:WebService
    02-10
  • apache下ab.exe使用方法。。 apache ab工具
    自己在cmd中写了半天的路径也没有写对。。最后网上的一个哥们告诉我说没有共同语言了。。。毛线啊 差距确实很大!大能猫死panda早晚干掉你,叫你丫整天嘲讽我!比如我的ab.exe在D盘的wamp文件夹下apache文件夹下bin文件夹下。那么在cmd中可以这么写:"D:\wamp
    02-10
点击排行