打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍
来源:https://blog.csdn.net/zzq900503/article/details/52944572
标签:Hadoop,Cloudera Manager, CDH
收藏:株野
作者:张小凡vip
日期:2016年11月26日 18:23:11
我们在之前的文章中已经初步介绍了Cloudera。
hadoop基础----hadoop实战(零)-----hadoop的平台版本选择
从版本选择这篇文章中我们了解到除了hadoop官方版本外很多公司都对hadoop进行了改版发布,其中Cloudera就是其中最成型的发行版本,并且配备了相应的管理工具。
本篇文章我们就来学习Cloudera的相关知识。
什么是CDH
Cloudera's Distribution for Hadoop(即Cloudera公司发布的Hadoop,简称CDH)基于最新稳定版本的Apache Hadoop,有许多补丁、向后移植和更新。Cloudera公司以多种不同的形式进行发布,包括源码和二进制tar文件、RPM ,  Debian包、VMware image和在云上运行CDH的脚本。CDH是在Apache 2.0许可下发布的自由软件,用户可从 获得。
为了简化部署,Cloudera还在公共的yum和apt存储库中提供了若干个包,因此只用一条指令就能在计算机上安装和配置Hadoop。即使是新手用户,不借助手册也可成功安装整个Hadoop集群。
CDH支持的组件
CDH管理着跨组件版本,并提供一个稳定的平台供许多包一起运行。以CDH3为例,它包含下列包,其中许多包都是需要我们去学习掌握的:
HDFS—自我修复的分布式文件系统
MapReduce—强大的并行数据处理框架
Hadoop Common—一组支持Hadoop子项目的工具
HBase—支持随机读/写访问的Hadoop数据库
Hive—在大数据集合上的类SQL查询和表
Pig—数据流语言和编译器
Oozie—针对互相依赖的Hadoop作业的工作流
Sqoop—利用集成到Hadoop的数据库和数据仓库
Flume—高可靠、可配置的数据流集合
Zookeeper—面向分布式应用的协调服务
Hue—可视化Hadoop应用的用户接口框架和SDK
目前最新版本的CDH包含了哪些组件可查看(当然越新版本的支持的组件越多)
http://www.cloudera.com/developers/inside-cdh.html
组件的详细版本号只能在安装完成后才能查看出来,我目前没有在官网中找到对应表。
至于之前版本哪些组件最少需要哪个CDH的版本可查看
http://www.cloudera.com/documentation/enterprise/release-notes/topics/rn_consolidated_pcm.html
要下载CDH,请访问 。
更多cloudera的信息可查看官网http://www.cloudera.com/
CDH(Cloudera)与hadoop(apache官方)对比
(1) CDH对Hadoop版本的划分非常清晰,只有两个系列的版本,分别是cdh3和cdh4,分别对应第一代Hadoop(Hadoop 1.0)和第二代Hadoop(Hadoop 2.0),相比而言,Apache版本则混乱得多;比Apache hadoop在兼容性,安全性,稳定性上有增强。
(2)CDH3版本是基于Apache  hadoop  0.20.2改进的,并融入了最新的patch,CDH4版本是基于Apache hadoop 2.X改进的,CDH总
是并应用了最新Bug修复或者Feature的Patch,并比Apache hadoop同功能版本提早发布,更新速度比Apache官方快。
(3)安全 CDH支持Kerberos安全认证,apache hadoop则使用简陋的用户名匹配认证
(4)CDH文档清晰,很多采用Apache版本的用户都会阅读CDH提供的文档,包括安装文档、升级文档等。
(5)CDH支持Yum/Apt包,Tar包,RPM包,CM安装,Cloudera Manager三种方式安装,Apache hadoop只支持Tar包安装。
注:CDH使用推荐的Yum/Apt包安装时,有以下几个好处:
1、联网安装、升级,非常方便
2、自动下载依赖软件包
3、Hadoop生态系统包自动匹配,不需要你寻找与当前Hadoop匹配的Hbase,Flume,Hive等软件,Yum/Apt会根据当前安装Hadoop版本自动寻找匹配版本的软件包,并保证兼容性。
4、自动创建相关目录并软链到合适的地方(如conf和logs等目录);自动创建hdfs, mapred用户,hdfs用户是HDFS的最高权限用户,mapred用户则负责mapreduce执行过程中相关目录的权限。
CDH版本介绍
Cloudera公司的发行版,我们将该版本称为CDH。
很多新手问的最多的问题是,哪个是收费的,那个是免费的。
Cloudera Express版本是免费的
Cloudera Enterprise是需要购买注册码的
截至目前为止,CDH共有5个版本,其中,前两个已经不再更新,最近的两个,分别是CDH4在Apache Hadoop 2.0.0版本基础上演化而来的),CDH5,它们每隔一段时间便会更新一次。
Cloudera以patch level划分小版本,比如patch level为923.142表示在原生态Apache Hadoop 0.20.2基础上添加了1065个patch(这些patch是各个公司或者个人贡献的,在Hadoop jira上均有记录),其中923个是最后一个beta版本添加的patch,而142个是稳定版发行后新添加的patch。由此可见,patch level越高,功能越完备且解决的bug越多。
Cloudera版本层次更加清晰,且它提供了适用于各种操作系统的Hadoop安装包,可直接使用apt-get或者yum命令进行安装,更加省事。
版本含义介绍
各版本特性查看
http://www.cloudera.com/documentation/enterprise/release-notes/topics/rg_release_notes_cdh.html
安装包下载
各个版本包的地址:
Cloudera文档汇总
http://www.cloudera.com/content/support/en/documentation.html
CDH4、CDH5包汇总
http://archive.cloudera.com/cdh4/
http://archive.cloudera.com/cdh5/
CM4、CM5包汇总
http://archive.cloudera.com/cm4/
http://archive.cloudera.com/cm5/
官网CDH5下载
http://www.cloudera.com/content/ ... /cdh/cdh-5-1-0.html
以前版本地址:
CDH1~CDH3
http://archive-primary.cloudera.com/cdh/
安装方式
CM(Cloudera Manager)有三种安装方式
第一种使用cloudera-manager-installer.bin在线安装
这种安装方式需要所有机子能上网,只要从官网下载cloudera-manager-installer.bin,然后执行这个bin文件,剩下的就是等待下载和安装。但是这个时间不是一般的长,最好吃个饭,睡个觉,最后看到还在安装过程中。而且网速不好的话有可能会中断。但是是最方便的。
第二种使用rpm、yum、apt-get方式在线安装
这种安装方式也是在线安装需要机子能上网,在网上看的有点眼花缭乱,可能是因为我们对yum、apt、rpm了解的不多造成的,对于Linux基础缺乏的,可以多学习一下这几个linux命令,总的来说:由于rpm依赖关系不好,所以产生了yum,而yum和apt则都是Linux的包管理工具,并且解决了包与包的依赖关系。
第三种使用是Tarballs的方式离线安装
这种方式使用的是tar包,跟hadoop的安装方式是一样的。
我们将在下一篇文章中进行详细的安装步骤记录。
官网对于安装的介绍可查看
http://www.cloudera.com/documentation/enterprise/latest/topics/installation_installation.html
安装失败的处理
由于内存不足或者操作步骤不对,缺失等等原因可能导致安装失败,这时候不能直接第二次安装,需要把cloudrea卸载干净才能进行第二次安装。
卸载的详细步骤我们在后续的文章中会详细记录。
目录结构
由于我们大多采用在线安装的方式,所以初学者根本不知道cloudera安装在了什么位置,详细的目录分析我们在后续的文章中会记录。
CDH开发
CDH开发跟之前我们的hadoop开发其实是一样的,没什么大的区别,还是有2种方式:
一种是安装插件在eclipse中,配置好参数后run on hadoop直接在搭建好的集群中运行。
另一种是自己添加需要的包,在本地测试好方法之后打包成jar上传到linux中在hadoop集群中运行。
详细步骤可参考:
hadoop基础----hadoop实战(四)-----myeclipse开发MapReduce---myeclipse搭建hadoop开发环境并运行wordcount
注意事项
cloudera CM的安装比起hadoop集群的安装对硬件的要求更高。如果是在一台机子中的虚拟机中安装,那这台机子内存至少10G,为什么会这么多,如果少于10G是否可以,答案是可以的,但是后面你会遇到各种问题,或许都找不到答案。
对于cloudera-scm-server就需要至少4G的内存,cloudera-scm-agent的内存至少也需要1.5G以上。那么如果你的机器是8G的,还是很吃力的。
在安装的过程中,后面有很多的服务安装遇到问题的可能性是很大的。
参考文章
http://www.aboutyun.com/thread-9219-1-1.html
本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
Cloudera的CDH和Apache的Hadoop的区别
Hadoop版本选择探讨
TDH与CDH简介
Apache Hadoop与第三方Hadoop-CDH,HDP,MapR的分析与比较
Hadoop管理的十个最佳实践
kettle入门(三) 之kettle连接hadoop&hdfs图文详解
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服