Hortonworks, 快速上手 Hadoop 的套件
发布网友
发布时间:2024-10-01 04:03
我来回答
共1个回答
热心网友
时间:2024-10-21 04:51
在大数据环境之下,SQL Server 的存储成本不断攀升,日志增长量超乎预期,频繁出现空间不足导致的应用异常。此外,查询需求多样化,在海量数据中响应速度变慢成为普遍问题。面对这些挑战,许多人开始探索如何帮助团队快速掌握大数据相关技术。
在寻找解决方案的过程中,我发现了两个工具:HDP(由Cloudera提供)和CDH(由Hortonworks提供)。这两款工具都基于Hadoop,是大数据领域的两大实施商。
Cloudera是Hadoop的老牌供应商,除了提供定制化的Hadoop之外,还提供了培训和支持服务。相比之下,Hortonworks是一个新兴的供应商,其最大的优势在于其产品是免费的。尽管如此,Hortonworks也提供了培训和支持服务,但这些服务是收费的。
Hortonworks旨在使用Apache开源组件搭建Hadoop平台,这些组件全部开源,包括三大产品:Horton Data Platform(HDP)、Apache Am和SmartSense。
Hortonworks提供了VMWare、Virtual box和Docker容器等快速安装的镜像,这些镜像是基于单个节点的,可以快速体验HDP的使用。这些镜像的文件后缀名为.ova,它们是本文关注的重点。作为一个精通SQL的开发者,通过使用Hortonworks的Hadoop套件,可以摇身一变成为处理十亿级大数据的工程师,整个过程可能不会超过两小时。
如果你有兴趣,不妨一试。下载地址在这里:hortonworks.com/downloads。我并非在为他们做广告,我没有持有他们的任何股票。我介绍这款软件,是因为曾经尝试用ASP.NET搭建一个无需安装SQL Server环境即可学习SQL的学习环境,但项目失败。现在有这么好的资源可以帮助大家快速上手大数据学习,我非常愿意推荐。
接下来,我将带大家体验使用Hortonworks Hadoop的玩法。在不到两小时的使用中,我体验了以下操作:
使用HDP套件可以更直观地建立分布式系统概念,相较于仅使用Apache Hadoop和Hive构建,使用套件有助于加深理解。
HDP中的Ambari作为开发者与Hadoop底层交互的界面,界面友好,提供了一种直观的管理体验。
HDP的Dashboard提供了一种连接其他组件控制台的方式,如HDFS、Hive、Pig和Spark等。
Hive作为分布式数据仓库,支持SQL的基本语法,同时封装了MapRece的底层编程实现,使得开发者无需重复开发Java程序来处理常见数据库操作,支持操作T/P/E级的数据量。
在Ambari中找到Hive 2 View,可以像SQL Server Management Studio管理SQL Server一样操作Hive,提供了清晰的编辑界面和简洁的SQL风格,非常适合SQL开发者快速上手。
Pig可以实现ETL(提取、转换、加载)功能,类似于SSIS、Informatic等传统工具。对于复杂的计算,Pig还可以调用Java、Python方法进行扩展。
整体而言,Hortonworks Hadoop套件提供了简洁易用的界面和功能,适合SQL开发者快速掌握大数据技术。唯一的*是内存需求较高,我使用的是8GB内存,因此建议根据实际情况选择合适的硬件配置。如果你对大数据感兴趣,不妨下载体验一下。
Hortonworks, 快速上手 Hadoop 的套件
整体而言,Hortonworks Hadoop套件提供了简洁易用的界面和功能,适合SQL开发者快速掌握大数据技术。唯一的限制是内存需求较高,我使用的是8GB内存,因此建议根据实际情况选择合适的硬件配置。如果你对大数据感兴趣,不妨下载体验一下。
hortonworks是什么
Hortonworks是一家大数据软件公司。以下是详细的解释:Hortonworks是一家专注于为企业和用户打造大数据平台的软件公司。它致力于提供创新的、基于Apache Hadoop的大数据解决方案,帮助客户更好地管理和分析海量数据。Hortonworks通过其强大的技术实力和专业知识,为企业提供大数据基础设施、数据存储、数据处理和分析等...
部署Hadoop集群,cloudera的CDH和Ambari哪个比较好
1、Hortonworks Hadoop区别于其他的Hadoop发行版(如Cloudera)的根本就在于,Hortonworks的产品均是百分之百开源。2、Cloudera有免费版和企业版,企业版只有试用期。3、apache hadoop则是原生的hadoop。4、目前在中国流行的是apache hadoop,Cloudera CDH,当然Hortonworks也有用的 5、Apache Ambari是一个基于web...
现在学习hadoop从哪个版本入手
Hortonworks开发了很多增强特性并提交至核心主干,这使得Apache Hadoop能够在包括Windows Servers和Windows Azure在内的Microsoft Windows平台上本地运行。4、MapR:与竞争者相比,它使用了一些不同的概念,特别是为了获取更好的性能和易用性而支持本地UNIX文件系统而不是HDFS(使用非开源的组建)。我们可以使...
hadoop平台一般用什么监控框架比较多
1:MapReduce(MR),最为general和流行的一个分布式计算框架,其开源实现Hadoop已经得到了极为广泛的运用(Facebook, Yahoo!等等),同时在Hadoop基础上发展起来的项目也有很多(Hive是发展最好的),另外像Cloudera,Hortonworks,MapR这样的在Hadoop基础上发展起来的公司也有很多。2:Pregel,和MR一样也是...
Hadoop 2.0 跟Sqoop哪个版本比较匹配
Hadoop 2.0 跟Sqoop哪个版本比较匹配 目前而言,不收费的Hadoop版本主要有三个(均是国外厂商),分别是:Apache(最原始的版本,所有发行版均基于这个版本进行改进)、Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,简称CDH)、Hortonworks版本(Hortonworks Data Platform,简称“HDP”),...
hadoop有哪些认证
Hortonworks是另一家Hadoop的主要供应商,他们也有自己的认证体系。这些认证涵盖了从开发到管理的多个领域,比如Hortonworks大数据认证分析师和Hortonworks大数据认证管理员等。这些认证验证了个人在Hadoop大数据解决方案设计、实施和管理方面的能力。以上是Hadoop领域主要的几种认证类型。这些认证对于想要从事大数据处理...
有关Hadoop的六大误解
1、Hadoop是一个完整的解决方案。事实并非如此。无论你把它称为“框架”或“平台”都可以,只是不能认为Hadoop可以解决大数据方面的所有问题。“市场上没有标准的Hadoop产品,”《太大而无法忽略:大数据的商业案例》一书的作者菲尔·西蒙说:“这不像别的东西,你可以从IBM或SAP那里,得到一个标准的...
下哪些开源组件可以运行在hadoop yarn上
4. Spark On YARN:实时/内存计算框架Spark运行在YARN上:,项目状态:已可用。5. BSP On YARN:BSP模型在YARN上的实现:,项目状态:发布一个实验版本。6. HBase On YARN:HBase运行在YARN上,,项目状态:进行中,Hortonworks开源的Hoya:,项目状态:进行中。7. Kafka On YARN:Kafka运行在YARN...
数据使用者是指
2、数据管理人员需要进行数据资产管理、数据治理等。3、数据开发人员在数据分析的基础手上,还需要数据集成开发环境、工作流调度等,很多公司内部的平台纯粹为了开发者使用。4、数据运维人员要进行集群的搭建、运维等工作,由于有了Cloudera、Hortonworks的Hadoop套件,很少有公司强调这方面的平台组件管理工具。