大数据工作中常用的九种大数据工具总结

时间:2020-12-05作者:猫老师阅读量:175

大数据工具可以帮助人们进行日常的数据分析工作,下面是大数据经常使用的工具:

大数据

一、Hivemall

Hivemall结合了许多面向实时的机器学习算法。该算法具有多种高扩展性算法,可用于数据分类,递归,推荐,k最近邻,异常检测和特征哈希。

二、Mahout

ApacheSoftwareFoundation(ASF)旗下的开源项目Mahout提供了机器学习领域中一些可扩展的经典算法的实现,旨在帮助开发者更方便、更快速地创建智能应用程序。Mahout包含聚类,分类,推荐过滤,频繁子项挖掘等多个实现。另外,通过使用ApacheHadoop库,Mahout能够有效地扩展到云端。

三、MapReduce

MapReduce是一个用于大规模数据集(大于1TB)并行操作的编程模型。“映射”(map)和“Reduce(归约)”这两个概念是它们的主要概念,它们都来自于函数式编程语言,也有来自于矢量编程语言。这为编程人员在分布式系统上运行自己的程序提供了很大的便利,而无需进行分布式并行编程。

四、Oozie

Oozie是在Javaservlet容器即Tomcat中运行的JavaWeb应用程序,它使用一个数据库来存储下列内容:

定义工作流程。

工作流的当前运行实例,包括状态和实例的变量。

五、pig

Pig是一个数据流语言,运行环境可以用来获取大量数据集。它提供了对大型数据集进行处理的更高层次抽象。该插件包含两个部分:一个是描述数据流的语言,称为PigLatin;另一个是执行环境,用于运行PigLatin程序。

六、Sqoop

sqoop(发音:skup)是一种开源工具,它主要用于在Hadoop(Hive)和传统数据库(mysql,postgresql)之间进行数据传递,它能够将关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导入Hadoop的HDFS,或者将HDFS中的数据导入关系型数据库。

七、Spark

Spark是一个类似于Hadoop的开放源码集群计算环境,但两者之间也有一些差异,这些差异使得Spark在某些工作负载方面更有优势,换句话说,Spark支持内存分布数据集,而且除了能够提供交互式查询之外,Spark还能优化迭代工作负载。

八、Tez

Tez以ApacheHadoopYARN为基础,它是“一个应用程序框架,它允许为一个任务创建一个复杂的有向无环图来处理数据”。这使得Hive和Pig能够简化复杂的任务,而这些本来需要多个步骤来完成的任务。

九、Zookeeper

ZooKeeper是一种分布式、开源、分布式协调服务,是GoogleChubby的开源实现,是Hadoop和Hbase的重要组成部分。该软件为分布式应用提供一致性服务,主要提供以下功能:配置维护、域名服务、分布式同步、组服务等。

关于《大数据工作中常用的九种大数据工具总结》的相关内容,就给大家讲到这里。

本文链接地址:https://www.xiaozeseo.com/jzjc/330.html 未经允许禁止转载。

相关栏目

推荐内容

热点内容