• 0

    用户访问量

  • 0

    注册用户数

  • 0

    在线视频观看人次

  • 0

    在线实验人次

大数据挖掘工具

作者:云创智学|发布时间:2022-02-08 14:04:34.0|来源:云创智学

大数据挖掘工具

1、Hadoop

Hadoop是一种能够对大数据进行并行分布式处理的计算框架,以一种可靠、可伸缩、高效的方式对海量数据进行处理。

Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS具有高容错性的特点,并且设计用来部署在低廉硬件上;而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。

2、Mahout

Mahout的主要数据目标集是大规模数据,因此Mahout能够建立运行在Apache Hadoop平台上的可伸缩的机器学习算法,这些算法通过Mapreduce模式实现,但并不局限于Hadoop平台。

3、Spark MLlib

MLlib是构建在Apache Spark上的一个可扩展的分布式机器学习库,充分利用了 Spark 的内存计算和适合迭代型计算的优势,将性能大幅度提升。MLlib支持的分类算法主要有:朴素贝叶斯、逻辑回归、决策树和支持向量机.MLlib支持的回归算法主要有:Lasso、线性回归、决策树和岭回归。聚类算法属于非监督式学习,MLlib目前支持广泛使用的Kmeans算法。MLlib也支持基于模型的协同过滤,其中用户和商品通过一小组隐语义因子进行表达,并且这些因子也用于预测缺失元素。

4、Storm

Storm是一个开源的、分布式的具有高容错性的实时计算系统。Storm能够十分可靠地处理庞大的数据流,能够用来处理Hadoop的批量数据。Storm应用领域广泛,包括:在线机器学习、实时分析、分布式RPC(远过程调用)、持续计算、ETL等等。Storm的处理速度非常迅速,每个节点每秒可以处理上百万个数据元组,Storm支持多种语言编程,具有容错性高、可扩展、易于设置和操作的特点。

5、Apache Drill 

Apache Drill 在基于 SQL 的数据分析和商业智能(BI)上引入了 JSON (JavaScript Object Notation, JS对象标记)文件模型,使得用户能查询固定架构、演化架构以及各种格式和数据存储中的模式(columnar -free)无关数据。

6、RapidMiner

RapidMiner是德国多特蒙德工业大学于2007年推出的世界领先的数据挖掘工具,能够完成的数据挖掘任务涉及范围广泛,并且能够简化数据挖掘过程的设计和评价。

7、Pentaho BI

Pentaho BI是一个以流程为核心的,面向解决方案(Solution)而非工具组件的框架,其目的在于将一系列企业级BI产品、API、开源软件等组件加以集成,方便商务智能应用的开发。Pentaho BI包括多个工具软件和一个web server平台,支持分析、报表、图表、数据挖掘和数据集成等功能,允许商业分析人员或研发人员分析模型,创建报表,商业规则和BI流程。

联系方式
企业微信