技术前沿 - 云创智学

数据转换是什么意思

数据转换是什么意思：数据转换（datatransfer）时采用线性或非线性的数学变换方法将多维数据压缩成较少维的数据，消除他们在时间、空间、属性及精度等特征表现方面的差异。实际上就是将数据从一种表示形式变为另一种表现形式的过程。

作者：云创智学

来源：云创智学

发布时间：2022-01-24 10:36:28

数据集成是什么意思

数据集成是什么意思：数据集成是将不同应用系统、不同数据形式，在原应用系统不做任何改变的条件下，进行数据采集、转换好储存的数据整合过程。其主要目的是在解决多重数据储存或合并时所产生的数据不一致、数据重复或冗余的问题，以提高后续数据分析的精确度和速度。

作者：云创智学

来源：云创智学

发布时间：2022-01-24 10:35:26

数据清理的方法

数据清理的方法：1、填充缺失值大部分情况下，缺失的值必须要用手工来进行清理。当然，某些缺失值可以从他本身数据源或其它数据源中推导出来，可以用平均值、最大值或更为复杂的概率估计代替缺失的值，从而达到清理的目的。2、修改错误值用统计分析的方法识别错误值或异常值，如数据偏差、识别不遵守分布的值，也可以用简单规则库检查数据值，或使用不同属性间的约束来检测和清理数据。3、消除重复记录数据库中属性值相同的情况被认定为是重复记录。通过判断记录间的属性值是否相等来检测记录是否相等，相等的记录合并为一条记录。4、数据的不一致性从多数据源集成的数据语义会不一样，可供定义完整性约束用于检查不一致性，也可通过对数据进行分析来发现他们之间的联系，从而保持数据的一致性。

作者：云创智学

来源：云创智学

发布时间：2022-01-24 10:34:33

大数据预处理技术

大数据预处理技术：大数据正带来一场信息社会的变革。大量的结构化数据和非结构化数据的广泛应用，致使人们需要重新思考已有的IT模式；与此同时，大数据将推动进行又一次基于信息革命的业务转型，使社会能够借助大数据获取更多的社会效益和发展机会；庞大的数据需要我们进行剥离、整理、归类、建模、分析等操作，通过这些动作后，我们开始建立数据分析的维度，通过对不同的维度数据进行分析，最终才能得到想到的数据和信息。因此，如何进行大数据的采集、导入/预处理、统计/分析和大数据挖掘，是“做”好大数据的关键基础。

作者：云创智学

来源：云创智学

发布时间：2022-01-24 10:32:39

Chukwa的处理过程

Chukwa的处理过程：1、Adaptors使用tail方式监测日志增量；2、Agent发送数据到collectors；3、Collectors将各agent收集的数据在/chukwa/logs/目录下写成*.chukwa文件；4、当*.chukwa文件大小达到阀值或达到一定时间间隔时将其改名为*.done文件；5、Demux进程将/chukwa/logs/*.done文件转移到/chukwa/demuxProcessing/mrInput/目录下进行处理；6、PostProcess进程将demux进程处理完成的*.evt文件转储到/chukwa/repos/目录下；7、可以根据PostProcess进程按照日志类型在/chukwa/rolling/目录下生成的文件进行按天或按小时的数据合并。

作者：云创智学

来源：云创智学

发布时间：2022-01-21 11:16:08

Kafka的producer，broker和consumer三种主要角色

Kafka的producer，broker和consumer三种主要角色：1、ProducerProducer的任务是向broker发送数据。为其提供了两种producer接口，一种是low_level接口，使用这种接口会向特定的broker的某个topic下的某个partition发送数据；另一种那个是highlevel接口，这种接口支持同步/异步发送数据，基于zookeeper的broker自动识别和负载均衡。2、BrokerBroker采取了多种不同的策略来提高对数据处理的效率。3、Consumerconsumer的作用是将日志信息加载到中央存储系统上。

作者：云创智学

来源：云创智学

发布时间：2022-01-21 11:14:34

大数据采集的研究分类

大数据采集的研究分类：1、智能感知层包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统，实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。涉及有针对大数据源的智能识别、感知、适配、传输、接入等技术。随着物联网技术、智能设备的发展，这种基于传感器的数据采集会越来越多，相应对于这类的研究和应用也会越来越重要。2、基础支撑层提供大数据服务平台所需的虚拟服务器，结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。重点要解决分布式虚拟存储技术，大数据获取、存储、组织、分析和决策操作的可视化接口技术，大数据的网络传输与压缩技术，大数据隐私保护技术等。

作者：云创智学

来源：云创智学

发布时间：2022-01-21 11:09:10

常用的大数据采集的方式

常用的大数据采集的方式：大数据的采集通常采用多个数据库来接收终端数据，包括智能硬件端、多种传感器端、网页端、移动APP应用端等，并且可以使用数据库进行简单的处理工作。1、数据抓取2、数据导入3、物联网传感设备自动信息采集

作者：云创智学

来源：云创智学

发布时间：2022-01-21 11:08:04

大数据采集概念

大数据采集概念：数据采集（DAQ）又称数据获取，通过RFID射频数据、传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。

作者：云创智学

来源：云创智学

发布时间：2022-01-21 11:06:54

Hadoophe核心组件

Hadoophe核心组件：1、HDFSHadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodityhardware)上的分布式文件系统。他是一个高度容错性的系统，适合部署在廉价的机器上，能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。2、MapReduceMapReduce是一种编程模型，MapReduce是面向大数据并行处理的计算模型、框架和平台，它隐含了以下三层含义：1）是一个基于集群的高性能并行计算平台（ClusterInfrastructure）；2）是一个并行计算与运行软件框架（SoftwareFramework）；3）是一个并行程序设计模型与方法（ProgrammingModel&Methodology）。3、其他HBase:类似GoogleBigTable的分布式NoSQL列数据库；Hive：是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以sql语句转换为MapReduce任务进行运行；Zookeeper：分布式锁，提供类似GoogleChubby的功能；Avro：新的数据序列化格式与传输工具，将逐步取代Hadoop原有的IPC机制；Pig：大数据数据流分析平台，为用户提供多种接口；Sqoop：在HADOOP与传统的数据库间进行数据的传递。

作者：云创智学

来源：云创智学

发布时间：2022-01-20 10:45:33

关于云创

联系我们