技术前沿 - 云创智学

数据清洗环境

数据清洗环境是指为进行数据清洗所提供的基本硬件设备和软件系统，特别是已得到广泛应用的开源软件和工具。终端窗口和命令行界面，比如MacOSX上的Terminal程序或Linux上的bash程序。适合程序员使用的编辑器，如Mac上的TextWrangler，Linux上的vi或emacs，或是Windows上的Notepad++、Sublime编辑器等。Python客户端程序，如EnthoughtCanopy。另外，还需要足够的权限来安装一些程序包文件。电子表格程序，如MicrosoftExcel和GoogleSpreadsheets。数据呈现和可视化，以恰当的方式程序数据分析和挖掘的结果。数据库软件，如MySQL数据库和MicrosoftAccess。

作者：云创智学

来源：云创智学

发布时间：2022-05-09 13:33:44

数据清洗流程

数据清洗通过分析“脏数据”的产生原因和存在形式，利用数据溯源的思想，从“脏数据”产生的源头开始分析数据，对数据流经环节进行考察，提取数据清洗的规则和策略，对原始数据集应用数据清洗规则和策略来发现“脏数据”并通过特定的清洗算法来清洗“脏数据”，从而得到满足预期要求的数据。具体而言，数据清洗流程包含以下基本步骤：1．分析数据并定义清洗规则2．搜寻并标识错误实例3．纠正发现的错误4．干净数据回流5．数据清洗的评判数据清洗是一项十分繁重的工作，数据清洗在提高数据质量的同时要付出一定的代价，包括投入的时间、人力和物力成本。通常情况下，大数据集的数据清洗是一个系统性的工作，需要多方配合以及大量人员的参与，需要多种资源的支持。

作者：云创智学

来源：云创智学

发布时间：2022-05-09 13:33:00

数据清洗任务

1、数据清洗就是对原始数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并使得数据保持精确性、完整性、一致性、有效性及唯一性，还可能涉及数据的分解和重组，最终将原始数据转换为满足数据质量或应用要求的数据。2、数据清洗对保持数据的一致和更新起着重要的作用，因此被用于如银行、保险、零售、电信和交通的多个行业。数据清洗主要有三个应用领域：数据仓库(DataWarehouse,DW)、数据库中知识的发现(KnowledgeDiscoveryinDatabase,KDD)和数据质量管理(DataQualityManagement,DQM)。3、数据清洗对随后的数据分析非常重要，因为它能提高数据分析的准确性。但是数据清洗依赖复杂的关系模型，会带来额外的计算和延迟开销，必须在数据清洗模型的复杂性和分析结果的准确性之间进行平衡。

作者：云创智学

来源：云创智学

发布时间：2022-05-09 13:31:57

数据清洗定义

1、来自多样化数据源的数据内容并不完美，存在着许多“脏数据”，即数据不完整有缺失、存在错误和重复的数据，数据的不一致和冲突等缺陷。数据清洗(DataCleaning/Cleansing)对数据进行审查和校验，发现不准确、不完整或不合理数据，进而删除重复信息、纠正存在的错误，并保持数据的一致性、精确性、完整性和有效性以提高数据的质量。2、数据清洗并没有统一的定义，其定义依赖于具体的应用领域。从广义上讲，数据清洗是将原始数据进行精简以去除冗余和消除不一致，并使剩余的数据转换成可接收的标准格式的过程；而狭义上的数据清洗特指在构建数据仓库和实现数据挖掘前对数据源进行处理，使数据实现准确性、完整性、一致性、唯一性和有效性以适应后续操作的过程。一般而言，凡是有助于提高信息系统数据质量的处理过程，都可认为是数据清洗。

作者：云创智学

来源：云创智学

发布时间：2022-05-09 13:31:06

数据科学过程

数据科学则是一门新兴的以数据为研究中心的学科。作为一门学科，数据科学以数据的广泛性和多样性为基础，探寻数据研究的共性。数据科学是一门关于数据的工程，它需要同时具备理论基础和工程经验，需要掌握各种工具的用法。数据科学主要包括两个方面：用数据的方法来研究科学和用科学的方法来研究数据。数据清洗是数据科学家完成数据分析和处理任务过程中必须面对的重要一环。具体来说，数据科学的一般处理过程包括如下几个步骤：1、问题陈述，明确需要解决的问题和任务。2、数据收集与存储，通过多种手段采集和存放来自众多数据源的数据。3、数据清洗，对数据进行针对性地整理和规范以便于后面的分析和处理。4、数据分析和挖掘，运用特定模型和算法来寻求数据中隐含的知识和规律。5、数据呈现和可视化，以恰当的方式程序数据分析和挖掘的结果。6、科学决策：根据数据分析和处理结果来决定问题的解决方案。

作者：云创智学

来源：云创智学

发布时间：2022-05-09 13:30:22

TPU 的主要组成是什么？

TPU（TensorProcessingUnit，张量处理单元）是Google为机器学习应用TensorFlow打造的一种定制ASIC芯片，能在相同时间内处理更复杂、更强大的机器学习模型并将其更快地投入使用。TPU架构主要模块包括片上内存，256x256个矩阵乘法单元，非线性神经元计算单元（activation），以及用于归一化和池化的计算单元。

作者：云创智学

来源：云创智学

发布时间：2022-05-07 10:37:26

长短期记忆变体的概念

一种流行的LSTM变种，由Gers和Schmidhuber（2000）提出，加入了“窥视孔连接”（peepholeconnections）。这意味着门限层也将单元状态作为输入。另一个变种就是使用耦合遗忘和输入门限。再一种变种是门限递归单元或GRU，由Cho等人（2014）提出。

作者：云创智学

来源：云创智学

发布时间：2022-05-07 10:35:33

长短期记忆网络的概念

长短期记忆网络（LongShort-TermMemory，LSTM）是一种特殊的RNN，能够学习长期依赖关系。它们由Hochreiter和Schmidhuber（1997）提出，在后期工作中又由许多人进行了改进，LSTMs明确设计成能够避免长期依赖关系问题。记住信息很长一段时间几乎是它们固有的行为，而不是去学习得到的。

作者：云创智学

来源：云创智学

发布时间：2022-05-07 10:33:29

深度学习迁移学习的应用场景

1、从模拟中学习从模拟中学习并将学到的知识应用在现实世界。例如自动驾驶汽车。2、域适应域适应在视觉中是一个常规的需求。另一个常见的域适应场景涉及到适应不同的文本类型。3、跨语言迁移知识将知识从一种语言迁移到另一种语言。以zero-shot学习方法进行翻译为例，此方法在该域取得了快速的进步。3、深度学习的fine-tuning迁移学习在深度学习中的fine-tuning，即微调。微调的意思是稍微调整一下。

作者：云创智学

来源：云创智学

发布时间：2022-05-07 10:30:49

深度学习迁移学习的分类

按照迁移学习的数据域与任务的分类，有4种分类方式。给定源域和目标域Ds和Dt，其中，D={X,P(X)}，并且给定源任务和目标任务Ts和Tt，其中T={Y,P(Y|X)}。源和目标的情况可以以四种方式变化。（1）XS≠XT。源域和目标域的特征空间不同，例如，文档是用两种不同的语言写的。在自然语言处理的背景下，这通常被称为跨语言适应（cross-lingualadaptation）。（2）P(Xs)≠P(Xt)。源域和目标域的边缘概率分布不同，例如，两个文档有着不同的主题。这个情景通常被称为域适应（domainadaptation）。（3）YS≠YT。两个任务的标签空间不同，例如，在目标任务中，文档需要被分配不同的标签。实际上，这种场景通常发生在场景4中，因为不同的任务拥有不同的标签空间，但是拥有相同的条件概率分布，这种情况非常少见。（4）P（Ys|Xs）≠P（Yt|Xt）。源任务和目标任务的条件概率分布不同，例如，源和目标文档在类别上是不均衡的。这种场景在实际中是比较常见的，诸如过采样、欠采等情况。

作者：云创智学

来源：云创智学

发布时间：2022-05-07 10:28:38

关于云创

联系我们