• 0

    用户访问量

  • 0

    注册用户数

  • 0

    在线视频观看人次

  • 0

    在线实验人次

MMSEG分词工具
MMSEG分词算法中包含了4种符合汉语语言中基本的成词习惯的歧义消解规则,如下图:MMSEG分词算法中有两个重要的概念:Chunk和规则(Rule)。其中,一个Chunk就是一段字符串文本的一种分割方式,包括根据上下文分出的一组词及各个词对应的4个属性。规则的目的是过滤掉不符合特定要求的Chunk。为便于理解,我们可以将规则看做过滤器。Chunk中各属性及其含义
作者:云创智学 来源:云创智学 发布时间:2021-11-29 11:35:55
文本分词算法概念以及有哪些常用算法
一、文本分词算法定义:文本分词是将字符串文本划分为有意义的单位的过程,如词语、句子或主题。中文分词也叫作切分,是将中文文本分割成若干个独立、有意义的基本单位的过程。二、分词算法基本的工作原理:是根据输入的字符串文本进行分词处理、过滤处理,输出分词后的结果,包括英文单词、中文单词及数字串等一系列切分好的字符串。三、中文分词算法可以分为以下3类:1、基于字符串匹配的分词方法它是将待处理的中文字符串与一个“尽可能全面”的词典中的词条按照一定的规则进行匹配,若某字符串存在于词典中,则认为该字符串匹配成功。2、基于统计的分词方法由于词是特定的字组合方式,那么在上下文中,相邻的单字共同出现的频率越高,则在该种字组合方式下就越有可能是构成了一个词。3、基于理解的分词方法该方法通过语义信息和语句信息来解决歧义分词问题,并且在分词的同时进行语义和句法分析。四、各种分词方法的优劣对比表
作者:云创智学 来源:云创智学 发布时间:2021-11-29 11:29:48
舆情信息收集介绍
舆情信息收集介绍:通常情况下,网络舆情监控系统由采集层(舆情采集模块)、分析层和呈现层(分析浏览模块)实现。可通过网络信息自动抓取等技术手段,便捷、高效地获取与自己相关的网络舆情,不仅信息保真,而且覆盖全面。通过网络舆情监控系统最终形成专题简报、专题追踪、舆情简报等,为全面掌握网络舆情动态,正确引导舆情动向,提供了可靠、有力的数据分析依据。
作者:云创智学 来源:云创智学 发布时间:2021-11-29 11:21:52
招聘网站信息爬取与分析
招聘网站信息爬取与分析:考虑如下场景:现在需要通过调查全国所有公司的规模和分布情况,来评估每个省份的经济实力。我们要做的第一步就是数据的收集工作。可以通过编写爬虫程序,自动进行数据收集工作,特别是从招聘网站上的公司介绍页面获取数据。使用Python实现简单的聚焦爬虫来完成这项任务1.采用聚焦爬虫2.生成“种子”3.依次打开每一个URL,得到页面HTML4.对HTML进行解析,提取需要的信息5.使用多线程
作者:云创智学 来源:云创智学 发布时间:2021-11-29 11:19:17
Nutch爬虫版本选择、环境和安装使用教程
Nutch爬虫版本选择、环境和安装使用教程:一、Nutch版本的选择Nutch1.x是基于Hadoop集成环境的,Nucth的数据是存储在HDFS上的。Nutch2.x是基于ApachGora的,Nutch可以访问HBase、Cassandra、MySQL等,所以,在编译Nutch之前,需要先安装HBase,另外Nutch的编译需要ant命令,所以,在编译Nutch之前还要安装Ant。二、Nutch工作环境1、Nutch仅支持在Linux系统下使用,本书使用的是Ubuntu14.04.3LTS,若要在Windows下使用Nutch,需要安装模拟Linux操作系统的软件Cygwin。2、JDK:本书使用的是jdk-8u51-linux-x64.tar.gz。3、HBase:可从网上下载最新版。4、Ant:本书使用的是apache-ant-1.9.6-bin.tar.gz。5、Nutch-2.2.1:可在Nutch官方网站下载最新版本的Nutch。6、Tomcat:本书使用的是apache-tomcat-8.0.24.tar.gz。三、Nutch的安装与配置应该包括下面5个部分如下图:1、JDK的安装配置2、下载并解压HBase3、Ant的安装与配置4、Nutch的安装与配置5、将Nutch和Solr集成在一起四、Nutch的简单使用1、一站式抓取进入apache-nutch-2.2.1/runtime/local目录查看一站式抓取命令。2、分布式抓取可以分为2步:Nutch数据文件夹组成和生成抓取列表。
作者:云创智学 来源:云创智学 发布时间:2021-11-26 14:14:31
互联网信息自动抓取最常见且有效的方式是
互联网信息自动抓取最常见且有效的方式是:互联网信息自动抓取,最常见且有效的方式是使用网络爬虫。爬虫可以被分为两类:一类叫作“通用爬虫”;另一类叫作“聚焦爬虫”。目前成熟的网络爬虫有很多,其中不乏Googlebot、百度蜘蛛这样的广分布式多服务器多线程的商业爬虫和GNUWget、ApacheNutch这样的灵活方便的开源爬虫搜索引擎
作者:云创智学 来源:云创智学 发布时间:2021-11-26 14:06:11
大数据可视化软件和工具有哪些?
大数据可视化软件和工具有哪些?一、ExcelExcel是MicrosoftOffice的组件之一,是由Microsoft为Windows和AppleMacintosh操作系统的计算机编写和运行的一款表格计算软件。Excel是微软办公套装软件的一个重要组成部分,它可以进行各种数据的处理、统计分析、数据可视化显示及辅助决策操作,广泛地应用于管理、统计、财经、金融等众多领域。二、ProcessingProcessing在数据可视化领域有着广泛的应用,可制作信息图形、信息可视化、科学可视化和统计图形等。下面通过一个简单实例来认识一下如何利用Processing实现数据的可视化展示。三、NodeXLNodeXL不仅具备常见的分析功能,如计算中心性、PageRank值、网络连通度、聚类系数等,还能对暂时性网络进行处理。在布局方面,NodeXL主要采用力导引布局方式。NodeXL的一大特色是可视化交互能力强,具有图像移动、变焦和动态查询等交互功能。其另一特色是可直接与互联网相连,用户可通过插件或直接导入E-mail或微博网页中的数据。四、EChartsECharts自2013年6月正式发布1.0版本以来,在短短两年多的时间,功能不断完善,截至目前,ECharts已经可以支持包括折线图(区域图)、柱状图(条状图)、散点图(气泡图)、K线图、饼图(环形图)、雷达图(填充雷达图)、和弦图、力导向布局图、地图、仪表盘、漏斗图、事件河流图12类图表,同时提供标题、详情气泡、图例、值域、数据区域、时间轴、工具箱7个可交互组件,支持多图表、组件的联动和混搭展现。ECharts图表工具为用户提供了详细的帮助文档,这些文档不仅介绍了每类图表的使用方法,还详细介绍了各类组件的使用方法,每类图表都提供了丰富的实例。用户在使用时可以参考实例提供的代码,稍加修改就可以满足自己的图表展示需求。接下来结合ECharts提供的一个2010年世界人口分布图的实例来详细介绍一下ECharts的使用方法。如图所示是2010年世界人口数据。下图所示是利用ECharts展示的可交互的世界人口分布图。用户通过将鼠标移入不同的国家(地区)内部,即可查看到该国家(地区)的人口数量;左下角的垂直滚动条可以用于设置地图上可视数据的最大值和最小值,用户可以通过调整滑块来展示某个区间的数据。例如,下方图所示为人口数量超过1亿的国家(地区)分布情况。
作者:云创智学 来源:云创智学 发布时间:2021-11-26 14:01:45
多维数据可视化技术包括的主要方法
多维数据可视化技术包括的主要方法:1、散点图(ScatterPlot)散点图(ScatterPlot)是最为常用的多维可视化方法。二维散点图将多个维度中的两个维度属性值集合映射至两条轴,在二维轴确定的平面内通过图形标记的不同视觉元素来反映其他维度属性值。二维散点图能够展示的维度十分有限,研究者将其扩展到三维空间,通过可旋转的ScatterPlot方块(dice)扩展了可映射维度的数目,如图所示。散点图适合对有限数目的较为重要的维度进行可视化,通常不适于需要对所有维度同时进行展示的情况。2、投影(Projection)投影是能够同时展示多维的可视化方法之一。VaR将各维度属性列集合通过投影函数映射到一个方块形图形标记中,并根据维度之间的关联度对各个小方块进行布局。基于投影的多维可视化方法一方面反映了维度属性值的分布规律,同时也直观地展示了多维度之间的语义关系。3、平行坐标(ParallelCoordinates)平行坐标是研究和应用最为广泛的一种多维可视化技术,将维度与坐标轴建立映射,在多个平行轴之间以直线或曲线映射表示多维信息。
作者:云创智学 来源:云创智学 发布时间:2021-11-26 13:50:07
时空数据可视化概念特点
时空数据可视化概念特点:1、流式地图;2、结合了捆绑技术的流式地图;3、结合了密度图技术的流式地图;4、结合了密度图技术的流式地图;5、融合散点图与密度图技术的时空立方体;6、融合堆积图技术的时空立方体。
作者:云创智学 来源:云创智学 发布时间:2021-11-26 13:42:49
大数据 网络图可视化有哪些主要形式
大数据网络图可视化有一下4种形式:1、Nodal研究人员及其组织机构社会网络图;2、基于节点连接的图和树可视化方法;3、基于空间填充的树可视化;4、基于边捆绑的大规模密集图可视化。
作者:云创智学 来源:云创智学 发布时间:2021-11-25 11:31:19
联系方式
企业微信