• 0

    用户访问量

  • 0

    注册用户数

  • 0

    在线视频观看人次

  • 0

    在线实验人次

大数据的来源,为什么全球数据量增长如此之快?

作者:云创大数据|发布时间:2021-08-27 15:42:39.0|来源:云创大数据




为什么全球数据量增长如此之快

1、互联网每天产生的全部内容可以刻满6.4亿张DVD;

2、全球每秒发送290万封电子邮件,一分钟读一篇的话,足够一个人昼夜不停地读5.5年;

3、Google每天需要处理24PB的数据;

4、每天会有2.88万个小时的视频上传到YouTube,足够一个人昼夜不停地观看3.3年;

5、网民每天在Facebook上要花费234亿分钟,被移动互联网使用者发送和接收的数据高达44PB;

6、Twitter上每天发布5000万条消息,假设10秒就浏览一条消息,足够一个人昼夜不停地浏览16年。


海量的数据的产生

随着人类活动的进一步扩展,数据规模会急剧膨胀,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的各行业累积的数据量越来越大,数据类型也越来越多、越来越复杂,已经超越了传统数据管理系统、处理模式的能力范围,于是“大数据”这样一个概念才会应运而生。


按产生数据的主体划分:

1)少量企业应用产生的数据

如关系型数据库中的数据和数据仓库中的数据等。

2)大量人产生的数据

如推特、微博、通信软件、移动通信数据、电子商务在线交易日志数据、企业应用的相关评论数据等。

3)巨量机器产生的数据

如应用服务器日志、各类传感器数据、图像和视频监控数据、二维码和条形码(条码)扫描数据等。


按数据来源的行业划分:

1)以BAT为代表的互联网公司

百度公司数据总量超过了千PB级别,阿里巴巴公司保存的数据量超过了百PB级别,拥有90%以上的电商数据,腾讯公司总存储数据量经压缩处理以后仍然超过了百PB级别,数据量月增加达到10%。

2)电信、金融、保险、电力、石化系统

电信行业数据年度用户数据增长超过10%,金融每年产生的数据超过数十PB,保险系统的数据量也超过了PB级别,电力与石化方面,仅国家电网采集获得的数据总量就达到了数十PB,石油化工领域每年产生和保存下来的数据量也将近百PB级别。

3)公共安全、医疗、交通领域

一个中、大型城市,一个月的交通卡口记录数可以达到3亿条;整个医疗卫生行业一年能够保存下来的数据就可达到数百PB级别;航班往返一次产生的数据就达到TB级别;列车、水陆路运输产生的各种视频、文本类数据,每年保存下来的也达到数十PB。

4)气象、地理、政务等领域

中国气象局保存的数据将近10PB,每年约增数百TB;各种地图和地理位置信息每年约数十PB;政务数据则涵盖了旅游、教育、交通、医疗等多个门类,且多为结构化数据。

5)制造业和其他传统行业

制造业的大数据类型以产品设计数据、企业生产环节的业务数据和生产监控数据为主。其中产品设计数据以文件为主,非结构化,共享要求较高,保存时间较长;企业生产环节的业务数据主要是数据库结构化数据,而生产监控数据则数据量非常大。在其他传统行业,虽然线下商业销售、农林牧渔业、线下餐饮、食品、科研、物流运输等行业数据量剧增,但是数据量还处于积累期,整体体量都不算大,多则达到PB级别,少则数十TB或数百TB级别。


按数据存储的形式划分:

大数据不仅仅体现在数据量大,还体现在数据类型多。如此海量的数据中,仅有20%左右属于结构化的数据,80%的数据属于广泛存在于社交网络、物联网、电子商务等领域的非结构化数据。

结构化数据简单来说就是数据库,如企业ERP、财务系统、医疗HIS数据库、教育一卡通、政府行政审批、其他核心数据库等数据。

非结构化数据包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频、视频信息等数据。


常用的大数据获取途径:

1)系统日志采集

可以使用海量数据采集工具,用于系统日志采集,如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等,这些工具均采用分布式架构,能满足大数据的日志数据采集和传输需求。

2)互联网数据采集

通过网络爬虫或网站公开API等方式从网站上获取数据信息,该方法可以数据从网页中抽取出来,将其存储为统一的本地数据文件,它支持图片、音频、视频等文件或附件的采集,附件与正文可以自动关联。除了网站中包含的内容之外,还可以使用DPI或DFI等带宽管理技术实现对网络流量的采集。

3)APP移动端数据采集

APP是获取用户移动端数据的一种有效方法,APP中的SDK插件可以将用户使用APP的信息汇总给指定服务器,即便用户在没有访问时,也能获知用户终端的相关信息,包括安装应用的数量和类型等。单个APP用户规模有限,数据量有限;但数十万APP用户,获取的用户终端数据和部分行为数据也会达到数亿的量级

4)与数据服务机构进行合作

数据服务机构通常具备规范的数据共享和交易渠道,人们可以在平台上快速、明确地获取自己所需要的数据。而对于企业生产经营数据或学科研究数据等保密性要求较高的数据,也可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据


联系方式
企业微信