大数据构成、特点、技术、处理、应用这几要素你了解几个?

    来源: 赢家财富网 作者: 佚名

    摘要: ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。

      1.大数据概念

      大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。解决大数据问题的核心是大数据技术。大数据(big data)或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点。

      

    大数据


      2. 数据的构成

      大数据包括:交易数据和交互数据集在内的所有数据集 ,如图

      

    大数据:数据构成、数据特点、数据技术、数据处理、数据应用


      (1)海量交易数据:

      企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。

      (2)海量交互数据:

      源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输Manage File Transfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。

      3.大数据特点

      首先要从"大"入手,"大"是指数据规模,大数据一般指在10TB(1TB=1024GB)规模以上的数据量。大数据同过去的海量数据(603138)有所区别,其基本特征可以用4个V来总结(Vol-ume、Variety、Value和Veloc-ity,即体量大、多样性、价值密度低、速度快。

      

    大数据:数据构成、数据特点、数据技术、数据处理、数据应用


      第一V是Variety,海量数据有不同格式,第一种是结构化,我们常见的数据,还有半结据化网页数据,还有非结构化视频音频数据。而且这些数据化他们处理方式是比较大的。数据类型繁多,如网络日志、视频、图片、地理位置信息,等等。

      第二V就是Volume,量比较大,我们有一些用户化每秒就要进入很多数据,很多客户内部都有几批数据,还有下面淘宝都是几PB数据,所以PB化将是比较常态的情况。

      非结构化数据的超大规模和增长,占总数据量的80~90%,比结构化数据增长快10倍到50倍,是传统数据仓库的10倍到50倍

      第三V是Velocity,因为数据化会存在时效性,需要快速处理,并得到结果出来。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

      第四V是Value:大量的不相关信息,不经过处理则价值较低,属于价值密度底的数据。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。海量数据分析非常复杂,使得过去靠单纯易于关于数据库BI已经不是太适合了。

      总得来说,“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,如图,具有这些特点的数据,才是大数据。

      

    大数据:数据构成、数据特点、数据技术、数据处理、数据应用


      4.大数据技术

      大数据主要有数据采集、数据存储、数据管理和数据分析与挖掘技术等

      (1)数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

      

    大数据:数据构成、数据特点、数据技术、数据处理、数据应用


      (2)数据存取:关系数据库、NOSQL、SQL等。

      (3)数据处理 :自然语言处理技术。

      (4)统计分析:假设检验、显著性检验、差异分析、相关分析、多元回归分析、逐步回归、回归预测与残差分析等。

      (5)数据挖掘:分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)。

      (7)模型预测:预测模型、机器学习、建模仿真。

      (8)结果呈现:云计算、标签云、关系图等。

      5.大数据处理

      (1)采集

      大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据。在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

      (2)导入/预处理

      虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。

      (3)统计/分析

      统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。

      (4)挖掘

      与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。整个大数据处理的普遍流程至少应该满足这四个方面的步骤,才能算得上是一个比较完整的大数据处理

      6、大数据应用与案例分析

      大数据应用的关键,也是其必要条件,通过用户行为分析实现精准营销是大数据的典型应用,但是大数据在各行各业特别是公共服务领域具有广阔的应用前景。

      以下是关于各行各业,不同的组织机构在大数据方面的应用的案例:

      (1)大数据应用案例:教育行业

      现在,大数据分析已经被应用各个行业,特别是在美国的公共教育中,如图所示,成为教学改革的重要力量。

      

    大数据:数据构成、数据特点、数据技术、数据处理、数据应用


      (2)大数据应用案例:生活娱乐方面

      新华社新媒体中心抓取了新浪微 博上提及“爸爸去哪儿”45.5万条原创微博,并对36.7万独立原发作者用户(去除疑似水军账户)、1300余万条用户微博及近1亿的关系进行数据分析。结果发现:《爸爸去哪儿》成为了名副其实的“口碑王”

      

    大数据:数据构成、数据特点、数据技术、数据处理、数据应用


      (3)大数据应用案例:电子商务行业

      在电子商务行业,利用大数据技术可以及时了解有多少新客户在多少天内发生二次回购,可以很清晰地知道不同类别的客户的回购周期是多少天,为企业实施精准营销奠定坚实基础,如企业可以利用大数据产生的信息在适当的时机针对不同类别的客户进行促销,为企业带来收入和利润。

      

    大数据:数据构成、数据特点、数据技术、数据处理、数据应用


      大数据技术的运用前景是十分光明的。当前,我国正处在全面建成小康社会征程中,工业化、信息化、城镇化、农业现代化任务很重,建设下一代信息基础设施,发展现代信息技术产业体系,健全信息安全保障体系,推进信息网络技术广泛运用,是实现四化同步发展的保证。大数据分析对我们深刻领会世情和国情,把握规律,实现科学发展,做出科学决策具有重要意义,我们必须重新认识数据的重要价值。

    关键词:

    大数据,特点

    审核:yj194 编辑: yj194

    免责声明

    1、凡本网注明“来源:***”的作品,均是转载自其他平台,本网赢家财富网 www.yjcf360.com 转载文章为个人学习、研究或者欣赏传播信息之目的,并不意味着赞同其观点或其内容的真实性已得到证实。全部作品仅代表作者本人的观点,不代表本网站赢家财富网的观点、看法及立场,文责作者自负。如因作品内容、版权和其他问题请与本站管理员联系,请在30日内进行,我们收到通知后会在3个工作日内及时进行处理。

    2.本网站刊载的各类文章、广告、访问者在本网站发表的观点,以链接形式推荐的其他网站内容,仅为提供更多信息供用户参考使用或为学习交流的方便(本网有权删除)。所提供的数据仅供参考,使用者务请核实,风险自负。

    版权属于赢家财富网,转载请注明出处
    查看更多
    • 内参
    • 股票
    • 赢家观点
    • 娱乐
    • 原创

    4月18日三氯甲烷产业链情报

    1.4月18日三氯甲烷产业链指数为110.454月18日三氯甲烷产业链指数为110.45,较昨日上升了0.65点,较周期内最高点157.64点(2021-10-25)下降了29.94%,

    4月18日硫酸铵产业链情报

    1.4月18日硫酸铵产业链指数为67.414月18日硫酸铵产业链指数为67.41,较昨日下降了1.23点,较周期内最高点192.38点(2022-05-10)下降了64.96%,

    翔楼新材:公司现金分红在本次利润分配中所占比例已经达到100%,符合分红政策规…

    消息,翔楼新材(301160)04月18日在投资者关系平台上答复投资者关心的问题。投资者:根据公司关于2023年度分红的回复,依据的是(三)公司发展阶段属成长期且有重大资金支...

    截至4月18日上交所基础设施公募REITs市值合计718.35亿元

    据上交所4月18人消息,截至2024年4月18日,上交所基础设施公募REITs市值合计718.35亿元,2024年4月18日成交额合计为32628.4万元。

    早知道:2024年4月18号热点题材

      上证指数目前处于多空争夺期,依据赢家江恩价格工具得出:当前支撑位:3053.63点,当前阻力位:3075.13点、3189.25点,由赢家江恩时间周期工具展示得出:下一个时间...

    早知道:2024年4月17号热点题材

      上证指数目前处于多空争夺期,依据赢家江恩价格工具得出:当前支撑位:2984.12点、2943.62点,当前阻力位:3009.38点,由赢家江恩时间周期工具展示得出:下一个时间...

    股权投资的项目是什么意思呢?

    ?  很多的投资者在投资的过程中都有见过股权投资这一概念,那么很多的投资者表示,不是很能理解股权投资项目是什么意思,那么今天我们就来给大家讲解一下。

    可可豆产地在哪里,可可豆是怎么被发现的

      巧克力的主要成分是可可豆,目前巧克力的需求量非常大,种植可可豆的人也非常多,那么,你知道可可豆产地在哪里吗?可可豆有哪些品种?下面我们一起去看看吧。