达到多大规模的数据,才值得用大数据的方式来处理?

现在这个概念很火Hadoop等MR的框架也日渐成熟。但究竟到了什么级别的数据值得用大数据的方式来处理呢?

本身在工作中经常会需要处理一些上百G的数据和日志,一般随便写一个scala的并行脚本单机的处理速度也已经完全可以接受了(硬件是i7 8核 + 16G + SSD),基本不用等太久,做点别的事情回来看看就有结果。

这种情况下如果要写成用MR的脚本势必在编程效率,测试和部署上大打折扣(本人没用过Hadoop,只用过一段时间GAE)。对于目前的数据量显然并不值得用更多的developer hour来换CPU hour

当然这个数据量比起动辄PB的自然是小巫见大巫,所以才会上来问这个问题。如果数据规模(GB? TB?)并不是唯一的衡量尺度那还有什么其他标准呢?

达芬奇密码提问于 2018-07-23 11:50
1 个回答
  • 麦肯锡对于“大数据”的定义是:一种规模大到在获取、存储、管理、分析方面大大的超出了传统数据库软件工具能力范围的数据集合,具有4V特征,即Volumn(海量的规模)、Velocity(快速的流转)、Variety(多样的类型)和Value(低密度的价值)。“大”指的是数据规模,大数据一般指在10TB(1TB=1024GB)规模以上的数据量。

    我们应该怎么去理解这句话呢,首先,我们知道,在大数据出现之前,我们对数据的日常处理分析常常使用的是诸如sqlsever/oracle/mysql等传统关系数据库,处理T级别的数据量已经是这些数据库的极限,面对PB/EB/ZB级的数据量那就更无能为力了。那是不是以前就没有这么大的数据量呢,也不是,早在20世纪80年代,未来学家 阿尔文托夫勒 就将大数据称作“第三次浪潮的华彩乐章”,只不过当时由于数据处理能力有限,所以大数据一直没有被提起来,直到2005年,Hadoop项目诞生,从技术层面上搭建了一个使对结构化和复杂数据快速、可靠分析变为现实的平台。从这个时候开始,“大数据”才逐步成为互联网信息技术行业的高频词汇,为人们所熟知。从这个上,我们可以看出,技术的发展不仅在改变人们的生活,其本身也在推进着更高级的技术的诞生。话说回来,“大数据”是不是只是一种规模大的数据集合就够了呢,显然不是的,还必须具备4V的特征。先说说海量的数据规模,前面说到处理PB/EB/ZB级的数据量,正是大数据优势所在,处理数据量的PB化,以前是不可能的事情,但在大数据时代,将会是一个常态,这是一个什么概念呢,一部高清电影约4g,一个PB=1024*1024g,大数据瞬时处理1PB的数据量,就相当于瞬时处理26万部的高清电影的量。其次,说到“快速的数据流传”,怎么说呢,所有数据都有时效的,商业业务决策也是有时效的,如果不快速处理,得到结果来,那么就很可能会失去商机,所以,我们也在一直强调利用大数据做实时分析。再次,“多样的数据类型”又是什么呢,在大数据走进大众之前,传统的数据处理工具,往往处理的是标准的结构化的数据,也就是存在于我们的数据库表格中的数据。针对非结构化的数据,比如文本、语音、视频、图像等等,这是大数据要经常面对的事情。最后,“价值密度低”,这个概念有点抽象,怎么去理解呢,大数据是一个海量的数据,在大海中捞针,这针就是我们的宝藏。但我们把这个针经过一系列的分析处理确定是在某一平方米的水域,那么这个密度就会高很多了,在这一块区域去捞针就容易获得成功多了。

    另一个对于“大数据”的说法是:当现有的技术不能再管理你的数据或者提升数据质量的时候,你就得打开“大数据”的大门。你的数据越来越多,普通的存储器不能再存储这些数据了,因为它处理速度低下、搜索或分析时间太长、服务器运转不过来、新数据来源太快以至于不能及时处理,等等。所以,当你涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯的时候,你就需要换个方法来处理数据——“大数据”的应用。

    引入一些“大数据”产品,例如Spark或者Hadoop,寻找新的方式来处理ETL(数据仓库技术)流程、更复杂的负载平衡、更灵活的搜索工具。


    利益相关:网易猛犸大数据平台作为一站式的应用开发和数据管理平台,通过大数据开发套件,将数据开发、任务运维、自助分析、数据管理、项目管理等工作通过工作流的方式有效的串联起来,提供敏捷易用的用户操作界面,降低了大数据分析的使用门槛,显著的提高了数据开发工程师和数据分析师的工作效率。猛犸大数据平台在电商、音乐、云课堂学习、企业工业制造等领域已广泛应用,基于持续的需求驱动,通过多行业的业务验证,同时丰富全面的组件,提供完善的平台能力,满足不同类型的业务需求。

    在对数据的分析处理过程中,数据的安全重要性不言而喻。猛犸平台底层使用Kerberos认证,实现了数据的安全性和隔离性。除了认证系统,利用Ranger实现了细粒度的权限控制,保证了各个租户只能查看授权访问的表、库和字段。不仅如此,平台还提供审计功能,通过对用户平台行为进行记录、分析和汇报,用来帮助对事故追根溯源,提高了平台的安全性。点击可免费试用

    <strike></strike><strike></strike>