For investors
股价:
5.36 美元 %For investors
股价:
5.36 美元 %认真做教育 专心促就业
大数据主要就是针对海量数据进行存储,分析,处理的一项IT技术,本文合肥达内IT培训机构小编就和大家一起学习一下大数据处理模式有哪些?
大数据的应用类型很多,主要的处理模式可以分为流处理模式和批处理模式两种。批处理是先存储后处理,而流处理则是直接处理。
1. 批处理模式
Google 公司在 2004 年提出的 MapReduce 编程模型是最具代表性的批处理模式。
MapReduce 模型首先将用户的原始数据源进行分块,然后分别交给不同的 Map 任务去处理。Map 任务从输入中解析出 key/value 对集合,然后对这些集合执行用户自行定义的 Map 函数以得到中间结果,并将该结果写入本地硬盘。Reduce 任务从硬盘上读取数据之后,会根据 key 值进行排序,将具有相同 key 值的数据组织在一起。最后,用户自定义的 Reduce 函数会作用于这些排好序的结果并输出最终结果。
MapReduce 的核心设计思想有两点:
将问题分而治之,把待处理的数据分成多个模块分别交给多个 Map 任务去并发处理。
把计算推到数据而不是把数据推到计算,从而有效地避免数据传输过程中产生的大量通信开销。
2. 流处理模式
流处理模式的基本理念是,数据的价值会随着时间的流逝而不断减少。因此,尽可能快地对最新的数据做出分析并给出结果是所有流处理模式的主要目标。
需要采用流处理模式的大数据应用场景主要有网页点击数的实时统计,传感器网络,金融中的高频交易等。
流处理模式将数据视为流,将源源不断的数据组成数据流。当新的数据到来时就立刻处理并返回所需的结果。
数据的实时处理是一个很有挑战性的工作,数据流本身具有持续到达、速度快、规模巨大等特点,因此,通常不会对所有的数据进行永久化存储,同时,由于数据环境处在不断的变化之中,系统很难准确掌握整个数据的全貌。
由于响应时间的要求,流处理的过程基本在内存中完成,其处理方式更多地依赖于在内存中设计巧妙的概要数据结构。内存容量是限制流处理模式的一个主要瓶颈。
合肥达内大数据培训免费试听课程火热报名中,带你轻松入行,26大课程全国45个城市,129家中心均可就近学习,学完后,达内老师会帮助进行面试辅导,在面试前,就带你跨过可能存在的坑,让你入职更加顺利。
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!更多内容请添加3216764521学习了解。欢迎关注“达内在线”参与分销,赚更多好礼。