For investors
股价:
5.36 美元 %For investors
股价:
5.36 美元 %认真做教育 专心促就业
随着互联网的不断发展,越来越多的人都在学习达内大数据培训课程,今天合肥达内大数据培训就给大家简单介绍一下,大数据数据仓库概念与特点分享。
数据仓库,简称为DW(DataWarehouse的缩写),是一个很大的数据存储集合,通过对多样的业务数据进行筛选与整合,产出企业的分析性报告和各类报表,为企业的决策提供支持。
数据库大家都知道,是按照是按照数据结构来组织、存储和管理数据的仓库,常用的数据库有Mysql、Oracle、Mongodb等
但我们实际的项目中往往有不同的数据来源,并不只来源于数据库,有些数据储存在Mysql里,有些是用户的操作日志数据,甚至还有一些三方的数据,有的时候需要把这些数据整合在一起进行数据分析,数据仓库就在这样的情况下应运而生。
数据仓库的输入方是各种各样的数据源,终的输出用于企业的数据分析、数据挖掘、数据报表等方向。
数据仓库特点:
1、主题性
不同于传统的数据库是应用于某个项目,数据仓库则是围绕一个主题进行获取数据和分析数据,以此来满足数据分析的需求。
比如p2p平台一个月内发生了多少交易额,分析那个时间段内现金的流入和流出高,
2、集成性
我们上面说了,数据仓库的数据来源有数据库的数据、操作日志的数据、运营后台导入的数据、一些三方接口的数据,原始数据来源不同,存储方式也各不相同,如果要整合成终的数据集合,需要对数据进行抽取、清洗、转换的过程。
3、稳定性
数据仓库不允许对数据进行修改,只能进行查询和分析。
4、及时性
数据仓库一定要获取新的数据,这样数据分析出来的结果才是有效的。
数据仓库如何集成不同的数据源?
上面说了数据仓库要将不同的数据源集合起来,那如何集合呢?这里就要介绍ETL的概念,ETL的是Extract-Transform-Load的缩写,主要描了数据从来源迁移到目标的几个过程:
1、Extract(抽取)
先是读取数据源。
2、Transform(转换)
把数据转换成需要的纬度和格式,同时包含数据清洗,清洗掉一些噪音数据。
3、Load(加载)
把数据加载到目标仓库以供分析使用。
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。更多内容请加抖音太原达内IT培训学习了解。