For investors
股价:
5.36 美元 %For investors
股价:
5.36 美元 %认真做教育 专心促就业
我们在前几期的文章中给大家简单介绍了实时计算技术应用的一些基础知识等内容,而本文我们就继续来学习一下,大数据实时计算架构应用分析。
数据同步:
在上面这张架构图中,数据从Web平台中产生,通过数据同步系统导入到大数据平台,由于数据源不同,这里的数据同步系统实际上是多个相关系统的组合。数据库同步通常用Sqoop,日志同步可以选择Flume等,不同的数据源产生的数据质量可能差别很大,数据库中的格式化数据直接导入大数据系统即可,而日志和爬虫产生的数据就需要进行大量的清洗、转化处理才能有效使用。
数据存储:
该层对原始数据、清洗关联后的明细数据进行存储,基于统一的实时数据模型分层理念,将不同应用场景的数据分别存储在Kafka、HDFS、Kudu、Clickhouse、Hbase等存储中。
数据计算:
计算层主要使用Flink、Spark、Presto以及ClickHouse自带的计算能力等四种计算引擎,Flink计算引擎主要用于实时数据同步、流式ETL、关键系统秒级实时指标计算场景,SparkSQL主要用于复杂多维分析的准实时指标计算需求场景,Presto和ClickHouse主要满足多维自助分析、对查询响应时间要求不太高的场景。
实时应用:
以统一查询服务对各个业务线数据场景进行支持,业务主要包括实时大屏、实时数据产品、实时OLAP、实时特征等。
【免责声明】:本内容转载于网络,转载目的在于传递信息。文章内容为作者个人意见,本平台对文中陈述、观点保持中立,不对所包含内容的准确性、可靠性与完整性提供形式地保证。请读者仅作参考。更多内容请加danei0707学习了解。欢迎关注“达内在线”参与分销,赚更多好礼。