
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
在大数据平台的建设过程中,很多从业多年的大数据架构师共同研究探讨后给出几个方面的内容建议。本文合肥IT培训小编给大家整理了一下,希望对大家有所帮助!
1. 安全模块
作为数据平台来讲,保障数据安全始终是第一要素。安全体系的建立主要包含以下几个方面:
(1)数据安全规范、安全等级制定
(2)用户系统
(3)基础组件层权限管理
(4)服务层权限管理
(5)用户认证
(6)秘钥管理
(7)流程审批
(8)数据加密脱敏
(9)审计
2.监控模块
数据安全之外,服务的稳定性算是平台的第二级指标。好的监控体系可以帮助预测风险定位问题。例如:
(1)提前预判磁盘容量
(2)定位内存、CPU资源问题
(3)发现异常任务
(4)节点宕机等问题
(5)查看该各服务负载,评估资源
3.存储模块
存储模块属于基础组件模块,主要采用hadoop生态系统的相关组件。面向不同的应用场景选择一种组件,例如:
hive:离线数仓
HBase:KV存储,可用于高度聚合后的固定指标,应对有较高并发请求的场景
Druid:面向OLAP场景,能够提供亚秒级、较高请求量且需要钻取能力的OLAP功能
Impala:在数仓数据基础上提供更高效的查询分析能力,适合即席查询场景,但是并不能处理更高的请求量。
4.计算模块
Yarn做统一资源管理,Spark或者Flink都可以作为统一流、批处理框架。或者阶段性允许两者并存。
5.管理模块
数据治理:数仓管理数据的主要平台,包括:
(1)元数据管理
(2)数据质量管理
(3)血缘关系管理
(4)数据安全、权限管理
(5)任务管理:包含管道任务、SQL任务、Shell任务等形态,数仓场景中SQL任务占整体任务的绝大多数。
(6)离线任务管理、调度:需要基于SQL自动生成任务之间的依赖关系,并且按照任务之间的依赖关系和优先级调度任务。
(7)流式任务管理:流式任务发布、监控、重启等操作。
合肥达内IT培训免费试听课程火热报名中,带你轻松入行,26大课程全国45个城市,129家中心均可就近学习,学完后,达内老师会帮助进行面试辅导,在面试前,就带你跨过可能存在的坑,让你入职更加顺利。
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!更多内容请添加3216764521学习了解。欢迎关注“达内在线”参与分销,赚更多好礼。