课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
Hudi于2016年以“Hoodie”为代号开发,旨在解决Uber大数据生态系统中需要插入更新及增量消费原语的摄取管道和ETL管道的低效问题。2019年1月,Uber向Apache孵化器提交了Hudi,从而进一步推进了Uber的开源承诺,保证Apache Hudi可以在Apache软件基金会的开放治理和指导下长期可持续性地增长。
快速处理和访问PB级数据的能力对于整个数据生态系统的规模化增长至关重要。尽管如此,这种对规模和速度的综合需求并不总是可以自然地适配现有的批处理和流系统架构。
Hudi于2016年以“Hoodie”为代号开发,旨在解决Uber大数据生态系统中需要插入更新和增量消费原语的摄取管道和ETL管道的低效问题。为了与更广泛的大数据社区分享这些好处,Uber在2017年开源了Hudi。
2019年1月,我们向Apache孵化器提交了Hudi,从而进一步推进了我们的开源承诺,保证Apache Hudi可以在Apache软件基金会的开放治理和指导下长期可持续性地增长。
Hudi联合创始人Vinoth Chandar说:“考虑到Uber使用了这么多优秀的Apache项目,我们相信Apache社区驱动的开源开发方式将使我们能够与不同的贡献者合作,发展Apache Hudi。我们期待与Apache软件基金会合作,实现最佳实践,并为项目带来新的想法。”
随着时间的推移,在大数据开源社区的帮助下,Hudi已经发展成为一个通用的大数据存储系统,使得以下特性成为可能:
摄取和查询引擎之间的快照隔离,包括Apache Hive、Presto和Apache Spark;
支持回滚和存储点,可以恢复数据集;
自动管理文件大小和布局,以优化查询性能和目录清单;
准实时摄取,为查询提供最新数据;
实时数据和列数据的异步压缩。
Hudi目前管理着4000多个表,这些表在Uber上存储了几PB的数据,同时将Apache Hadoop仓库访问延迟从几个小时降低到30分钟以下,这证明了它的可伸缩性。Hudi还为数百个增量数据管道提供了支撑,与该公司以前使用的解决方案相比,它的成本更低,效率更高。
展望未来,该项目将与Apache软件基金会合作。请查看Apache Hudi项目页面以获得技术文档和社区参与指南。
查看英文原文:Uber Submits Hudi, an Open Source Big Data Library, to The Apache Software Foundation
选择的人多的机构就是好机构,达内每年近10万学员的选择,来达内给你一个不一样的培训体验。达内目前开设24大课程体系,Java编程、UI设计、网络营销、web前端培训等课程。达内每月开设免费课程试听训练营,欢迎来电预约免费试听,领取免费课程资料。来合肥计算机培训,让你的人生有不一样的精彩。
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!