For investors
股价:
5.36 美元 %For investors
股价:
5.36 美元 %认真做教育 专心促就业
大数据技术收敛,并进入普惠和业务大规模应用的阶段,渗透到各行各业。超大规模数据计算和基于数据的智能决策,已经是企业业务数据化运营的重要基础。不过,在后红海时代,大数据体系发展有3个疑问值得我们关注:
疑问1:引擎发展呈现跨界的趋势,但最终是否能够诞生一套引擎满足多样的计算需求,并兼顾通用性和效率?
随大数据系统整体架构的稳定,各种引擎的发展逐渐进入收敛期,批计算、流计算、交互分析、机器学习收敛成为四个核心计算模式,每个模式均有主线开源引擎成为事实标准。
过去3年没有再诞生主流的开源计算引擎(每个模式中,引擎的发展脉络详见第二章节)。同时,引擎边界开始变得模糊,HTAP等Hybrid模式成为探索的新趋势,计算模式是否进一步收敛,收敛的终态会是什么样子,是个热点话题。
疑问2:关系模型之外,是否会发展出其他主流计算范式?
大数据领域整体还是以二维关系表达和计算为基础(RelationalDB的理论基础),是否有新的计算范式在数据库领域也持续讨论了多年,尽管有包括图计算在内的其他计算范式,但过去的40年,关系运算持续成为主流。
其中核心原因是二维关系表达更贴近人的理解能力,或者说高维表达和处理很难被人理解和处理。但关系表达有显著的短板,它无法处理半结构化和非结构化的数据(比如音视图类的数据)。
近几年兴起的深度学习技术,带来了一种全新的处理方式,海量正交化的高维特征作为输入,由深度神经网络理解数据,以模型作为产出的引擎计算出结果。这种方式避免人脑对数据处理的局限性,可以在更高维度更复杂数据上做处理,给未来提供了一种新的处理方式的可能性。
但深度学习核心仍然在寻找“最好”的co-relation,可解释性,推导逻辑以及对结果正确性保证都不够好。
疑问3:基于开源自建与直接选购企业级产品,谁更能获得用户的认可?
开源软件是大数据发展的关键推手,助力大数据系统的普及化。但面临如下挑战:开源系统的软件交付模式,也给很多客户带来高维护成本。
以一个典型的腰部互联网企业为例,一个100台规模的大数据平台硬件投入大约200万/年,同时需要维持一个3-5人的研发/运维团队,年成本200-300万/年。综合TCO高达450万/年。
这也是为什么像Snowflake这样的自研企业级产品流行的原因,大多数不具备深度研发能力的公司,愿意为更丰富的企业级能力和更低的综合TCO买单;大数据系统开发进入深水区,投资巨大,需要高商业利润才能支持。
事实上,云计算四巨头均有自己的自研产品提升利润率的同时也提升差异化竞争力(例如AWSRedshift,Google BigQuery,阿里云飞天MaxCompute)。
而每个开源社区背后无一例外均有商业公司推出企业版(例如Databricks之于Spark,VVP之于Flink、Elastic之于Elasticsearch)。
因此,长期看,大多数用户(特别是中小型)进入“技术冷静期”后,开始审慎考虑综合投资收益,考虑上云、以及直接采购企业级产品+服务(放弃自建平台)。
【免责声明】本文系本网编辑部分转载,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与管理员联系,我们会予以更改或删除相关文章,以保证您的权益!更多内容请添加danei0707学习了解。欢迎关注“达内在线”参与分销,赚更多好礼。