对于运营商而言,数据分析是一项常年的重要工作,经营分析系统的历史数据规模经常会达到PB级,如历史通话详情、宽带办理、话费充值信息等,在进行话费清单查询等业务时,大量数据需要进行热数据分析和关联查询。5G时代的到来,让本就庞大的数据规模迎来进一步暴增,如何高效存储和管理这些海量数据是运营商持续面临的问题。
作为一家专注大数据、云计算等领域核心技术的高科技软件企业,北京东方国信科技股份有限公司(简称“东方国信”)一直为运营商提供大数据分析解决方案,为了存储这些海量数据,东方国信BEH大数据企业版主要采用传统存算融合架构进行数据分析和存储,但是存算融合架构仍然面临的诸多的挑战,例如——
文件规模:使用单个NameNode性能受限于单节点性能瓶颈,通常更大文件规模量级只能支持到亿级别。
存储成本:BEH与HDFS相同,存储机制采用三副本存储,空间利用率低,有效存储可用空间利用率33%,随着数据量的持续增长,存储成本居高不下。
扩展难题:因计算和存储融合,单台服务器的存储空间有限,针对单台进行容量扩展导致计算资源“空旋”浪费。
深信服EDS存算分离解决方案,让海量数据存储不再成为困扰
为了解决传统存算融合架构长久以来存在的弊端,东方国信BEH和深信服分布式存储EDS研发人员经过近半年的不断投入和测试,终于探索出了一条新的大数据存储管理方案——EDS大数据存算分离解决方案,构建新一代运营商经分系统大数据存储建设之道。
在近半年的测试中,双方基于运营商大数据实际业务场景与传统存算一体融合方案,进行了全面细致,多场景,多维度的严格对比测试。测试结果表明在大数据存算分离场景下,东方国信BEH大数据企业版与深信服EDS企业级分布式存储能够实现相互兼容,且在高压力环境下针对TestDFSIO大文件读写、TeraSort数据排序、仓储场景下冷热数据关联查询、存量数据迁移,Hbase随机读写等对比测试中,EDS存算分离方案各项性能表现优异。
在文件规模、存储成本以及扩展性方面,EDS存算分离方案实现了全面升级。
1.突破性能瓶颈
EDS存算分离方案采用全分布式Namenode,相比于单个Namenode存储架构,不再受限于性能瓶颈,单一命名空间文件数量支持可达百亿级别。
2.降低存储成本
通过纠删码技术提供高存储利用率来进行历史数据保存,相比BEH存储可用空间提高2倍以上,在不影响在线热数据的性能的前提下,帮助用户节省针对历史数据的开支和成本。
3.解决扩展难题
EDS 分布式存储HDFS提供统一命名空间,分布式命名空间架构无规模瓶颈,可以持续扩展集群以存储历史数据,提高大数据集群灵活性并消除瓶颈规模,也避免了计算节点的资源浪费。
本次测试的各项优异表现,使双方增加了重构运营商传统大数据经分系统数据存储管理架构的信心,未来双方将共同为运营商等企业级用户提供存储效率更高、性价比更优、管理更智能的大数据存算分离解决方案。