SDP大数据存储管理平台
SDP是一套集成了Sqoop、Kafka、NiFi、Spark、Storm、Hive、Hbase等当前主流大数据技术,实现了分布式数据接入、数据存储、数据处理以及数据应用的基础大数据存储管理平台。SDP由飔拓自主研发,拥有自主知识产权
。
特点 :
扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。
成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理
数据。这些服务器群总计可达数千个节点。
高效率(Efficient):通过分发数据,hadoop 可以在数据所在的节点上并行
地(parallel)处理它们,这使得处理非常的快速。
可靠性(Reliable):hadoop 能自动地维护数据的多份副本,并且在任务失
败后能自动地重新部署(redeploy)计算任务。
海量数据产品技术架构,分为以下五个层次,从上至下来看,它们分别是:
数据源,计算层,存储层,查询层和产品层。其中包括:
数据来源层:存放着交易数据。在数据源层产生的数据,通过 DataX,DbSync
和 Timetunel 准实时的传输到下面第 2 点所述的“云梯”。
计算层:在这个计算层内,采用的是 hadoop 集群,这个集群,暂且称之为
云梯,是计算层的主要组成部分。在云梯上,系统每天会对数据产品进行不同的
mapreduce 计算。
存储层:在这一层,采用了两个东西,一个使 MyFox,一个是 Prom。MyFox
是基于 MySQL 的分布式关系型数据库的集群,Prom 是基于 hadoop Hbase 技术
的的一个 NoSQL 的存储集群。
查询层:在这一层中,有一个叫做 glider 的东西,这个 glider 是以 HTTP 协议
对外提供 restful 方式的接口。数据产品通过一个唯一的 URL 来获取到它想要的
数据。同时,数据查询即是通过 MyFox 来查询的。
产品层:即根据需求,生产出对应的封装产品。
技术架构