解决方案> 分布式数据处理解决方案

分布式数据处理解决方案


分布式数据处理不仅是一种技术上的概念,也是一种结构上的概念。分布式数据处理的概念是建立在集中和分散这两种信息服务都集中/分散的问题归结起来就是建立综合的信息系统(集中)和对用户服务(分散)这两者结合的问题,规模的大小已不再是争论点。从理论上来说,分布式数据处理将这两个领域能最好地结合在一起。计算机系统不仅能连接到所有的业务领域,而且能致力于各业务领域的应用。由于所有的分布式系统都用一个网络联在一起,所以信息系统的综合也就很容易实现了。



数据处理架构 1470303528203794.png



4大数据 (1).png




架构特点 1470303528203794.png



4大数据 (2).png



存储层

数据存储层使用ORCLE、SQL等结构化数据库进行结构化数据存储,使用Hbase、ManagoDB等非结构化数据库进行非结构化数据存储。 


4大数据 (3).png



资源管理层

采用Yarn进行集群资源管理,Yarn安装于各层数据库上,是一个通用资源管理系统,可为上层应用提供的资源管理和调度。Yarn为集群在利用率、资源统一管理和数据共享等方面带来巨大好处。 


4大数据 (4).png



数据计算层

基于Yarn的数据管理系统之上,数据计算采用Spark架构。Spark架构是一个基于内存计算的集群计算系统,Spark的引入使数据计算更加快速。