大数据技术框架都包括哪些内容?
大数据技术框架图如图所示,大数据技术框架主要包括以下方面的内容:
数据存储系统:最常见的就是分布式文件系统HDFS;如果需要使用NoSQL数据库功能,HBase是基于HDFS实现的一个分布式NoS
大数据技术框架图如图所示,大数据技术框架主要包括以下方面的内容: 数据存储系统:最常见的就是分布式文件系统HDFS;如果需要使用NoSQL数据库功能,HBase是基于HDFS实现的一个分布式NoSQL数据库。 大数据ETL工具:负责把业务数据从前端搬运到后台的大数据平台大数据技术架构,Sqoop是常见的结构化数据抽取工具;Flume和Logstach是用于抽取非结构化、半结构化数据工具。 基础层大数据引擎:所有大数据应用的底层核心引擎,主要是MapReduce和Spark。 分布式协调服务: Zookeeper,协调多个机器一起“友好” 高效工作的分布式调度工具。 分布式调度服务:任务顺序和时间(Azkaban、Oozie) 应用层大数据引擎:直接用MapReduce或Spark写程序比较困难,因此对基础层大数据引擎封装简化,提供一系列简易编程应用工具。 Pig/Hive/Spark SQL:面向SQL查询的编程工具。 Malhot:面向机器学习的分布式工具。 GraphX:面向图计算的分布式工具。 Elastic Search:面向搜索应用的分布式工具,不依赖基础层大数据引擎,比较独立。 大数据实时处理:实时采集数据,实时分析, Spark Streaming(大数据准实时计算)、Flink (大数据实时计算)、CDC或者OGG(结构化数据的实时抽取)。 (编辑:成都站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |