博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Hadoop 学习
阅读量:4710 次
发布时间:2019-06-10

本文共 972 字,大约阅读时间需要 3 分钟。

 Core/Common

为其他子项目提供支持的工具,包括FileSystem、RPC、和串行化库、提供API

Avro

用于数据序列化的系统,数据的读和写是在模式下完成,数据和模式都是自描述的,客户端和服务端通过握手协议进行模式的交换。客户端和服务端拥有相同的全部的模式,不同模式下的相同命名字段、丢失字段和附加字段得到了很好的解决。

MapReduce

是一种编程模式,用于大规模数据的并行处理,让编程人员不用关注分布式并行编程。核心理念是映射map、化简reduce。MapReduce工作时,先指定一个map函数,把输入的kv键值对,转换成一组新的kv键值对,经过一定处理后交给reduce,reduce对相同key下的所有value进行处理,再输出kv键值对作为最终的结果。

HDFS

分布式文件系统,具有:高一致性、检测和快速恢复硬件故障、流式的数据访问、简化一致性模型、TCP通信协议

有NameNode、DataNode、Client三个角色

Chukwa

数据收集系统,监控和分析大型分布式系统的数据。在HDFS和MapReduce基础上搭建的

Hiv

建立在Hadoop基础上的数据仓库,提供了一些用于数据整理、特殊查询和分析存储在Hadoop文件中数据集的工具。提供了类似于SQL的Hive QL语言。提供了结构化的数据机制。

支持三种连接模式:Single User Model、Multi User Model、Remote Server Model

四种数据模型:Table,Partition,Bucket(列hash,用户数据分割),Extern Table(只是一个过程)

HBase

分布式的、面向列的数据库,主要用于随机访问,实时读写的大数据。提供了非结构化的数据机制。

写数据时是锁行的。每次更新数据都会有一个时间戳,并产生一个新版本

HRegion(接收来自服务器的分配域,处理客户端的域读写请求并回写映射文件等)、HMaster(管理整个集群中的所有域)、HClient(查找用户域所在的服务器)组成

Pig

对大型数据进行分析和评估的平台。底层由一个编译器组成,运行时生成Map、Reduce序列。

 

转载于:https://www.cnblogs.com/zhb1190/p/6881766.html

你可能感兴趣的文章
asp.net Mvc Npoi 导出导入 excel
查看>>
vue-cli脚手架搭建项目整理笔记
查看>>
详细设计3天学习笔记
查看>>
在centos6.5 上安装最新版mysql
查看>>
使用代理模式来给交易模块添加缓存功能
查看>>
HTML5 and CSS3 开发
查看>>
金字塔 (动态规划)
查看>>
HDU 3518
查看>>
201671010110 2016 2017 2《java程序设计》
查看>>
Leetcode892.Surface Area of 3D Shapes三维形体的表面积
查看>>
剑指offer——二叉树的下一个节点
查看>>
MyEssay 之 Python正则表达式 —— 四种断言扩展的理解
查看>>
代码管理工具Git的安装及使用
查看>>
JAVA socket
查看>>
Linux 内核存取配置空间
查看>>
JS保留两位小数 四舍五入函数
查看>>
聊聊职场潜规则
查看>>
python读取命令行参数的方法
查看>>
用火车头采集器8.6免费版采集图片
查看>>
团队作业二
查看>>