flume是cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,flume提供对数据进行简单处理,并写道各种...
Hadoop
常用的导入工具之Sqoop将数据导入到HDFS
不需要重新写一个应用程序将数据导入HDFS中,值得考虑用一些线程的工具将数据导入。这些工具涵盖了很多常用的需求。 Apache Flume是一个将大规模流数据导入HDFS的工具。最典型的应用是从另外一个系统...
Pig,Hive,HBase之间的关系以及使用场景描述
先简单整理下这三个架构的基本知识。 Pig是一种数据流语言,为大型数据集的处理提供了更高层次的抽象,可以快速轻松的处理巨大的数据。当想在数据上做一些转换,并不想编写Ma...
hadoop生态系统中的Hbase简单介绍及整理
Hbase是一个在HDFS上开发的面向列的分布式数据库,可以实时地随机访问超大规模数据集。 虽然数据库存储和检索的实现可以选择很多不同的策略,但是绝大多数解决办法,特别是关系数据库技术的...
hadoop生态系统中的hive简单介绍及整理
Hive是一个构建在Hadoop上的数据仓库框架,是应Facebook每天产生的海量新兴社会网络数据进行管理和机器学习的需求而产生和发展的。因为Hadoop性价比高,满足可伸缩性要求。 Hive的设计目的是...
Hadoop生态系统中的pig框架简单介绍以及整理
Pig为大型数据集的处理提供了更高层次的抽象。MapReduce使作为程序员的你能够自己定义一个map函数和一个紧跟其后的reduce函数。但是,你必须是你的数据处理过程与这一连续的map和reduce模式相匹配。...
HADOOP序列化框架的使用以及AVRO介绍
Hadoop有一个抽象的文件系统概念,HDFS只是其中的一个实现。 java抽象类org.apache.hadoop.fs.FileSystem定义了Hadoop中的一个文件系统借口。 hadoop是用Java写的,通过Java API可以调用所有Hadoop文件系统的交...
HDFS命令行接口/文件系统的基本操作
针对HDFS的命令行接口有两种方式 hdfs dfs -ls 针对当前环境的文件系统的环境,进行查看处理。 Hadoop fs:使用面最广,可以操作任何文件系统。 hadoop dfs与hdfs dfs...
namenode失效后的处理方式以及故障切换与规避(HDFS的高可用性)
通过联合使用在多个文件系统中备份namenode的元数据和通过备用namenode创建监测点能防止数据丢失,但是依旧无法实现文件系统的高可用性。 Namenode依旧存在单点失效(SPOF)问题。如果namenode失效了...
HDFS集群中namenode和datanode的关系
HDFS集群有两类节点以管理者-工作者模式运行,即一个namenode(管理者)和多个datanode(工作者)。客户端(client)代表用户通过namenode和datanode交互来访问整个文件系统。 namenode管理文件系统的...
HDFS(Hadoop Distributed File System)的设计以及概念
当数据集的大小超过一台独立的物理计算机的存储能力时,就有必要对它进行分区(partition)并存储到若干台单独的计算机上。管理网络中跨多台计算机存储的文件系统成为分布式文件系统。该系统架构于网络之上,...
hadoop中combiner函数的作用以及范例示例
集群上的可用宽带限制了MapReduce作业的数量,因此尽量避免map和reduce任务之间的数据传输是有利的。Hadoop允许用户针对map任务的输出指定一个combiner(就像mapper和reducer一样) combiner函数的输出作为red...
hadoop将MapReduce计算转移到存储有部分数据的各个机器的具体过程
首先定义一些术语。MapReduce作业(job)是客户端需要执行的一个工作单元:它包括输入数据、MapReduce程序和配置信息。Hadoop将作业分成若干个小任务(task)来执行,其中包括两类任务:map任务和red...
Java MapReduce程序实现分析历年的温度数据
阅读完使用Hadoop来分析历年的温度数据(map,reduce处理流程)后,应该了解了MapReduce程序的工作原理。 代码实现的时候,我们需要 1. 一个map函数 (由Mapper类实现) 2. 一个reduce函数 3. 一些用来运行作...
使用Hadoop来分析历年的温度数据(map,reduce的处理流程解释)
MapReduce提出一个编程模型,该模型抽象出这些硬盘读写问题并将其转换为一个数据集(由键值对组成)的计算。由map和reduce两部分组成。而且只有这两部分提供对外的接口。 MapReduce看似采用了一种蛮力方法。...