hadoop生态系统中的hive简单介绍及整理

作者: admin 分类: Hadoop 发布时间: 2018-03-08 11:34  阅读: 406 views

Hive是一个构建在Hadoop上的数据仓库框架,是应Facebook每天产生的海量新兴社会网络数据进行管理和机器学习的需求而产生和发展的。因为Hadoop性价比高,满足可伸缩性要求。

Hive的设计目的是让精通SQL性能(JAVA较弱)的分析师能够对FaceBook存放在HDFS中的大规模数据执行查询。Hive不支持常规的SQL更新语句,如:数据插入,更新,删除。

Hive一般是在工作站上运行,把SQL查询转换为一系列Hadoop集群上运行的MapReduce作业。Hive把数据组织为表,通过这种方式存储在HDFS的数据赋予结构,元数据存储在metastore数据库中。

安装Hive,首先需要有JAVA,windows环境下,需要Cygwin

Hive外壳环境是我们和Hive交互、发出HiveQL命令的主要方式。HiveQL是Hive的查询语言。受MySQL影响较大。

Hive外壳环境只是Hive命令提供的其中一项服务。

Hive所提供的服务列表

1.cli Hive的命令行接口(外壳环境)。这是默认的服务。

2.hiveserver 让Hive以提供Thrift服务的服务器形式运行,运行用不同语言编写的客户端进行访问。使用Thrift\JDBC\ODBC连接器的客户端需要运行Hive服务器来和Hive进行同行。

3.hwi Hive的web接口

4.jar 与hadoop jar等价。是运行类路径中同时包含hadoop和Hive类java应用程序的简便方法

5.metastore metastore和hive服务运行在同一个晋城里。使用这个服务,可以让metastore作为一个单独的远程晋城运行。

6.hive 客户端 以服务器方式运行Hive,可以在应用程序中以不同机制链接到服务器。

7.Thrift客户端 Hive Thrift客户端简化了在多种编程语言中运行Hive命令。

8.JDBC驱动

9. ODBC驱动

Hive与传统数据库相比

Hive在很多方面和传统数据库类似,但其底层对HDFS和MapReduce的一览意味着它的体系结构有别于传统数据,而这些区别又影响着Hive所支持的特性,进而影响着Hive的使用。

1. 读时模式和写时模式

2. 更新、事务和索引


   原创文章,转载请标明本文链接: hadoop生态系统中的hive简单介绍及整理

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!

发表评论

电子邮件地址不会被公开。 必填项已用*标注

更多阅读