Hive 是什么
在接触一个新的事物首先要回到的问题是:这是什么?
这里引用 Hive wiki 上的介绍:
Hive is a data warehouse infrastructure built on top of Hadoop. It provides tools to enable easy data ETL, a mechanism to put structures on the data, and the capability to querying and analysis of large data sets stored in Hadoop files. Hive defines a simple SQL-like query language, called QL, that enables users familiar with SQL to query the data. At the same time, this language also allows programmers who are familiar with the MapReduce fromwork to be able to plug in their custom mappers and reducers to perform more sophisticated analysis that may not be supported by the built-in capabilities of the language.
Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。
Hive does not mandate read or written data be in the “Hive format”—there is no such thing. Hive works equally well on Thrift, control delimited, or your specialized data formats. Please see File Format and SerDe in Developer Guide for details.
Hive 没有专门的数据格式。 Hive 可以很好的工作在 Thrift 之上,控制分隔符,也允许用户指定数据格式。
Hive 资源
Hive 本身提供了较丰富的文档,以下链接提供了 Hive 的一些基础文档:
FaceBook 镜像(被墙):[[http://mirror.facebook.com/facebook/hive]]
Wiki 页面:[[http://wiki.apache.org/hadoop/Hive]]
入门指南:[[http://wiki.apache.org/hadoop/Hive/GettingStarted]]
查询语言指南:[[http://wiki.apache.org/hadoop/Hive/HiveQL]]
演示文稿:[[http://wiki.apache.org/hadoop/Hive/Presentations]]
蓝图:[[http://wiki.apache.org/hadoop/Hive/Roadmap]]
大多数有关 Hive 的使用和特性的问题可以从以上的链接中寻找到答案。当然,由于 Hive 本身在不断的发展中,文档的更新速度很多时候都赶不上 Hive 本身的更新速度,若希望了解 Hive 的最新动态或者遇到 Bug,可以加入 Hive 的邮件列表:
* User: hive-user@hadoop.apache.org
* Developer: hive-dev@hadoop.apache.org
Hive 的下载配置安装
请参考入门指南, 这里给出最基本的提纲:
安装配置 Hadoop。
安装配置数据库(mysql 等)。
获得 Hive 源码或者可执行代码。wget http://www.apache.org/dist/hadoop/hive/hive-0.5.0/hive-0.5.0-bin.tar.gz
tar xzf hive-0.5.0-bin.tar.gz
cd hive-0.5.0-bin
配置 Hive 如何访问数据库,如何访问 Hadoop。
运行 Hive。
当看到 Hive 提示符‘Hive>’的时候,恭喜,你可以开始你的 Hive 之旅了。
分享到:
相关推荐
hive hadoo MapReduce 介绍Hive。Hive入门,Hive学习笔记
Hadoop Hive入门学习笔记.pdf
包括了Hive简介、安装搭建、常用操作、函数整理、优化整理。比较适合新手入门!个人整理,有问题请留言或发送邮件至name_hanlin@163.com
适用人群:hive学习童鞋,hive方面从业人员 从hive的搭建 到 hive的分区表/内部表/外部表/分桶等sql讲解
参考笔记,新手入门供新手参考,有需要的可以下载学习。
https://blog.csdn.net/bingdianone/article/details/84333601 博客的测试数据
语法笔记hive干货,没有废话,基础语法,自己学习中记录的基础简单内容,入门级别,分桶,分区,查询,常用命令等。
《Hive 口袋手册》是笔者根据自己对 Apache Hive 的知识点的理解汇总而成的小册子。...写这本册子的初衷一是为了总结自己关于 Hive 的学习过程,二是为了将自己学习过程中七零八乱的笔记做个整理、汇总。
本文档是 hive 的入门学习笔记,其已经被在 https://blog.csdn.net/dec_sun/article/category/8872967 上被上传,这是本地文档。如有需要,可以下载。
5、Hadoop生态圈的学习笔记,主要记录HDFS、MapReduce、Yarn相关读书笔记及源码分析等 5.1 HDFS Hadoop快速入门 HDFSOverView Hadoop广义生态系统 Hadoop高可用配置 HadoopCommon分析 HDFS集群相关管理 HDFS Shell ...
1-1-算法平台(16篇) 文章编号 文章译文 链接 101 【Linux】常用命令 103 git语法速查表。 141 【Docker】入门 150 【SQL】SELECT专题。 153 【spark,Hive,Hadoop,yarn】汇总 154 【火花】DataFrame。 155...
我的个人订阅号,会定期分享我的读书笔记, 期待你的关注,我们一起学习交流,共同进步 IT PDF电子书 网络应用框架 Netty权威指南第2版.pdf HTTP权威指南.pdf 数据库 MySQL技术内幕InnoDB存储引擎第2版.pdf 深入浅出...
Spark Core学习 对最近在看的赵星老师Spark视频中关于SparkCore的几个案例进行总结。 目录1.WordCountWordCount 执行流程详解2.统计最受欢迎老师topN1. 方法一:普通方法,不设置分组/分区2. 方法二:设置分组和过滤...
学习大数据的笔记,涉及工作中遇到的各种场景以及解决方案等。会对初步学习大数据入门的同事会有帮助。同时还有一些pathon、操作系统基本知识