Apache HIVE
Présentation
Apache Hive est le standard Haddop en matière de requêtes SQL sur de gros volumes de données pouvant atteindre des péta-octets. Il fournit un ensemble d'outils puissants d’accès aux données Hadoop pour les analystes et les développeurs. Hive facilite l'interrogation et la gestion de grands ensembles de données résidant sur stockage distribué.
Apache Hive est le standard Haddop en matière de requêtes SQL sur de gros volumes de données pouvant atteindre des péta-octets. Il fournit un ensemble d’outils puissants d’accès aux données Hadoop pour les analystes et les développeurs. Hive facilite l’interrogation et la gestion de grands ensembles de données résidant sur stockage distribué. Par ailleurs, Hive intègre Apache HCatalog, une couche de gestion de tables qui expose les métadonnées et fournit des connecteurs à divers applicatifs qui peuvent ainsi manipuler les données de l’entrepôt. Il propose également un service de notification qui permet à des outils de workflows tels que Ooozie d’être avertis lorsque de nouvelles données sont disponibles dans l’entrepôt.
Apache Hive is data warehouse infrastructure built on top of Apache Hadoop for providing data summarization, ad-hoc query, and analysis of large datasets. It provides a mechanism to project structure onto the data in Hadoop and to query that data using a SQL-like language called HiveQL (HQL). Naturally, there are a bunch of differences between SQL and HiveQL, but on the other hand there are a lot of similarities too, and recent releases of Hive bring that SQL-92 compatibility closer still.
Feature | Description |
---|---|
Familiar |
|
Fast |
|
Scalable and Extensible |
|
Compatible |
|
Hive on LLAP (Live Long and Process) makes use of persistent query servers with intelligent in-memory caching to avoid Hadoop’s batch-oriented latency and provide as fast as sub-second query response times against smaller data volumes, while Hive on Tez continues to provide excellent batch query performance against petabyte-scale data sets.
The tables in Hive are similar to tables in a relational database, and data units are organized in a taxonomy from larger to more granular units. Databases are comprised of tables, which are made up of partitions. Data can be accessed via a simple query language and Hive supports overwriting or appending data.
Within a particular database, data in the tables is serialized and each table has a corresponding Hadoop Distributed File System (HDFS) directory. Each table can be sub-divided into partitions that determine how data is distributed within sub-directories of the table directory. Data within partitions can be further broken down into buckets.
Hive supports all the common primitive data formats such as BIGINT, BINARY, BOOLEAN, CHAR, DECIMAL, DOUBLE, FLOAT, INT, SMALLINT, STRING, TIMESTAMP, and TINYINT. In addition, analysts can combine primitive data types to form complex data types, such as structs, maps and arrays.