lunes, 31 de marzo de 2014

HBase - Importar Datos (SQOOP)


Probablemente una de las primeras cosas que tengamos que hacer tras implantar un sistema de Big Data, en mi caso Cloudera 4.8.1, será importar todos o buena parte de los datos de nuestros diversos sistemas de información.

Cloudera nos facilita diversos proyectos dentro de su ecosistema con los que trabajar y volcar esta información.


El primero que me gustaría presentaros es Apache HBase. Se trata de la "base de datos" de Hadoop, un sistema de almacenamiento de datos totalmente distribuido y escalable. Digo "base de datos" porque HBase realmente es lo que se conoce como una NoSQL, es decir, una base de datos no relacional en las que los datos almacenados no requieren de una estructura fija como hasta ahora ha venido sucediendo con las tradicionales bases de datos relacionales (RDBMS).

La aparición de estas NoSQL surgió de la necesidad por las grandes compañías (Google, Amazon...) de premiar el rendimiento frente a la coherencia de los datos, tarea en la que las tradicionales bases de datos invierten una gran cantidad de tiempo y recursos del sistema.

Así pues, podríamos decir que una NoSQL encaja a la perfección cuando la finalidad de nuestro proyecto es el almacenamiento y tratamiento de enormes tablas, con enormes me refiero a tablas de billones de filas por millones de columnas.

Lógicamente no vamos a tener que introducir toda esta cantidad de información a mano, sería un infierno hacerlo, así que llegados a este punto surge la necesidad de conocer como volcar toda o parte de la información almacenada en un tercer sistema.

En esta ocasión voy a explicar como importar datos de una MySQL pues seguramente muchos de los orígenes de nuestras fuentes de datos vayan a ser éstas.
Aquí es donde hace acto de presencia otra de las herramientas del ecosistema, SQOOP, herramienta que nos facilitará esta tarea y que a su vez utiliza mapreduce, una de las dos características que definen a un sistema Hadoop, para la importación de los datos.

Sqoop también permite la acción contraria, exportación de los mismos.

Antes de empezar deberemos asegurarnos que existen las variables de entorno $HBASE_HOME y $SQOOP_HOME, aunque bueno, en caso de no existir alguna de ellas el comando sqoop fallará, teniendo que definirlas:
 # export $HBASE_HOME = /opt/cloudera/parcels/CDH-4.5.0-1.cdh4.5.0.p0.30/lib/hbase
 # export $SQOOP_HOME = /opt/cloudera/parcels/CDH-4.5.0-1.cdh4.5.0.p0.30/lib/sqoop

Caso 1: Importar Tabla con Primary Key

Este ejemplo importará todos los datos, filas y columnas, de la tabla <tableMySQL> de la base de datos <db> ubicada en el servidor <host> en la <tableHBase> y column-family <cf1>. Además, el usuario <user> con contraseña <passwd> deberá tener configurados los privilegios/permisos necesarios.
 # $SQOOP_HOME/sqoop import --connect jdbc:mysql://<host>/<db> --username <user> --password <passwd> --table <tableMySQL> --hbase-table <tableHBase>  --column-family <cf1> --hbase-create-table
El argumento hbase-create-table creará la tabla <tableHBase> en caso de no existir.

Caso 2: Importar Tabla sin Primary Key

Ahora bien, si la tabla origen carece de primary key, deberemos decirle nosotros a Sqoop como deberá construir la rowkey de la tabla HBase.

Para ello usaremos el argumento hbase-row-key que constará del nombre de una o más columnas de la tabla MySQL, <column1,column2,columnN>.
$SQOOP_HOME/sqoop import --connect jdbc:mysql://<host>/<db> --username <user> --password <passwd> --table <tableMySQL> --hbase-table <tableHBase> --column-family <cf1> --hbase-row-key <column1,column2,columnN> --hbase-create-table
En caso de haber coincidencias en la rowkey NO se crearán diferentes entradas/filas en HBase, sino una única, pues la rowkey será idéntica. Otra cosa es que HBase almacenará el valor previo como lo que se conoce como version.

El número de versiones para cada celda que por defecto HBase almacena es 3.

De paso sea dicho, NO  penséis en modificar este valor a digamos infinito para tener un histórico de los valores. Esto es totalmente desaconsejable y afectará al rendimiento de vuestra plataforma.

Para solucionarlo o bien pensamos en incluir la fecha como parte de nuestra rowkey o implementamos lo que se conoce como time-series database. Un ejemplo de esto último sería el proyecto de monitorización OpenTSDB

Caso 3: Importar algunas columnas

No siempre querremos importar todas las columnas de una tabla así que podremos limitarlo gracias al argumento columns de la siguiente manera:
$SQOOP_HOME/sqoop import --connect jdbc:mysql://<host>/<db> --username <user> --password <passwd> --table <tableMySQL> --hbase-table <tableHBase> --columns <column1,column5,column10> --column-family <cf1> --hbase-row-key <column1> --hbase-create-table
Ahora bien, deberemos asegurarnos que la columna que vayamos a usar como rowkey deba estar incluida en la lista de columnas a importar, de otro modo Sqoop finalizará satisfactoriamente, pero no grabará nada en HBase.

Caso 4: Consulta SQL

Sqoop también nos permite importar el resultado de una sentencia SQL. Esto lo conseguiremos gracias al argumento query que nos permitirá definir dicha consulta tal cual lo hacemos en el lenguaje habitual de SQL. En caso de declararlo ya no será necesario incluir el argumento table.

La única limitación o más bien obligación que existe es incluir en ella la siguiente cláusula: where $CONDITIONS.
 # $SQOOP_HOME/sqoop import --connect jdbc:mysql://<host>/<db> --username <user> -password <passwd> --query 'select * from tablaMySQL where $CONDITIONS and column5 > 10' --split-by <column1> --hbase-create-table --hbase-table <tableHBase> --hbase-row-key <column1,column5,column10> --column-family <cf1>
Bueno, en caso de usar comillas dobles para declarar el argumento query debido a que en la consulta SQL hagamos uso de las comillas simples, deberemos escapar el carácter '$' de $CONDITIONS => \$CONDITIONS. Por ejemplo:
 # $SQOOP_HOME/sqoop import --connect jdbc:mysql://<host>/<db> --username <user> -password <passwd> --query "select * from tablaMySQL where \$CONDITIONS and column5 > 10 and column1 like ''" --split-by <column1> --hbase-create-table --hbase-table <tableHBase> --hbase-row-key <column1,column5,column10> --column-family <cf1>




Pues hasta aquí llega este breve tutorial acerca de cómo importar datos de una MySQL en HBase.

En caso de necesitar mayor información os remito a la siguiente guía: User Sqoop Guide; O al libro Apache Sqoop Cookbook (100% recomendable).

1 comentario:

  1. Excelente artículo de como usar Sqoop en HBASE.
    Si tienes ejemplos de una ingesta con base de datos Oracle 11G, te agradecería bastante.

    ResponderEliminar