Différences

Cette page vous affiche les différences entre la révision choisie et la version actuelle de la page.

--- filtre:hadooppig [2010/07/01 10:00]
ker2x
+++ filtre:hadooppig [2010/07/01 10:00] (Version actuelle)
ker2x
@@ Ligne 1: / Ligne 1: @@
+====== Tutorial Hadoop Pig ======
+Le awk taille adulte.
+===== Pourquoi ? Et à  quoi ca sert =====
+=== Pourquoi Hadoop Pig sur ce wiki ===
+  * Parce qu'il y a une page sur awk, et que Hadoop Pig fonctionne sur le même principe et le même type de fichier que awk. Sauf qu'il est fait pour des très gros volumes de données. Des lignes (records), des données tabulées (csv, etc). La syntaxe est très differente, mais sysadmin-friendly.
+  * Il peut etre utilisé de la même manière que awk, en ligne de commande. Par ex : pix -x local toto.pig
+  * Il peut être utilisé en local (-x local) , en utilisant le FS local (ce qu'on fera dans cette doc) ou en utilisant un cluster hadoop (-x mapreduce), avec un filesystem distribué (ce qu'on ne fera pas ici).
+  * Simple d'utilisation, simple à installer, moins gourmand que awk dès qu'on traite des gros volumes (on peut traiter des To de data avec peu de Ram).
+===== Installation pas à pas =====
+  * Pour la démo, je prend un mCloud chez OVH, une debian 5.0 64bits avec 256Mo de ram (mais si, ca suffit), a 0.01€/h
+  * Telecharger java 1.6 :  http://java.sun.com/javase/downloads/index.jsp
+    * si vous avez recuperé le .bin (comme moi), executer le .bin pour installer le jdk.
+    * deplacer le repertoire créé a un endroit bien plus pratique, genre /usr/local/java
+    * rajouter /usr/local/java/bin dans votre PATH
+    * creer la variable d'environnement JAVA_HOME=/usr/local/java
+  * Telecharger hadoop pig 0.7 : http://hadoop.apache.org/pig/releases.html
+    * detarrez ca ou vous voulez, /usr/local/pig dans mon cas
+    * rajoutez /usr/local/pig/bin dans le PATH
+C'est tout ;)
+===== Tester Hadoop pig =====
+Le plus simple pour tester que toute l'installation de java et de pig est correcte : Le shell **grunt**, pour le lancer, executez simplement **pig** (qui devrait maintenant etre dans votre PATH)
+Si tout va bien vous devriez avoir un truc du genre :
+<code>
+pig
+/06/30 17:26:26 INFO pig.Main: Logging error messages to: /tmp/pig_1277911586635.log
+-06-30 17:26:26,933 [main] INFO  org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop file system at: file:///
+grunt>
+</code>
+Bienvenue dans grunt \o/
+**A suivre**

filtre/hadooppig.txt · Dernière modification: 2010/07/01 10:00 par ker2x