Apache Hadoop, kézako?
Si on devait décrire Apache Hadoop entièrement, il faudrait surement plusieurs jours de formation. Mais c’est surement quelque chose dont on va entendre parler et utiliser tous les jours, si ce n’est pas déjà le cas! Facebook, Twitter et bien d’autres utilisent Apache Hadoop. Alors qu’est ce que c’est?
Apache Hadoop
Apache Hadoop c’est un projet de logiciels open source pour mettre en oeuvre des (très grands, énormes) systèmes distribués fiables et évolutifs (Reliable and scalable).
Apache Hadoop est constitués de modules:
- Hadoop Common: The common utilities that support the other Hadoop modules.
- Hadoop Distributed File System (HDFS™): A distributed file system that provides high-throughput access to application data.
- Hadoop YARN: A framework for job scheduling and cluster resource management.
- Hadoop MapReduce: A YARN-based system for parallel processing of large data sets.
Other Hadoop-related projects at Apache include:
- Avro™: A data serialization system.
- Cassandra™: A scalable multi-master database with no single points of failure.
- Chukwa™: A data collection system for managing large distributed systems.
- HBase™: A scalable, distributed database that supports structured data storage for large tables.
- Hive™: A data warehouse infrastructure that provides data summarization and ad hoc querying.
- Mahout™: A Scalable machine learning and data mining library.
- Pig™: A high-level data-flow language and execution framework for parallel computation.
- ZooKeeper™: A high-performance coordination service for distributed applications.
Source: http://hadoop.apache.org
Si votre objectif est de construire un système distribué de grande ampleur, Hadoop est fait pour vous!
Big Data, NoSQL, la gestion des données de demain
Les systèmes informatiques stockent de plus en plus de données. Le défi sera donc de traiter cette masse de données. Hadoop est surement le premier à fournir des outils pour cela. Aujourd’hui nous traitons des centaines de giga-octets ou des tera-octets (dans les systèmes les plus répandus), mais dans 5 à 10 ans nous aurons surement à traiter des peta-octets. Les contraintes et l’organisation des données est différente. L’analyse et les méthodes actuelles devront évoluer. Nous devons nous habituer à travailler sur des systèmes distribués avec des techniques différentes. Le NoSQL est aujourd’hui la référence dans les bases de données des systèmes distribués. Hadoop sera surement la pierre angulaire des futurs SI.
Découvrir Hadoop plus en détails
Pour cela rien de plus simple, il faut pratiquer! Avant ça il y a tout de même pas mal de documentations. Apache fournit toutes les informations ici: http://hadoop.apache.org/docs/current/.
Vous trouverez aussi des vidéos très intéressantes pour s’immerger dans le monde d’hadoop. Hortonworks présente des vidéos gratuitement et merci à eux!
Lancez-vous dans le monde Hadoop!
Basic Introduction to Apache Hadoop from Hortonworks on Vimeo.