cta

Get Started

cloud

Ready to Get Started?

Download sandbox

How can we help you?

closeClose button

Optimiser votre architecture de données avec Hadoop

Recorded on October 26th, 2016

Comment les entreprises gèrent la croissance des volumes et la variété des données sans augmenter les coûts ?
Est-ce que votre architecture de données est capable de gérer les nouveaux défis du Big Data ?
Rejoignez-nous pour ce webinar pour apprendre comment optimiser votre architecture de données et réduire ses coûts avec Hadoop.

Particulièrement, nous allons traiter les sujets suivants :

– Réduire les coûts de stockage en déplaçant les données vers Hadoop
– Optimiser les traitements type ETL et en les exécutant sur Hadoop
– Faciliter la collecte et l’ingestion de différentes sources de données via NiFi

Comments

  • Merci a tous d’avoir pris le temps de suivre ce webcast.
    Il a eu plusieurs questions de posées auxquelles je n’ai pu répondre faute de temps. J’y répondrais une a une dans les commentaires d’ici la fin de la journée

  • Question 1 : Est-ce que hive 2 génère aussi un job map-reduce ou est-il directement basé sur yarn ?

    => Il faut distinguer 2 choses :
    – le moteur d’exécution de Hive : MapReduce, TEZ, Spark
    – le gestionnaire de ressources : Yarn

    Une requête est réalisée par le moteur d’exécution ( défini en fonction du paramétrage de Hive ).
    Au moment de son l’exécution, et si Hive est configuré pour fonctionner avec Yarn, le moteur demande des ressources a Yarn qui lui sont alloués sous forme de containers…

  • Question 2 :

    Bonjour,

    Question au sujet de la présentation:

    Pourquoi du kafka ou du storm n’apparait pas pour l’injection de données?
    Est ce que Nifi est une altenative complète à ces outils?

    ——-
    => Pas tout a fait

    Kafka, Storm et NiFi font tous les 3 partis de HDF, et chacun a son utilité.

    -NiFi est particulièrement adapté pour l’ingestion des données. Grace a son architecture organisée autour de processeurs liés entre eux par des flux de données (le tout géré de manière graphique), NiFi facilite énormément la lecture, le routage et l’insertion des données.
    Il peut être utilisé a l’extérieur du cluster, par exemple pour récupérer des données machine pour les mettre sur HDF ou dans Hbase ou a l’intérieur du cluster pour gérer des flux de données entres application.
    Cela dit les capacités de transformation de NiFi restent limitées c’est la que des outils comme Storm ou Spark Streaming prennent tout leur sens.

    – Kafka est surtout un outil de stockage, il ne permet pas en tant que tel de déplacer la donnée.
    Il faut toujours un outil pour insérer les données dans les queues kafka et un (ou plusieurs) autre(s) pour lire depuis Kafka.
    C’est aussi un excellent outil pour découpler des traitements (transformation, enrichissement) de données entre eux.

  • Question 3 :

    Bonjour,
    Est-ce que Syncsort est aujourd’hui un composant à part entière de HDP?

    Merci

    ———-

    Non.
    C’est, par contre, un partenaire Hortonworks.
    Par ailleurs, c’est un très bon outils d’ELT capable d’utiliser Hadoop comme back-end d’exécution

  • Question 4 : Comment Hive peut faire des requêtes de type Join alors que les données sont distribuées sur plusieurs serveurs? Normalement les requêtes Join sont inaccessibles a travers les BD NoSQL? Merci

    => Hive n’est pas véritablement une base de données. C’est un interpréteur SQL sur HDFS.
    Il est tout a fait capable et faire des jointures (Left , Right , Full, Outer**) entre plusieurs tables (en réalité des fichiers stockés sous HDFS)
    cf : https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Joins
    **Comportement des outers joins sous Hive : https://cwiki.apache.org/confluence/display/Hive/OuterJoinBehavior

  • Leave a Reply

    Your email address will not be published. Required fields are marked *