Cette vidéo de formation s'adresse à tous les développeurs et administrateurs système. Elle a pour vocation de présenter le paradigme MapReduce, ses spécificités et ses finalités.
Après une étude succincte de la théorie du paradigme MapReduce, notamment le rôle des deux fonctions essentielles : la fonction map() et la fonction reduce(), nous l'appliquerons sur un exemple simple et concret.
Aussi, nous...
Niveau Expert
Durée 2h33
Parution septembre 2016
Cette vidéo de formation s'adresse à tous les développeurs et administrateurs système. Elle a pour vocation de présenter le paradigme MapReduce, ses spécificités et ses finalités.
Après une étude succincte de la théorie du paradigme MapReduce, notamment le rôle des deux fonctions essentielles : la fonction map() et la fonction reduce(), nous l'appliquerons sur un exemple simple et concret.
Aussi, nous analyserons en MapReduce des journaux Apache communément appelés access log et ce dans plusieurs langages : Java, Scala, mais également Python, JavaScript, PHP et même Bash !
Dans un second temps, nous nous focaliserons sur les fonctions MapReduce au sein de la plateforme Big Data Hadoop. Après avoir étudié leur fonctionnement au sein du framework d'Apache, nous exécuterons un exemple développé en Java, puis regarderons comment lancer un MapReduce programmé précédemment dans n'importe quel langage grâce à Hadoop Streaming. Nous utiliserons également Hadoop Pipes pour faire fonctionner un MapReduce codé en C++.
Enfin, nous développerons des fonctions MapReduce plus complexes afin de nous familiariser avec les notions avancées du paradigme et de nous entraîner à la façon de penser pour concevoir des algorithmes performants. Les notions de jointures, de secondary sort ou de clé composite seront alors présentées.
Nous finirons par des outils permettant de multiplier nos possibilités, en combinant les fonctions MapReduce avec Sqoop pour l'échange de données avec MySQL et Oozie pour automatiser les workflows.
Des éléments complémentaires sont en téléchargement sur le site www.editions-eni.fr.
Consultant et formateur indépendant, Simon GILLIOT, est expert Hadoop et HBase et certifié par Cloudera. Il met en place de nombreuses infrastructures et bénéficie d’une riche expérience dans le domaine du Big Data. Il intervient auprès des professionnels pour apporter des solutions efficaces aux besoins de très haute performance, de résilience et de scalabilité. Il a enregistré cette vidéo pour partager son savoir sur cet environnement.