Les fondamentaux du Big Data


Module M1

La formation « Les Fondamentaux du Big Data » a vocation à former des architectes et développeurs du SI (DSI, BI), les chefs de projets et managers techniques aux approches Big Data et aux technologies pouvant être employées. Elle fait rentrer le stagiaire dans un monde de technologies open source et donne une définition compréhensible et crédible du Big Data.

Cette formation s’adresse à des populations de formation technique (informaticiens, mathématiciens, physiciens, économistes ou tout autre domaine) ayant eu au moins une expérience de développement dans un langage de programmation quel qu’il soit.

Avec très peu de pré-requis elle est la formation idéale pour aborder le Big Data en toute facilité et en montrer l’énorme puissance.


Programme

  • Qu’est-ce que le Big Data?
  • Les deux composantes fondamentales d’un socle Big Data
  • Topologie des clusters Big Data, choix des distributions et du hardware
  • Les outils Big Data de l’écosystème Hadoop et au delà
  • La notion de système de fichiers distribué
  • Les différents systèmes de fichiers distribué
  • Les différents modèles de parallélisation de tâches (MPP, MPI, Map Reduce)
  • Les technologies supportant les modèles au sein de Hadoop (Yarn, MapReduce2, Storm, Spark)
  • La notion de Data Lake et les architectures Lambda, Kappa, Smack
  • L’ingestion et la découverte des données (Nifi, Sqoop, Hive/Spark SQL, Elastic Search / SolR + Kibana, LogIsland)
  • Les bases de données NoSQL (HBase, Cassandra, MongoDB, Couchbase, Redis, Neo4J, ArangoDB).
  • La data science – les algorithmes les plus utilisés – les librairies Spark MLLib, TensorFlow, PyTorch etc…
  • La visualisation de gros volumes de données