La Data Science en R et en python sur Spark


Module C20

La formation « La Data Science en R et en python sur Spark » a vocation à former de futurs analystes ou encore “data scientists” à savoir des spécialistes de la science de l’analyse de données sur des grosses volumétries. Elle fait rentrer le stagiaire dans un monde d’algorithmes et de techniques pouvant être très rapidement mis en pratique grâce à la plateforme Spark.

Cette formation s’adresse à des populations de formation technique (informaticiens, mathématiciens, physiciens, économistes ou tout autre domaine) ayant eu au moins une expérience de développement dans un langage de programmation quel qu’il soit et à l’aise avec des notions mathématiques du niveau terminale S (vecteurs, matrices, probabilités etc.).

Avec très peu de pré-requis elle est une belle formation pour entrer dans ce monde de la science des données avec les outils que favorisent les statisticiens.


Programme

Jour 1 : Apprentissage de R

  • Installer R Studio
  • Les structures de données et instructions du langage R avec TP.

Jour 2 et 3 : le langage Spark et la librairie Spark R

  • Pourquoi Spark
  • Installer Spark
  • Le shell spark
  • Les RDDs (Résilient Distributed DataSets)
  • L’API Spark (les transformations, les actions) avec TPs en Spark R
  • La notion de Data Frame avec TP
  • Transformer une Data Frame en table SQL et la requêter avec TP
  • Visualiser le résultats de requêtes avec R Studio
  • Configurer et optimiser un job Spark