INF442 Traitement des données massives

Frank NIELSEN

X2013

P4

Un des objectif de ce cours est de se familiariser avec le language C++ pour le traitement de données massives.

Dans la première partie du cours, nous étudions la syntaxe et la programmation orientée objet en C++, et montrons comment profiler, optimiser et débogguer les programmes. Nous utiliserons les bibliothèques usuelles STL et Boost afin d'écrire du code moderne et efficace.

Dans la seconde partie, nous décrivons quelques méthodes algorithmiques pour l'apprentissage à partir des données, et nous démontrons leurs utilisations en pratique sur des applications concrètes et variées. Nous couvrirons les techniques de partitionnement de données pour la découverte automatique de classes (le clustering, l'apprentissage non-supervisé) puis les techniques de classification supervisé comme les machines à vecteurs de support et le méta-algorithme de boosting qui permet de fédérer un ensemble de classifieurs.

Dans la dernière partie du cours, nous nous intéressons à l'apprentissage sur des grands jeux de données en introduisant la problématique du calcul haute performance sur une grille informatique (calculateurs en réseaux -- clusters) grâce à l'interface applicative MPI.

Page du cours sur le catalogue