Ingénierie de la fouille et de la visualisation de données massives - RCP216

Réf. : 1701970F Mise à jour : 31 juillet 2024

Contenu

Objectifs

Cet enseignement s'intéresse à l'impact des caractéristiques des données massives (volume, variété, vélocité) sur les méthodes de fouille de données. Sont examinées les approches actuelles qui permettent de faire passer à l'échelle les méthodes de fouille, en insistant sur les spécificités des opérations de fouille en environnement distribué. Les caractéristiques mentionnées sont ensuite considérées de façon plus spécifique pour certains problèmes fréquents dans le traitement des données massives. Sont ainsi abordés les systèmes de recommandation et la recherche efficace par similarité, la classification automatique et l'apprentissage supervisé sur une plate-forme distribuée, les opérations spécifiques au traitement des données textuelles souvent hétérogènes, les implications de la vélocité sur la fouille de flux de données, l'analyse de grands graphes et de réseaux sociaux. L'UE s'intéresse ensuite au rôle de la visualisation et de l'interaction, non seulement dans la présentation des résultats, mais aussi dans les opérations de fouille de données.

Programme

1. Introduction : applications, typologie des données, typologie des problèmes
2. Approches : réduction de la complexité, distribution
3. Passage à l'échelle de quelques problèmes fréquents a. Recherche par similarité, systèmes de recommandation b. Classification automatique c. Fouille de données textuelles d. Fouille de flux de données e. Apprentissage supervisé à large échelle f. Fouille et visualisation de graphes et réseaux sociaux
4. Visualisation d'information : historique, applications, outils
5. Aspects éthiques dans la fouille de données. Le cours est complété par des travaux pratiques (TP) permettant de mettre en pratique des techniques présentées. Pour la partie fouille de données, les TP seront réalisés à l'aide de Apache Spark. Pour le travail sur le projet les auditeurs peuvent utiliser le JupyterHub du Cnam.

Validation / certification préparée

  • Niveau d'entrée : Sans niveau spécifique
  • Niveau de sortie : Sans niveau spécifique

Dates et lieux de formation

Organisme de formation : CNAM DE BRETAGNE
09 72 31 13 12
Lieu de formation : CNAM DE BRETAGNE
20 avenue Victor Le Gorgeu
29 Brest
Organisation :
  • Entrée sortie permanente
  • 45 heures
  • Formation entièrement à distance
Dispositif(s) / Financements : Financement autre (Entreprises, Individuels, AIF...)
Publics : Demandeur d'emploi ; Salarié ; Tout public
Type de parcours : Modulaire
Durée : 45 heures.

Prérequis : Bonnes connaissances mathématiques et statistiques générales, maîtrise de méthodes statistiques pour la fouille de données, connaissance de techniques de gestions de données massives faiblement structurées, connaissance de techniques de passage à l'échelle par distribution. Capacité à utiliser le système d'exploitation Linux, connaissance d'au moins un langage de programmation. Vous êtes encouragés à évaluer votre capacité à suivre cette UE en répondant au questionnaire en ligne accessible sur http://cedric.cnam.fr/vertigo/Cours/RCP216/questionnaire.html. Vous pouvez répondre sans vous identifier, les réponses vous sont données immédiatement et les résultats ne sont pas enregistrés.
Organisme de formation : CNAM DE BRETAGNE
09 72 31 13 12
Lieu de formation : CNAM DE BRETAGNE
1 Rue du Muguet
22 Lannion
Organisation :
  • Entrée sortie permanente
  • 45 heures
  • Formation entièrement à distance
Dispositif(s) / Financements : Financement autre (Entreprises, Individuels, AIF...)
Publics : Demandeur d'emploi ; Salarié ; Tout public
Type de parcours : Modulaire
Durée : 45 heures.

Prérequis : Bonnes connaissances mathématiques et statistiques générales, maîtrise de méthodes statistiques pour la fouille de données, connaissance de techniques de gestions de données massives faiblement structurées, connaissance de techniques de passage à l'échelle par distribution. Capacité à utiliser le système d'exploitation Linux, connaissance d'au moins un langage de programmation. Vous êtes encouragés à évaluer votre capacité à suivre cette UE en répondant au questionnaire en ligne accessible sur http://cedric.cnam.fr/vertigo/Cours/RCP216/questionnaire.html. Vous pouvez répondre sans vous identifier, les réponses vous sont données immédiatement et les résultats ne sont pas enregistrés.
Organisme de formation : CNAM DE BRETAGNE
09 72 31 13 12
Lieu de formation : CNAM DE BRETAGNE
32 Rue René Lote
Bât. 1
56 Lorient
Organisation :
  • Entrée sortie permanente
  • 45 heures
  • Formation entièrement à distance
Dispositif(s) / Financements : Financement autre (Entreprises, Individuels, AIF...)
Publics : Demandeur d'emploi ; Salarié ; Tout public
Type de parcours : Modulaire
Durée : 45 heures.

Prérequis : Bonnes connaissances mathématiques et statistiques générales, maîtrise de méthodes statistiques pour la fouille de données, connaissance de techniques de gestions de données massives faiblement structurées, connaissance de techniques de passage à l'échelle par distribution. Capacité à utiliser le système d'exploitation Linux, connaissance d'au moins un langage de programmation. Vous êtes encouragés à évaluer votre capacité à suivre cette UE en répondant au questionnaire en ligne accessible sur http://cedric.cnam.fr/vertigo/Cours/RCP216/questionnaire.html. Vous pouvez répondre sans vous identifier, les réponses vous sont données immédiatement et les résultats ne sont pas enregistrés.
Organisme de formation : CNAM DE BRETAGNE
09 72 31 13 12
Lieu de formation : CNAM DE BRETAGNE
3 Rue du Clos Courtel
35 RENNES
Organisation :
  • Entrée sortie permanente
  • 45 heures
  • Formation entièrement à distance
Dispositif(s) / Financements : Financement autre (Entreprises, Individuels, AIF...)
Publics : Demandeur d'emploi ; Salarié ; Tout public
Type de parcours : Modulaire
Durée : 45 heures.

Prérequis : Bonnes connaissances mathématiques et statistiques générales, maîtrise de méthodes statistiques pour la fouille de données, connaissance de techniques de gestions de données massives faiblement structurées, connaissance de techniques de passage à l'échelle par distribution. Capacité à utiliser le système d'exploitation Linux, connaissance d'au moins un langage de programmation. Vous êtes encouragés à évaluer votre capacité à suivre cette UE en répondant au questionnaire en ligne accessible sur http://cedric.cnam.fr/vertigo/Cours/RCP216/questionnaire.html. Vous pouvez répondre sans vous identifier, les réponses vous sont données immédiatement et les résultats ne sont pas enregistrés.
Organisme de formation : CNAM DE BRETAGNE
09 72 31 13 12
Lieu de formation : CNAM DE BRETAGNE
2 rue Camille Guérin
22 PLOUFRAGAN
Organisation :
  • Entrée sortie permanente
  • 45 heures
  • Formation entièrement à distance
Dispositif(s) / Financements : Financement autre (Entreprises, Individuels, AIF...)
Publics : Demandeur d'emploi ; Salarié ; Tout public
Type de parcours : Modulaire
Durée : 45 heures.

Prérequis : Bonnes connaissances mathématiques et statistiques générales, maîtrise de méthodes statistiques pour la fouille de données, connaissance de techniques de gestions de données massives faiblement structurées, connaissance de techniques de passage à l'échelle par distribution. Capacité à utiliser le système d'exploitation Linux, connaissance d'au moins un langage de programmation. Vous êtes encouragés à évaluer votre capacité à suivre cette UE en répondant au questionnaire en ligne accessible sur http://cedric.cnam.fr/vertigo/Cours/RCP216/questionnaire.html. Vous pouvez répondre sans vous identifier, les réponses vous sont données immédiatement et les résultats ne sont pas enregistrés.
Organisme de formation : CNAM DE BRETAGNE
09 72 31 13 12
Lieu de formation : CNAM DE BRETAGNE
9 Rue du Commandant Charcot
56 Vannes
Organisation :
  • Entrée sortie permanente
  • 45 heures
  • Formation entièrement à distance
Dispositif(s) / Financements : Financement autre (Entreprises, Individuels, AIF...)
Publics : Demandeur d'emploi ; Salarié ; Tout public
Type de parcours : Modulaire
Durée : 45 heures.

Prérequis : Bonnes connaissances mathématiques et statistiques générales, maîtrise de méthodes statistiques pour la fouille de données, connaissance de techniques de gestions de données massives faiblement structurées, connaissance de techniques de passage à l'échelle par distribution. Capacité à utiliser le système d'exploitation Linux, connaissance d'au moins un langage de programmation. Vous êtes encouragés à évaluer votre capacité à suivre cette UE en répondant au questionnaire en ligne accessible sur http://cedric.cnam.fr/vertigo/Cours/RCP216/questionnaire.html. Vous pouvez répondre sans vous identifier, les réponses vous sont données immédiatement et les résultats ne sont pas enregistrés.