Data Engineering on Google Cloud Platform

Les compétences essentielles pour concevoir et construire des systèmes de traitement de données

Description du cours

Dispensé par un formateur, ce cours de quatre jours explique, avec des exemples pratiques, comment concevoir et développer des systèmes de traitement des données sur Google Cloud Platform. À travers un ensemble de présentations, de démonstrations et d'ateliers pratiques, les participants apprennent à concevoir des systèmes de traitement de données, à créer des pipelines de données de bout en bout, à analyser les données et à exécuter le machine learning. Ce cours traite des données structurées, non structurées et par flux.

Ce cours permet aux participants d'acquérir les compétences suivantes

  • Concevoir et développer des systèmes de traitement de données sur Google Cloud Platform
  • Traiter des données par lots ou par flux en mettant en œuvre des pipelines de données d'autoscaling sur Cloud Dataflow
  • Obtenir des informations métier à partir de très grands ensembles de données à l'aide de Google BigQuery
  • Entraîner, évaluer et établir des prédictions à l'aide des modèles de machine learning avec TensorFlow et Cloud ML
  • Exploiter les données non structurées à l'aide de Spark et des API de ML sur Cloud Dataproc
  • Obtenir des insights immédiats à partir de données par flux

Prix: 2920€ HT
Durée: 4 jours
Modalité: Inter en présentiel (demander une formation en intra-entreprise)

Prochaines dates :

Paris 18 Novembre 2019 S'inscrire

PROGRAMME DE LA FORMATION

Module 1

Présentation de Google Cloud Dataproc

  • Créer et gérer des clusters
  • Exploiter des types de machines personnalisés et des nœuds de calcul préemptifs
  • Faire évoluer et supprimer des clusters
  • Atelier : Créer des clusters Hadoop avec Google Cloud Dataproc
Module 2

Exécution de tâches Dataproc

  • Exécuter des tâches Pig et Hive
  • Séparer le stockage et le calcul
  • Atelier : Exécuter des tâches Hadoop et Spark avec Dataproc
  • Atelier : Envoyer et surveiller des tâches
Module 3

Intégrer Dataproc à Google Cloud Platform

  • Personnaliser un cluster à l'aide d'actions d'initialisation
  • Assistance BigQuery
  • Atelier : Exploiter les services Google Cloud Platform
Module 4

Analyse des données non structurées avec les API de machine learning de Google

  • API de machine learning Google
  • Cas d'utilisation courants du ML
  • Appeler des API de ML
  • Atelier : Ajouter les capacités de machine learning à l'analyse big data
Module 5

Analyse des données sans serveur avec BigQuery

  • Qu'est-ce que BigQuery ?
  • Requêtes et fonctions
  • Atelier : Écrire des requêtes dans BigQuery
  • Charger des données dans BigQuery
  • Exporter des données à partir de BigQuery
  • Atelier : Charger et exporter des données
  • Champs imbriqués et répétés
  • Interroger plusieurs tables
  • Atelier : Requêtes complexes
  • Performances et tarification
Module 6

Pipelines de données d'autoscaling sans serveur avec Dataflow

  • Le modèle de programmation Beam
  • Pipelines de données dans Beam Python
  • Pipelines de données dans Beam Java
  • Atelier : Écrire un pipeline Dataflow
  • Traitement adaptable du big data avec Beam
  • Atelier : MapReduce dans Dataflow
  • Intégrer des données supplémentaires
  • Atelier : Entrées secondaires
  • Gérer des données par flux
  • Architecture de référence GCP
Module 7

Premiers pas avec le machine learning

  • Qu'est-ce que le Machine Learning (ML) ?
  • ML efficace : concepts et types
  • Ensembles de données de ML : généralisation
  • Atelier : Explorer et créer des ensembles de données de ML
Module 8

Créer des modèles de ML avec TensorFlow

  • Premiers pas avec TensorFlow
  • Atelier : Utiliser tf.learn
  • Graphiques et boucles TensorFlow + atelier
  • Atelier : Utiliser TensorFlow de bas niveau + arrêt prématuré
  • Surveiller l'apprentissage ML
  • Atelier : Graphiques d'apprentissage TensorFlow
Module 9

Faire évoluer les modèles de ML avec Cloud ML

  • Pourquoi utiliser Cloud ML ?
  • Créer le package d'un modèle TensorFlow
  • Apprentissage de bout en bout
  • Atelier : Exécuter un modèle de ML localement et sur le cloud
Module 10

Extraction de caractéristiques

  • Créer des fonctionnalités pertinentes
  • Transformer les entrées
  • Fonctionnalités synthétiques
  • Prétraitement avec Cloud ML
  • Atelier : Extraction de caractéristiques
Module 11

Architecture des pipelines d’analyse par flux

  • Défis du traitement des données par flux
  • Gérer les volumes de données variables
  • Gérer les données non triées/en retard
  • Atelier : Concevoir un pipeline de flux de données
Module 12

Ingestion de volumes de variables

  • Qu'est-ce que Cloud Pub/Sub ?
  • Fonctionnement : Thèmes et abonnements
  • Atelier : Simulateur
Module 13

Mise en œuvre de pipelines par flux

  • Défis du traitement par flux
  • Gestion des données en retard : filigranes, déclenchements et accumulation
  • Atelier : Pipeline de traitement des données par flux pour le trafic en direct
Module 14

Analyse de flux de données et tableaux de bords

  • Analyses de flux de données : prendre des décisions à partir des données
  • Interroger les données par flux avec BigQuery
  • Qu'est-ce que Google Data Studio ?
  • Atelier : Créer un tableau de bord en temps réel pour visualiser les données traitées
Module 15

Haut débit et faible latence avec Bigtable

  • Qu'est-ce que Cloud Spanner ?
  • Concevoir un schéma Bigtable
  • Ingestion dans Bigtable
  • Atelier : Flux dans Bigtable

Formations suggérées

From Data to Insights with Google Cloud Platform (GCP200DA)

3 jours

Google Cloud Platform Fundamentals: Big Data & Machine Learning (GCP100B)

1 jours

Preparing for the Professional Data Engineer Examination (GCPCERT-DE)

1 jours

Nous contacter

Paris

48 Rue Jacques Dulud

92200 Neuilly-sur-Seine

+33 1 41 38 52 00

Lille

74 rue des Arts

59800 Lille

+33 3 66 72 61 32

Strasbourg

Crystal Park, 1 Avenue de l'Europe

67300 Schiltigheim

+33 3 88 47 04 38

Luxembourg

2, rue Drosbach

L-3372 Leudelange, Luxembourg

+352 26 54 47 1

Bordeaux

c/o Mama Works, 51 quai Lawton

33300 Bordeaux

Nantes

Zero Newton, 3 Rue Albert Camus

44000 Nantes

+33 2 55 59 07 00