From f603f48d57f8af22966e57994d8e22aa5d88648f Mon Sep 17 00:00:00 2001 From: Cindyvlv <148534693+Cindyvlv@users.noreply.github.com> Date: Mon, 3 Feb 2025 14:39:54 +0100 Subject: [PATCH] Update 2025-03-05-delta-lake-avec-apache-spark.md --- ...2025-03-05-delta-lake-avec-apache-spark.md | 32 +++++++++---------- 1 file changed, 16 insertions(+), 16 deletions(-) diff --git a/_articles/fr/2025-03-05-delta-lake-avec-apache-spark.md b/_articles/fr/2025-03-05-delta-lake-avec-apache-spark.md index 2a3fd6561..31e2de9a8 100644 --- a/_articles/fr/2025-03-05-delta-lake-avec-apache-spark.md +++ b/_articles/fr/2025-03-05-delta-lake-avec-apache-spark.md @@ -1,11 +1,11 @@ --- contentType: article lang: fr -date: '2025-03-05' -slug: delta-lake-avec-apache-spark -title: Delta Lake avec Apache Spark +date: '2025-02-19' +slug: delta-lake-apache-spark +title: Créer un Delta Lake avec Apache Spark : excerpt: >- - Il existe différent format de fichier pour stocker la donnée : parquet, avro, csv. Connaissez-vous le format Delta Lake ? Découvrons les fonctionnalités de ce format. + Il existe différents formats de fichier pour stocker la donnée : parquet, avro, csv. Connaissez-vous le format Delta Lake ? Découvrons ensemble les fonctionnalités de ce format. categories: - architecture authors: @@ -19,13 +19,13 @@ cover: alt: Delta Lake avec Apache Spark path: /imgs/articles/2025-03-05-delta-lake-avec-apache-spark/cover.jpg seo: - title: "Delta Lake avec Apache Spark" - description: "Delta Lake : Optimisez vos coûts de stockage tout en ayant le principe ACID des bases de données" + title: "Data Lake avec Apache Spark : Guide complet pour l’intégration et l’analyse de données" + description: "Découvrez comment Apache Spark optimise votre Data Lake : stockage, traitement et analyse de données à grande échelle. Guide pas à pas et exemples concrets." --- ## Qu'est ce que le format de fichier Delta Lake ? -Initié par les créateur du moteur [Apache Spark](/fr/demarrer-apache-spark/), et également de la solution SaaS [Databricks](https://www.databricks.com/fr), ce format est une surcouche au format [parquet](https://parquet.apache.org/). Il apporte le concept [ACID](https://fr.wikipedia.org/wiki/Propri%C3%A9t%C3%A9s_ACID) (Atomicité, Cohérence, Isolation et Durabilité) sur les fichiers parquet dans du stockage de type objet (tel que [Google Cloud Storage](https://cloud.google.com/storage/), [AWS S3](https://aws.amazon.com/fr/s3/)). Ansi, nous pouvons bénéficier d'un stockage à très bas coût et les bénéfices d'une table dans une base de données (en particulier la notion ACID). +Initié par les créateurs du moteur [Apache Spark](/fr/demarrer-apache-spark/), et également de la solution SaaS [Databricks](https://www.databricks.com/fr), ce format est une surcouche au format [parquet](https://parquet.apache.org/). Il apporte le concept [ACID](https://fr.wikipedia.org/wiki/Propri%C3%A9t%C3%A9s_ACID) (Atomicité, Cohérence, Isolation et Durabilité) sur les fichiers parquet dans du stockage de type objet (tel que [Google Cloud Storage](https://cloud.google.com/storage/), [AWS S3](https://aws.amazon.com/fr/s3/)). Ansi, nous pouvons bénéficier d'un stockage à très bas coût et les bénéfices d'une table dans une base de données (en particulier la notion ACID). ## Les bénéfices d'utiliser Delta Lake @@ -37,7 +37,7 @@ Comme vu précédemment, il y a la notion de transaction ACID, à cela s'ajoute Le format _Delta Lake_ se veut être les fondations d'une architecture de type _[Lakehouse](https://www.databricks.com/fr/glossary/data-lakehouse)_. L'industrie de la data évolue vers cette architecture afin de réduire drastriquement les coûts, et cela permet également de réduire la barrière entre les différents utilisateurs. Avec l'avènement de l'intelligence artificielle, les équipes _Data Scientiest_ ont besoin d'accéder à de la données fraîche. -## Installer et configuration Spark pour utiliser Delta Lake +## Installation et configuration d'Apache Spark pour utiliser Delta Lake Reprenons le code de notre précédent article [Démarrer avec Apache Spark étape par étape](/fr/demarrer-apache-spark/). @@ -105,7 +105,7 @@ spark = ( ) ``` -Votre session Spark est prêt pour utiliser le format _Delta Lake_. +Votre session Spark est prête pour utiliser le format _Delta Lake_. ## Enregistrement de la table en delta @@ -115,7 +115,7 @@ Lors de l'écriture de la table dans le dossier `datalake/`, il faut changer le df_clean.write.format("delta").partitionBy("date").save("datalake/count-bike-nantes") ``` -Voilà, votre table est maintenant enregistré format delta. +Voilà, votre table est maintenant enregistrée au format delta.
Note
Si vous relancez le script, vous allez avoir une erreur car le répertoire existe déjà. Soit vous supprimez le dossier, soit vous ajoutez l'option `mode("overwrite")` pour écraser la table existante. @@ -125,7 +125,7 @@ Si vous relancez le script, vous allez avoir une erreur car le répertoire exist Il y a eu une mise à jour de la source de données. Il faut donc les intégrer. Pour cela, nous allons utiliser la fonction `merge()` de la lib Python _Delta Lake_. -Cette fonction va automatiquement faire la mise à jour de la table en fonction des conditions. Si la ligne est nouvelle dans la source, alors elle sera ajouté. Si elle existe déjà et qu'elle a changé, alors la ligne dans la table des destinations elle sera mise à jour. +Cette fonction va automatiquement faire la mise à jour de la table en fonction des conditions. Si la ligne est nouvelle dans la source, alors elle sera ajoutée. Si elle existe déjà et qu'elle a changé, alors la ligne dans la table des destinations elle sera mise à jour. Voyons en détail son utilisation. @@ -143,7 +143,7 @@ pip install delta-spark==3.2.0 Ajoutez cette dépendance dans votre fichier requirements.txt ou autre gestionnaire de paquet Python.