Update 2024-08-06-delta-lake-avec-apache-spark.md

eleven-labs · Oct 11, 2024 · 8efc155 · 8efc155
1 parent dd67e5c
commit 8efc155
Showing 1 changed file with 10 additions and 0 deletions.
diff --git a/_articles/fr/2024-08-06-delta-lake-avec-apache-spark.md b/_articles/fr/2024-08-06-delta-lake-avec-apache-spark.md
@@ -18,8 +18,18 @@ keywords:
 
 ## Qu'est ce que le format de fichier Delta Lake ?
 
+Initié par les créateur du moteur Apache Spark, et également de la solution SaaS Databricks, ce format est une surcouche au format parquet. Il apporte le concept ACID (Atomicité, Cohérence, Isolation et Durabilité) sur les fichiers parquet dans du stockage de type objet (Google Cloud Storage, AWS S3). Ansi, nous pouvons bénéficier d'un stockage à très bas coût et les bénéfices d'une table dans une base de données (en particulier la notion ACID).
+
 ## Les bénéfices d'utiliser Delta Lake
 
+Comme vu précédemment, il y a la notion de transaction ACID, à cela s'ajoute les avantages suivants : 
+- capacité à ingérer des données par lot ou en flux continu
+- Contraindre la table à suivre un schéma
+- Navigation dans le temps avec des versions
+- Mise à jour en upsert et delete de la table
+
+Le format Delta Lake se veut être les fondations d'une architecture de type _Data Lake_. L'industrie de la data évolue vers cette architecture afin de réduire drastriquement les coûts, et cela permet également de réduire la barrière entre les différents utilisateurs. Avec l'avènement de l'intelligence artificielle, les équipes _Data Scientiest_ ont besoin d'accéder à de la données fraîche et proche de la production.
+
 ## Installer et configuration Spark pour utiliser Delta Lake
 
 Notre code