Skip to content

Commit

Permalink
Update 2024-08-06-delta-lake-avec-apache-spark.md
Browse files Browse the repository at this point in the history
  • Loading branch information
lepiaf committed Oct 11, 2024
1 parent dd67e5c commit 8efc155
Showing 1 changed file with 10 additions and 0 deletions.
10 changes: 10 additions & 0 deletions _articles/fr/2024-08-06-delta-lake-avec-apache-spark.md
Original file line number Diff line number Diff line change
Expand Up @@ -18,8 +18,18 @@ keywords:

## Qu'est ce que le format de fichier Delta Lake ?

Initié par les créateur du moteur Apache Spark, et également de la solution SaaS Databricks, ce format est une surcouche au format parquet. Il apporte le concept ACID (Atomicité, Cohérence, Isolation et Durabilité) sur les fichiers parquet dans du stockage de type objet (Google Cloud Storage, AWS S3). Ansi, nous pouvons bénéficier d'un stockage à très bas coût et les bénéfices d'une table dans une base de données (en particulier la notion ACID).

## Les bénéfices d'utiliser Delta Lake

Comme vu précédemment, il y a la notion de transaction ACID, à cela s'ajoute les avantages suivants :
- capacité à ingérer des données par lot ou en flux continu
- Contraindre la table à suivre un schéma
- Navigation dans le temps avec des versions
- Mise à jour en upsert et delete de la table

Le format Delta Lake se veut être les fondations d'une architecture de type _Data Lake_. L'industrie de la data évolue vers cette architecture afin de réduire drastriquement les coûts, et cela permet également de réduire la barrière entre les différents utilisateurs. Avec l'avènement de l'intelligence artificielle, les équipes _Data Scientiest_ ont besoin d'accéder à de la données fraîche et proche de la production.

## Installer et configuration Spark pour utiliser Delta Lake

Notre code
Expand Down

0 comments on commit 8efc155

Please sign in to comment.