-
Notifications
You must be signed in to change notification settings - Fork 44
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
feat: démarrer avec apache spark #1131
Conversation
⚡️🏠 Lighthouse reportHere's the summary:
Here's the audits:
|
excerpt: >- | ||
Le domaine de la data est présent au quotidient. La quantité de donnée est si grande que nous la nommons Big Data. | ||
Dans cet article, nous verrons comment traiter ce volume de données à l'aide du framework Apache Spark. | ||
categories: [] |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
categories: [] | |
categories: [architecture] |
categories: [] | ||
authors: | ||
- tthuon | ||
keywords: [] |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
keywords: [] | |
keywords: [ | |
- apache spark | |
- data | |
- big data | |
] |
slug: demarrer-apache-spark | ||
title: Démarrer avec Apache Spark | ||
excerpt: >- | ||
Le domaine de la data est présent au quotidient. La quantité de donnée est si grande que nous la nommons Big Data. |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Le domaine de la data est présent au quotidient. La quantité de donnée est si grande que nous la nommons Big Data. | |
Le domaine de la data est présent au quotidien. La quantité de donnée est si grande que nous la nommons Big Data. |
keywords: [] | ||
--- | ||
|
||
Lorsque l'on travaille dans l'univers de la data, nous effectuons principalements sur ces trois étapes : |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Lorsque l'on travaille dans l'univers de la data, nous effectuons principalements sur ces trois étapes : | |
Lorsque l'on travaille dans l'univers de la data, nous effectuons principalement sur ces trois étapes : |
--- | ||
|
||
Lorsque l'on travaille dans l'univers de la data, nous effectuons principalements sur ces trois étapes : | ||
- extraire la données de la source |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
- extraire la données de la source | |
- extraire la donnée de la source |
|
||
Par simplicité, nous nommerons Spark pour désigner Apache Spark. | ||
|
||
## Mise en situation |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
## Mise en situation | |
## Etape 1 : Récupération d'une source de données |
0674;Pont Haudaudine vers Sud;589;;5;0674 - Pont Haudaudine vers Sud;2021-03-26;Hors Vacances | ||
``` | ||
|
||
## Installation d'Apache Spark |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
## Installation d'Apache Spark | |
## Etape 2 : Installation d'Apache Spark |
|
||
PySpark est installé ! | ||
|
||
## Création de notre pipeline ETL avec Apache Spark |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
## Création de notre pipeline ETL avec Apache Spark | |
## Etape 3 : Création de notre pipeline ETL avec Apache Spark |
- la transformer pour lui donner de la valeur | ||
- stocker le résultat | ||
|
||
### Lecture de la donnée source |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
### Lecture de la donnée source | |
## Etape 4 : Lecture de la donnée source avec Spark |
lang: fr | ||
date: '2024-07-12' | ||
slug: demarrer-apache-spark | ||
title: Démarrer avec Apache Spark |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
title: Démarrer avec Apache Spark | |
title: Démarrer avec Apache Spark étapes par étapes |
|
||
Bravo, vous venez de créer votre premier pipeline Spark. Un nouveau monde s'ouvre à vous. A travers cet article, nous avons vu l'installation de Spark et PySpark. Avec la création du pipeline, nous avons lu la source de données, effectuées quelques transformation, et enfin stocké la données à un endroit. Ce stockage permettra à d'autre corps de métier de la data de l'exploiter. | ||
|
||
## Références |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
## Références | |
### Références |
|
||
Ainsi, dans l'arboresence, nous avons nos données partitionné par date. | ||
|
||
## Conclusion |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
## Conclusion | |
## Conclusion |
keywords: [ | ||
- apache spark | ||
- data | ||
- big data | ||
] |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
keywords: [ | |
- apache spark | |
- data | |
- big data | |
] | |
keywords: | |
- apache spark | |
- data | |
- big data |
…emarrer-apache-spark.md
No description provided.