Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

feat: démarrer avec apache spark #1131

Merged
merged 11 commits into from
Jul 8, 2024
Merged

Conversation

lepiaf
Copy link
Member

@lepiaf lepiaf commented Jun 26, 2024

No description provided.

@github-actions github-actions bot temporarily deployed to feat-demarrer-apache-spark June 26, 2024 16:32 Destroyed
@github-actions github-actions bot temporarily deployed to feat-demarrer-apache-spark June 26, 2024 16:36 Destroyed
Copy link
Contributor

github-actions bot commented Jun 26, 2024

⚡️🏠 Lighthouse report

Here's the summary:

Path Performance Accessibility Best practices SEO PWA
/feat-demarrer-apache-spark/ 🟢 92 🟢 90 🟢 100 🟢 92 🟠 70
/feat-demarrer-apache-spark/fr/authors/ajacquemin/ 🟠 71 🟢 90 🟢 100 🟢 92 🟠 70
/feat-demarrer-apache-spark/fr/comment-construire-site-web-avec-nextjs/ 🟠 76 🟠 80 🟢 100 🟢 100 🟠 70
/feat-demarrer-apache-spark/fr/nestjs-le-cycle-de-vie-dune-requete/ 🟠 73 🟠 80 🟢 100 🟢 97 🟠 70

Here's the audits:

Path FCP
1800 <=
LCP
2500 <=
Speed Index
3400 <=
TTI
3800 <=
TBT
200 <=
CLS
0.1 <=
/feat-demarrer-apache-spark/ 🔴 1864 🟢 1864 🟢 1864 🔴 4134 🟢 8 🔴 0.12
/feat-demarrer-apache-spark/fr/authors/ajacquemin/ 🔴 2452 🟢 2452 🟢 2736 🔴 4175 🟢 8 🟢 0.01
/feat-demarrer-apache-spark/fr/comment-construire-site-web-avec-nextjs/ 🔴 2425 🔴 2621 🟢 2425 🔴 4128 🟢 8 🟢 0.03
/feat-demarrer-apache-spark/fr/nestjs-le-cycle-de-vie-dune-requete/ 🔴 1989 🔴 2892 🟢 2423 🔴 3960 🟢 8 🟢 0.04

@github-actions github-actions bot temporarily deployed to feat-demarrer-apache-spark June 26, 2024 16:46 Destroyed
@github-actions github-actions bot temporarily deployed to feat-demarrer-apache-spark June 26, 2024 16:47 Destroyed
@lepiaf lepiaf changed the title Feat demarrer apache spark feat: démarrer avec apache spark Jun 27, 2024
@lepiaf lepiaf requested a review from ElevenTom June 28, 2024 10:29
@lepiaf lepiaf added the status/reviewable status: reviewable label Jun 28, 2024
@github-actions github-actions bot temporarily deployed to feat-demarrer-apache-spark June 28, 2024 14:45 Destroyed
excerpt: >-
Le domaine de la data est présent au quotidient. La quantité de donnée est si grande que nous la nommons Big Data.
Dans cet article, nous verrons comment traiter ce volume de données à l'aide du framework Apache Spark.
categories: []
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
categories: []
categories: [architecture]

categories: []
authors:
- tthuon
keywords: []
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
keywords: []
keywords: [
- apache spark
- data
- big data
]

slug: demarrer-apache-spark
title: Démarrer avec Apache Spark
excerpt: >-
Le domaine de la data est présent au quotidient. La quantité de donnée est si grande que nous la nommons Big Data.
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
Le domaine de la data est présent au quotidient. La quantité de donnée est si grande que nous la nommons Big Data.
Le domaine de la data est présent au quotidien. La quantité de donnée est si grande que nous la nommons Big Data.

keywords: []
---

Lorsque l'on travaille dans l'univers de la data, nous effectuons principalements sur ces trois étapes :
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
Lorsque l'on travaille dans l'univers de la data, nous effectuons principalements sur ces trois étapes :
Lorsque l'on travaille dans l'univers de la data, nous effectuons principalement sur ces trois étapes :

---

Lorsque l'on travaille dans l'univers de la data, nous effectuons principalements sur ces trois étapes :
- extraire la données de la source
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
- extraire la données de la source
- extraire la donnée de la source


Par simplicité, nous nommerons Spark pour désigner Apache Spark.

## Mise en situation
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
## Mise en situation
## Etape 1 : Récupération d'une source de données

0674;Pont Haudaudine vers Sud;589;;5;0674 - Pont Haudaudine vers Sud;2021-03-26;Hors Vacances
```

## Installation d'Apache Spark
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
## Installation d'Apache Spark
## Etape 2 : Installation d'Apache Spark


PySpark est installé !

## Création de notre pipeline ETL avec Apache Spark
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
## Création de notre pipeline ETL avec Apache Spark
## Etape 3 : Création de notre pipeline ETL avec Apache Spark

- la transformer pour lui donner de la valeur
- stocker le résultat

### Lecture de la donnée source
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
### Lecture de la donnée source
## Etape 4 : Lecture de la donnée source avec Spark

lang: fr
date: '2024-07-12'
slug: demarrer-apache-spark
title: Démarrer avec Apache Spark
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
title: Démarrer avec Apache Spark
title: Démarrer avec Apache Spark étapes par étapes


Bravo, vous venez de créer votre premier pipeline Spark. Un nouveau monde s'ouvre à vous. A travers cet article, nous avons vu l'installation de Spark et PySpark. Avec la création du pipeline, nous avons lu la source de données, effectuées quelques transformation, et enfin stocké la données à un endroit. Ce stockage permettra à d'autre corps de métier de la data de l'exploiter.

## Références
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
## Références
### Références


Ainsi, dans l'arboresence, nous avons nos données partitionné par date.

## Conclusion
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
## Conclusion
## Conclusion

Comment on lines 13 to 17
keywords: [
- apache spark
- data
- big data
]
Copy link
Contributor

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Suggested change
keywords: [
- apache spark
- data
- big data
]
keywords:
- apache spark
- data
- big data

@github-actions github-actions bot temporarily deployed to feat-demarrer-apache-spark July 8, 2024 08:27 Destroyed
@lepiaf lepiaf deployed to 1131/merge July 8, 2024 12:32 — with GitHub Actions Active
@github-actions github-actions bot temporarily deployed to feat-demarrer-apache-spark July 8, 2024 12:35 Destroyed
@ElevenTom ElevenTom merged commit 006d443 into master Jul 8, 2024
8 checks passed
@ElevenTom ElevenTom deleted the feat-demarrer-apache-spark branch July 8, 2024 14:17
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

Successfully merging this pull request may close these issues.

4 participants