From 3166a774e2576338be8c783f4b1136e9e7b0414f Mon Sep 17 00:00:00 2001 From: leonardopangaio Date: Wed, 22 Jan 2025 13:12:39 -0300 Subject: [PATCH] Making a new commit. --- .../posts/luciana-sampaio/unpersistPySpark.md | 2 + site/blog/archive/2025/index.html | 59 +++---------------- site/blog/category/data-science/index.html | 59 +++---------------- site/blog/category/pyspark/index.html | 59 +++---------------- site/blog/category/tech/index.html | 59 +++---------------- site/blog/index.html | 59 +++---------------- site/blog/unpsersist-pyspark/index.html | 4 +- site/feed_json_created.json | 2 +- site/feed_json_updated.json | 4 +- site/feed_rss_created.xml | 6 +- site/feed_rss_updated.xml | 8 +-- 11 files changed, 50 insertions(+), 271 deletions(-) diff --git a/docs/blog/posts/luciana-sampaio/unpersistPySpark.md b/docs/blog/posts/luciana-sampaio/unpersistPySpark.md index c75027bb..c2bfe9f1 100644 --- a/docs/blog/posts/luciana-sampaio/unpersistPySpark.md +++ b/docs/blog/posts/luciana-sampaio/unpersistPySpark.md @@ -15,6 +15,8 @@ slug: unpsersist-pyspark O método `unpersist()` é eficaz para liberar recursos em processos de batch, onde você pode controlar quando o cache não é mais necessário. Em streaming, no entanto, o uso de `unpersist()` não é recomendado, pois os dados são processados continuamente e o checkpoint já cuida da consistência e do armazenamento de estado. A utilização do checkpoint garante que o processo de streaming seja resiliente e possa ser retomado a partir de um ponto de falha, tornando a liberação de memória mais controlada e menos disruptiva. + + Bora para exemplo? ![alt text](../../../images/blog/luciana/unpersit1.png) diff --git a/site/blog/archive/2025/index.html b/site/blog/archive/2025/index.html index 9ad6fe85..1e25eb94 100644 --- a/site/blog/archive/2025/index.html +++ b/site/blog/archive/2025/index.html @@ -4568,58 +4568,13 @@

2025&par

O que é unpersist() em PySpark?

O método unpersist() é eficaz para liberar recursos em processos de batch, onde você pode controlar quando o cache não é mais necessário. Em streaming, no entanto, o uso de unpersist() não é recomendado, pois os dados são processados continuamente e o checkpoint já cuida da consistência e do armazenamento de estado. A utilização do checkpoint garante que o processo de streaming seja resiliente e possa ser retomado a partir de um ponto de falha, tornando a liberação de memória mais controlada e menos disruptiva.

-

Bora para exemplo?

-

alt text

-

Carregado dados Spark

-

alt text

-

A função %time no IPython (ou Jupyter Notebook) é uma maneira prática de medir o tempo de execução de uma única linha de código. Ela retorna o tempo total necessário para a execução do comando, ajudando você a ter uma ideia do desempenho de diferentes trechos de código.

-

alt text

-

Vou conferir a volumetria do meu DataFrame para entender a quantidade de dados que ele possui. 📈

-

alt text

-

Vou verificar quantas partições meu DataFrame possui atualmente. 🧐📊

-

alt text

-

Vou dividir meu DataFrame em 10 partições para aproveitar melhor a magia da computação distribuída. 🚀✨

-

alt text

-

Veja só, agora temos 10 partições! Um verdadeiro milagre da computação distribuída em ação. 🚀

-

alt text

-

Ao visualizar os dados, percebemos que eles foram reparticionados. O Spark distribuiu a carga utilizando múltiplas tarefas para executar o processamento.

-

alt text

-

Foi realizada uma consulta com um filtro básico.

-

alt text

-

Consumo da cpu em tempo é de 11.2 milisegundos.

-
    -
  • A ideia agora é eliminar o cache utilizando o método unpersist().
  • -
-

alt text

-
    -
  • Nesse passo de limpar o cache, tivemos um pequeno aumento no consumo.
  • -
-
-

Agora…aplicado o método .. 8.82 milisegundos.

-

alt text

-

Com certeza, como PoC, é uma ótima maneira de validar o conceito com um volume menor de dados! Espero que tenha ajudado!

-

Meus Contatos! 🌟

-

Quer bater um papo, trocar ideias, ou só dar aquela stalkeada básica? Não seja tímido! Aqui estão meus canais de comunicação preferidos:

-
    -
  • -

    🌐 LinkedIn
    -O lugar onde pareço super profissional e séria. 😉

    -
  • -
  • -

    🐙 GitHub
    -Aqui é o cantinho dos meus códigos! Dá uma espiada, mas cuidado com os bugs. 😂

    -
  • -
  • -

    📸 Instagram
    -Spoiler: mais fotos e menos linhas de código! 📷✨

    -
  • -
  • -

    ✍️ Medium
    -Onde compartilho insights, histórias e dicas sobre dados e tecnologia. Dá uma conferida!

    -
  • -
-

Vai lá, segue, curte, comenta ou manda mensagem. Prometo que não mordo (muito)! 😜

-

_texto original publicado em medium.com

+ + +
diff --git a/site/blog/category/data-science/index.html b/site/blog/category/data-science/index.html index abe63d71..9e54be69 100644 --- a/site/blog/category/data-science/index.html +++ b/site/blog/category/data-science/index.html @@ -4604,58 +4604,13 @@

Data Science

O que é unpersist() em PySpark?

O método unpersist() é eficaz para liberar recursos em processos de batch, onde você pode controlar quando o cache não é mais necessário. Em streaming, no entanto, o uso de unpersist() não é recomendado, pois os dados são processados continuamente e o checkpoint já cuida da consistência e do armazenamento de estado. A utilização do checkpoint garante que o processo de streaming seja resiliente e possa ser retomado a partir de um ponto de falha, tornando a liberação de memória mais controlada e menos disruptiva.

-

Bora para exemplo?

-

alt text

-

Carregado dados Spark

-

alt text

-

A função %time no IPython (ou Jupyter Notebook) é uma maneira prática de medir o tempo de execução de uma única linha de código. Ela retorna o tempo total necessário para a execução do comando, ajudando você a ter uma ideia do desempenho de diferentes trechos de código.

-

alt text

-

Vou conferir a volumetria do meu DataFrame para entender a quantidade de dados que ele possui. 📈

-

alt text

-

Vou verificar quantas partições meu DataFrame possui atualmente. 🧐📊

-

alt text

-

Vou dividir meu DataFrame em 10 partições para aproveitar melhor a magia da computação distribuída. 🚀✨

-

alt text

-

Veja só, agora temos 10 partições! Um verdadeiro milagre da computação distribuída em ação. 🚀

-

alt text

-

Ao visualizar os dados, percebemos que eles foram reparticionados. O Spark distribuiu a carga utilizando múltiplas tarefas para executar o processamento.

-

alt text

-

Foi realizada uma consulta com um filtro básico.

-

alt text

-

Consumo da cpu em tempo é de 11.2 milisegundos.

- -

alt text

- -
-

Agora…aplicado o método .. 8.82 milisegundos.

-

alt text

-

Com certeza, como PoC, é uma ótima maneira de validar o conceito com um volume menor de dados! Espero que tenha ajudado!

-

Meus Contatos! 🌟

-

Quer bater um papo, trocar ideias, ou só dar aquela stalkeada básica? Não seja tímido! Aqui estão meus canais de comunicação preferidos:

- -

Vai lá, segue, curte, comenta ou manda mensagem. Prometo que não mordo (muito)! 😜

-

_texto original publicado em medium.com

+ + + diff --git a/site/blog/category/pyspark/index.html b/site/blog/category/pyspark/index.html index 73a7afcc..b7dfd078 100644 --- a/site/blog/category/pyspark/index.html +++ b/site/blog/category/pyspark/index.html @@ -4604,58 +4604,13 @@

PySpark

O que é unpersist() em PySpark?

O método unpersist() é eficaz para liberar recursos em processos de batch, onde você pode controlar quando o cache não é mais necessário. Em streaming, no entanto, o uso de unpersist() não é recomendado, pois os dados são processados continuamente e o checkpoint já cuida da consistência e do armazenamento de estado. A utilização do checkpoint garante que o processo de streaming seja resiliente e possa ser retomado a partir de um ponto de falha, tornando a liberação de memória mais controlada e menos disruptiva.

-

Bora para exemplo?

-

alt text

-

Carregado dados Spark

-

alt text

-

A função %time no IPython (ou Jupyter Notebook) é uma maneira prática de medir o tempo de execução de uma única linha de código. Ela retorna o tempo total necessário para a execução do comando, ajudando você a ter uma ideia do desempenho de diferentes trechos de código.

-

alt text

-

Vou conferir a volumetria do meu DataFrame para entender a quantidade de dados que ele possui. 📈

-

alt text

-

Vou verificar quantas partições meu DataFrame possui atualmente. 🧐📊

-

alt text

-

Vou dividir meu DataFrame em 10 partições para aproveitar melhor a magia da computação distribuída. 🚀✨

-

alt text

-

Veja só, agora temos 10 partições! Um verdadeiro milagre da computação distribuída em ação. 🚀

-

alt text

-

Ao visualizar os dados, percebemos que eles foram reparticionados. O Spark distribuiu a carga utilizando múltiplas tarefas para executar o processamento.

-

alt text

-

Foi realizada uma consulta com um filtro básico.

-

alt text

-

Consumo da cpu em tempo é de 11.2 milisegundos.

- -

alt text

- -
-

Agora…aplicado o método .. 8.82 milisegundos.

-

alt text

-

Com certeza, como PoC, é uma ótima maneira de validar o conceito com um volume menor de dados! Espero que tenha ajudado!

-

Meus Contatos! 🌟

-

Quer bater um papo, trocar ideias, ou só dar aquela stalkeada básica? Não seja tímido! Aqui estão meus canais de comunicação preferidos:

- -

Vai lá, segue, curte, comenta ou manda mensagem. Prometo que não mordo (muito)! 😜

-

_texto original publicado em medium.com

+ + + diff --git a/site/blog/category/tech/index.html b/site/blog/category/tech/index.html index 9bc5c055..6a5bf474 100644 --- a/site/blog/category/tech/index.html +++ b/site/blog/category/tech/index.html @@ -4604,58 +4604,13 @@

Tech&par

O que é unpersist() em PySpark?

O método unpersist() é eficaz para liberar recursos em processos de batch, onde você pode controlar quando o cache não é mais necessário. Em streaming, no entanto, o uso de unpersist() não é recomendado, pois os dados são processados continuamente e o checkpoint já cuida da consistência e do armazenamento de estado. A utilização do checkpoint garante que o processo de streaming seja resiliente e possa ser retomado a partir de um ponto de falha, tornando a liberação de memória mais controlada e menos disruptiva.

-

Bora para exemplo?

-

alt text

-

Carregado dados Spark

-

alt text

-

A função %time no IPython (ou Jupyter Notebook) é uma maneira prática de medir o tempo de execução de uma única linha de código. Ela retorna o tempo total necessário para a execução do comando, ajudando você a ter uma ideia do desempenho de diferentes trechos de código.

-

alt text

-

Vou conferir a volumetria do meu DataFrame para entender a quantidade de dados que ele possui. 📈

-

alt text

-

Vou verificar quantas partições meu DataFrame possui atualmente. 🧐📊

-

alt text

-

Vou dividir meu DataFrame em 10 partições para aproveitar melhor a magia da computação distribuída. 🚀✨

-

alt text

-

Veja só, agora temos 10 partições! Um verdadeiro milagre da computação distribuída em ação. 🚀

-

alt text

-

Ao visualizar os dados, percebemos que eles foram reparticionados. O Spark distribuiu a carga utilizando múltiplas tarefas para executar o processamento.

-

alt text

-

Foi realizada uma consulta com um filtro básico.

-

alt text

-

Consumo da cpu em tempo é de 11.2 milisegundos.

-
    -
  • A ideia agora é eliminar o cache utilizando o método unpersist().
  • -
-

alt text

-
    -
  • Nesse passo de limpar o cache, tivemos um pequeno aumento no consumo.
  • -
-
-

Agora…aplicado o método .. 8.82 milisegundos.

-

alt text

-

Com certeza, como PoC, é uma ótima maneira de validar o conceito com um volume menor de dados! Espero que tenha ajudado!

-

Meus Contatos! 🌟

-

Quer bater um papo, trocar ideias, ou só dar aquela stalkeada básica? Não seja tímido! Aqui estão meus canais de comunicação preferidos:

-
    -
  • -

    🌐 LinkedIn
    -O lugar onde pareço super profissional e séria. 😉

    -
  • -
  • -

    🐙 GitHub
    -Aqui é o cantinho dos meus códigos! Dá uma espiada, mas cuidado com os bugs. 😂

    -
  • -
  • -

    📸 Instagram
    -Spoiler: mais fotos e menos linhas de código! 📷✨

    -
  • -
  • -

    ✍️ Medium
    -Onde compartilho insights, histórias e dicas sobre dados e tecnologia. Dá uma conferida!

    -
  • -
-

Vai lá, segue, curte, comenta ou manda mensagem. Prometo que não mordo (muito)! 😜

-

_texto original publicado em medium.com

+ + +
diff --git a/site/blog/index.html b/site/blog/index.html index 72904db3..295a7c21 100644 --- a/site/blog/index.html +++ b/site/blog/index.html @@ -4517,58 +4517,13 @@

Blog&par

O que é unpersist() em PySpark?

O método unpersist() é eficaz para liberar recursos em processos de batch, onde você pode controlar quando o cache não é mais necessário. Em streaming, no entanto, o uso de unpersist() não é recomendado, pois os dados são processados continuamente e o checkpoint já cuida da consistência e do armazenamento de estado. A utilização do checkpoint garante que o processo de streaming seja resiliente e possa ser retomado a partir de um ponto de falha, tornando a liberação de memória mais controlada e menos disruptiva.

-

Bora para exemplo?

-

alt text

-

Carregado dados Spark

-

alt text

-

A função %time no IPython (ou Jupyter Notebook) é uma maneira prática de medir o tempo de execução de uma única linha de código. Ela retorna o tempo total necessário para a execução do comando, ajudando você a ter uma ideia do desempenho de diferentes trechos de código.

-

alt text

-

Vou conferir a volumetria do meu DataFrame para entender a quantidade de dados que ele possui. 📈

-

alt text

-

Vou verificar quantas partições meu DataFrame possui atualmente. 🧐📊

-

alt text

-

Vou dividir meu DataFrame em 10 partições para aproveitar melhor a magia da computação distribuída. 🚀✨

-

alt text

-

Veja só, agora temos 10 partições! Um verdadeiro milagre da computação distribuída em ação. 🚀

-

alt text

-

Ao visualizar os dados, percebemos que eles foram reparticionados. O Spark distribuiu a carga utilizando múltiplas tarefas para executar o processamento.

-

alt text

-

Foi realizada uma consulta com um filtro básico.

-

alt text

-

Consumo da cpu em tempo é de 11.2 milisegundos.

-
    -
  • A ideia agora é eliminar o cache utilizando o método unpersist().
  • -
-

alt text

-
    -
  • Nesse passo de limpar o cache, tivemos um pequeno aumento no consumo.
  • -
-
-

Agora…aplicado o método .. 8.82 milisegundos.

-

alt text

-

Com certeza, como PoC, é uma ótima maneira de validar o conceito com um volume menor de dados! Espero que tenha ajudado!

-

Meus Contatos! 🌟

-

Quer bater um papo, trocar ideias, ou só dar aquela stalkeada básica? Não seja tímido! Aqui estão meus canais de comunicação preferidos:

-
    -
  • -

    🌐 LinkedIn
    -O lugar onde pareço super profissional e séria. 😉

    -
  • -
  • -

    🐙 GitHub
    -Aqui é o cantinho dos meus códigos! Dá uma espiada, mas cuidado com os bugs. 😂

    -
  • -
  • -

    📸 Instagram
    -Spoiler: mais fotos e menos linhas de código! 📷✨

    -
  • -
  • -

    ✍️ Medium
    -Onde compartilho insights, histórias e dicas sobre dados e tecnologia. Dá uma conferida!

    -
  • -
-

Vai lá, segue, curte, comenta ou manda mensagem. Prometo que não mordo (muito)! 😜

-

_texto original publicado em medium.com

+ + +
diff --git a/site/blog/unpsersist-pyspark/index.html b/site/blog/unpsersist-pyspark/index.html index f4ed3f08..8919cd46 100644 --- a/site/blog/unpsersist-pyspark/index.html +++ b/site/blog/unpsersist-pyspark/index.html @@ -4532,6 +4532,8 @@

O que é unpersist() em PySpark?

O método unpersist() é eficaz para liberar recursos em processos de batch, onde você pode controlar quando o cache não é mais necessário. Em streaming, no entanto, o uso de unpersist() não é recomendado, pois os dados são processados continuamente e o checkpoint já cuida da consistência e do armazenamento de estado. A utilização do checkpoint garante que o processo de streaming seja resiliente e possa ser retomado a partir de um ponto de falha, tornando a liberação de memória mais controlada e menos disruptiva.

+ +

Bora para exemplo?

alt text

Carregado dados Spark

@@ -4630,7 +4632,7 @@

Meus Contatos! 🌟O que \u00e9 unpersist() em PySpark?

\n

O m\u00e9todo unpersist() \u00e9 eficaz para liberar recursos em processos de batch, onde voc\u00ea pode controlar quando o cache n\u00e3o \u00e9...

", + "content_html": "

O que \u00e9 unpersist() em PySpark?

\n

O m\u00e9todo unpersist() \u00e9 eficaz para liberar recursos em processos de batch, onde voc\u00ea pode controlar quando o cache n\u00e3o \u00e9 mais necess\u00e1rio. Em streaming, no entanto, o uso de unpersist() n\u00e3o \u00e9 recomendado, pois os dados s\u00e3o processados continuamente e o checkpoint j\u00e1 cuida da consist\u00eancia e do armazenamento de estado. A utiliza\u00e7\u00e3o do checkpoint garante que o processo de streaming seja resiliente e possa ser retomado a partir de um ponto de falha, tornando a libera\u00e7\u00e3o de mem\u00f3ria mais controlada e menos disruptiva.

", "image": null, "date_published": "2025-01-14T00:00:00+00:00", "authors": [ diff --git a/site/feed_json_updated.json b/site/feed_json_updated.json index cb68e823..9c4c9f3a 100644 --- a/site/feed_json_updated.json +++ b/site/feed_json_updated.json @@ -16,9 +16,9 @@ "id": "https://pangaio.com.br/blog/unpsersist-pyspark/", "url": "https://pangaio.com.br/blog/unpsersist-pyspark/", "title": "O que \u00e9 unpersist() em PySpark?", - "content_html": "

O que \u00e9 unpersist() em PySpark?

\n

O m\u00e9todo unpersist() \u00e9 eficaz para liberar recursos em processos de batch, onde voc\u00ea pode controlar quando o cache n\u00e3o \u00e9...

", + "content_html": "

O que \u00e9 unpersist() em PySpark?

\n

O m\u00e9todo unpersist() \u00e9 eficaz para liberar recursos em processos de batch, onde voc\u00ea pode controlar quando o cache n\u00e3o \u00e9 mais necess\u00e1rio. Em streaming, no entanto, o uso de unpersist() n\u00e3o \u00e9 recomendado, pois os dados s\u00e3o processados continuamente e o checkpoint j\u00e1 cuida da consist\u00eancia e do armazenamento de estado. A utiliza\u00e7\u00e3o do checkpoint garante que o processo de streaming seja resiliente e possa ser retomado a partir de um ponto de falha, tornando a libera\u00e7\u00e3o de mem\u00f3ria mais controlada e menos disruptiva.

", "image": null, - "date_modified": "2025-01-22T16:08:04.538833+00:00", + "date_modified": "2025-01-22T13:08:21+00:00", "authors": [ { "name": "Luciana Sampaio" diff --git a/site/feed_rss_created.xml b/site/feed_rss_created.xml index 1af8a843..cd452a76 100644 --- a/site/feed_rss_created.xml +++ b/site/feed_rss_created.xml @@ -13,8 +13,8 @@ pt - Wed, 22 Jan 2025 16:07:56 -0000 - Wed, 22 Jan 2025 16:07:56 -0000 + Wed, 22 Jan 2025 16:12:17 -0000 + Wed, 22 Jan 2025 16:12:17 -0000 1440 @@ -50,7 +50,7 @@ <h1>O que é unpersist() em PySpark?</h1> -<p>O método <code>unpersist()</code> é eficaz para liberar recursos em processos de batch, onde você pode controlar quando o cache não é...</p> +<p>O método <code>unpersist()</code> é eficaz para liberar recursos em processos de batch, onde você pode controlar quando o cache não é mais necessário. Em streaming, no entanto, o uso de <code>unpersist()</code> não é recomendado, pois os dados são processados continuamente e o checkpoint já cuida da consistência e do armazenamento de estado. A utilização do checkpoint garante que o processo de streaming seja resiliente e possa ser retomado a partir de um ponto de falha, tornando a liberação de memória mais controlada e menos disruptiva.</p> https://pangaio.com.br/blog/unpsersist-pyspark/ Tue, 14 Jan 2025 00:00:00 +0000 O Site do Pangaio diff --git a/site/feed_rss_updated.xml b/site/feed_rss_updated.xml index c48e3e61..1dcfa44c 100644 --- a/site/feed_rss_updated.xml +++ b/site/feed_rss_updated.xml @@ -13,8 +13,8 @@ pt - Wed, 22 Jan 2025 16:07:56 -0000 - Wed, 22 Jan 2025 16:07:56 -0000 + Wed, 22 Jan 2025 16:12:17 -0000 + Wed, 22 Jan 2025 16:12:17 -0000 1440 @@ -50,9 +50,9 @@ <h1>O que é unpersist() em PySpark?</h1> -<p>O método <code>unpersist()</code> é eficaz para liberar recursos em processos de batch, onde você pode controlar quando o cache não é...</p> +<p>O método <code>unpersist()</code> é eficaz para liberar recursos em processos de batch, onde você pode controlar quando o cache não é mais necessário. Em streaming, no entanto, o uso de <code>unpersist()</code> não é recomendado, pois os dados são processados continuamente e o checkpoint já cuida da consistência e do armazenamento de estado. A utilização do checkpoint garante que o processo de streaming seja resiliente e possa ser retomado a partir de um ponto de falha, tornando a liberação de memória mais controlada e menos disruptiva.</p> https://pangaio.com.br/blog/unpsersist-pyspark/ - Wed, 22 Jan 2025 16:08:04 +0000 + Wed, 22 Jan 2025 13:08:21 +0000 O Site do Pangaio https://pangaio.com.br/blog/unpsersist-pyspark/