diff --git a/docs/blog/posts/luciana-sampaio/unpersistPySpark.md b/docs/blog/posts/luciana-sampaio/unpersistPySpark.md index c75027bb..c2bfe9f1 100644 --- a/docs/blog/posts/luciana-sampaio/unpersistPySpark.md +++ b/docs/blog/posts/luciana-sampaio/unpersistPySpark.md @@ -15,6 +15,8 @@ slug: unpsersist-pyspark O método `unpersist()` é eficaz para liberar recursos em processos de batch, onde você pode controlar quando o cache não é mais necessário. Em streaming, no entanto, o uso de `unpersist()` não é recomendado, pois os dados são processados continuamente e o checkpoint já cuida da consistência e do armazenamento de estado. A utilização do checkpoint garante que o processo de streaming seja resiliente e possa ser retomado a partir de um ponto de falha, tornando a liberação de memória mais controlada e menos disruptiva. + + Bora para exemplo?  diff --git a/site/blog/archive/2025/index.html b/site/blog/archive/2025/index.html index 9ad6fe85..1e25eb94 100644 --- a/site/blog/archive/2025/index.html +++ b/site/blog/archive/2025/index.html @@ -4568,58 +4568,13 @@
O método unpersist()
é eficaz para liberar recursos em processos de batch, onde você pode controlar quando o cache não é mais necessário. Em streaming, no entanto, o uso de unpersist()
não é recomendado, pois os dados são processados continuamente e o checkpoint já cuida da consistência e do armazenamento de estado. A utilização do checkpoint garante que o processo de streaming seja resiliente e possa ser retomado a partir de um ponto de falha, tornando a liberação de memória mais controlada e menos disruptiva.
Bora para exemplo?
-Carregado dados Spark
-A função %time no IPython (ou Jupyter Notebook) é uma maneira prática de medir o tempo de execução de uma única linha de código. Ela retorna o tempo total necessário para a execução do comando, ajudando você a ter uma ideia do desempenho de diferentes trechos de código.
-Vou conferir a volumetria do meu DataFrame para entender a quantidade de dados que ele possui. 📈
-Vou verificar quantas partições meu DataFrame possui atualmente. 🧐📊
-Vou dividir meu DataFrame em 10 partições para aproveitar melhor a magia da computação distribuída. 🚀✨
-Veja só, agora temos 10 partições! Um verdadeiro milagre da computação distribuída em ação. 🚀
-Ao visualizar os dados, percebemos que eles foram reparticionados. O Spark distribuiu a carga utilizando múltiplas tarefas para executar o processamento.
-Foi realizada uma consulta com um filtro básico.
-unpersist()
.Agora…aplicado o método .. 8.82 milisegundos.
-Com certeza, como PoC, é uma ótima maneira de validar o conceito com um volume menor de dados! Espero que tenha ajudado!
-Quer bater um papo, trocar ideias, ou só dar aquela stalkeada básica? Não seja tímido! Aqui estão meus canais de comunicação preferidos:
-🌐 LinkedIn
-O lugar onde pareço super profissional e séria. 😉
🐙 GitHub
-Aqui é o cantinho dos meus códigos! Dá uma espiada, mas cuidado com os bugs. 😂
📸 Instagram
-Spoiler: mais fotos e menos linhas de código! 📷✨
✍️ Medium
-Onde compartilho insights, histórias e dicas sobre dados e tecnologia. Dá uma conferida!
Vai lá, segue, curte, comenta ou manda mensagem. Prometo que não mordo (muito)! 😜
-_texto original publicado em medium.com
+ + +O método unpersist()
é eficaz para liberar recursos em processos de batch, onde você pode controlar quando o cache não é mais necessário. Em streaming, no entanto, o uso de unpersist()
não é recomendado, pois os dados são processados continuamente e o checkpoint já cuida da consistência e do armazenamento de estado. A utilização do checkpoint garante que o processo de streaming seja resiliente e possa ser retomado a partir de um ponto de falha, tornando a liberação de memória mais controlada e menos disruptiva.
Bora para exemplo?
-Carregado dados Spark
-A função %time no IPython (ou Jupyter Notebook) é uma maneira prática de medir o tempo de execução de uma única linha de código. Ela retorna o tempo total necessário para a execução do comando, ajudando você a ter uma ideia do desempenho de diferentes trechos de código.
-Vou conferir a volumetria do meu DataFrame para entender a quantidade de dados que ele possui. 📈
-Vou verificar quantas partições meu DataFrame possui atualmente. 🧐📊
-Vou dividir meu DataFrame em 10 partições para aproveitar melhor a magia da computação distribuída. 🚀✨
-Veja só, agora temos 10 partições! Um verdadeiro milagre da computação distribuída em ação. 🚀
-Ao visualizar os dados, percebemos que eles foram reparticionados. O Spark distribuiu a carga utilizando múltiplas tarefas para executar o processamento.
-Foi realizada uma consulta com um filtro básico.
-unpersist()
.Agora…aplicado o método .. 8.82 milisegundos.
-Com certeza, como PoC, é uma ótima maneira de validar o conceito com um volume menor de dados! Espero que tenha ajudado!
-Quer bater um papo, trocar ideias, ou só dar aquela stalkeada básica? Não seja tímido! Aqui estão meus canais de comunicação preferidos:
-🌐 LinkedIn
-O lugar onde pareço super profissional e séria. 😉
🐙 GitHub
-Aqui é o cantinho dos meus códigos! Dá uma espiada, mas cuidado com os bugs. 😂
📸 Instagram
-Spoiler: mais fotos e menos linhas de código! 📷✨
✍️ Medium
-Onde compartilho insights, histórias e dicas sobre dados e tecnologia. Dá uma conferida!
Vai lá, segue, curte, comenta ou manda mensagem. Prometo que não mordo (muito)! 😜
-_texto original publicado em medium.com
+ + + diff --git a/site/blog/category/pyspark/index.html b/site/blog/category/pyspark/index.html index 73a7afcc..b7dfd078 100644 --- a/site/blog/category/pyspark/index.html +++ b/site/blog/category/pyspark/index.html @@ -4604,58 +4604,13 @@O método unpersist()
é eficaz para liberar recursos em processos de batch, onde você pode controlar quando o cache não é mais necessário. Em streaming, no entanto, o uso de unpersist()
não é recomendado, pois os dados são processados continuamente e o checkpoint já cuida da consistência e do armazenamento de estado. A utilização do checkpoint garante que o processo de streaming seja resiliente e possa ser retomado a partir de um ponto de falha, tornando a liberação de memória mais controlada e menos disruptiva.
Bora para exemplo?
-Carregado dados Spark
-A função %time no IPython (ou Jupyter Notebook) é uma maneira prática de medir o tempo de execução de uma única linha de código. Ela retorna o tempo total necessário para a execução do comando, ajudando você a ter uma ideia do desempenho de diferentes trechos de código.
-Vou conferir a volumetria do meu DataFrame para entender a quantidade de dados que ele possui. 📈
-Vou verificar quantas partições meu DataFrame possui atualmente. 🧐📊
-Vou dividir meu DataFrame em 10 partições para aproveitar melhor a magia da computação distribuída. 🚀✨
-Veja só, agora temos 10 partições! Um verdadeiro milagre da computação distribuída em ação. 🚀
-Ao visualizar os dados, percebemos que eles foram reparticionados. O Spark distribuiu a carga utilizando múltiplas tarefas para executar o processamento.
-Foi realizada uma consulta com um filtro básico.
-unpersist()
.Agora…aplicado o método .. 8.82 milisegundos.
-Com certeza, como PoC, é uma ótima maneira de validar o conceito com um volume menor de dados! Espero que tenha ajudado!
-Quer bater um papo, trocar ideias, ou só dar aquela stalkeada básica? Não seja tímido! Aqui estão meus canais de comunicação preferidos:
-🌐 LinkedIn
-O lugar onde pareço super profissional e séria. 😉
🐙 GitHub
-Aqui é o cantinho dos meus códigos! Dá uma espiada, mas cuidado com os bugs. 😂
📸 Instagram
-Spoiler: mais fotos e menos linhas de código! 📷✨
✍️ Medium
-Onde compartilho insights, histórias e dicas sobre dados e tecnologia. Dá uma conferida!
Vai lá, segue, curte, comenta ou manda mensagem. Prometo que não mordo (muito)! 😜
-_texto original publicado em medium.com
+ + + diff --git a/site/blog/category/tech/index.html b/site/blog/category/tech/index.html index 9bc5c055..6a5bf474 100644 --- a/site/blog/category/tech/index.html +++ b/site/blog/category/tech/index.html @@ -4604,58 +4604,13 @@O método unpersist()
é eficaz para liberar recursos em processos de batch, onde você pode controlar quando o cache não é mais necessário. Em streaming, no entanto, o uso de unpersist()
não é recomendado, pois os dados são processados continuamente e o checkpoint já cuida da consistência e do armazenamento de estado. A utilização do checkpoint garante que o processo de streaming seja resiliente e possa ser retomado a partir de um ponto de falha, tornando a liberação de memória mais controlada e menos disruptiva.
Bora para exemplo?
-Carregado dados Spark
-A função %time no IPython (ou Jupyter Notebook) é uma maneira prática de medir o tempo de execução de uma única linha de código. Ela retorna o tempo total necessário para a execução do comando, ajudando você a ter uma ideia do desempenho de diferentes trechos de código.
-Vou conferir a volumetria do meu DataFrame para entender a quantidade de dados que ele possui. 📈
-Vou verificar quantas partições meu DataFrame possui atualmente. 🧐📊
-Vou dividir meu DataFrame em 10 partições para aproveitar melhor a magia da computação distribuída. 🚀✨
-Veja só, agora temos 10 partições! Um verdadeiro milagre da computação distribuída em ação. 🚀
-Ao visualizar os dados, percebemos que eles foram reparticionados. O Spark distribuiu a carga utilizando múltiplas tarefas para executar o processamento.
-Foi realizada uma consulta com um filtro básico.
-unpersist()
.Agora…aplicado o método .. 8.82 milisegundos.
-Com certeza, como PoC, é uma ótima maneira de validar o conceito com um volume menor de dados! Espero que tenha ajudado!
-Quer bater um papo, trocar ideias, ou só dar aquela stalkeada básica? Não seja tímido! Aqui estão meus canais de comunicação preferidos:
-🌐 LinkedIn
-O lugar onde pareço super profissional e séria. 😉
🐙 GitHub
-Aqui é o cantinho dos meus códigos! Dá uma espiada, mas cuidado com os bugs. 😂
📸 Instagram
-Spoiler: mais fotos e menos linhas de código! 📷✨
✍️ Medium
-Onde compartilho insights, histórias e dicas sobre dados e tecnologia. Dá uma conferida!
Vai lá, segue, curte, comenta ou manda mensagem. Prometo que não mordo (muito)! 😜
-_texto original publicado em medium.com
+ + +O método unpersist()
é eficaz para liberar recursos em processos de batch, onde você pode controlar quando o cache não é mais necessário. Em streaming, no entanto, o uso de unpersist()
não é recomendado, pois os dados são processados continuamente e o checkpoint já cuida da consistência e do armazenamento de estado. A utilização do checkpoint garante que o processo de streaming seja resiliente e possa ser retomado a partir de um ponto de falha, tornando a liberação de memória mais controlada e menos disruptiva.
Bora para exemplo?
-Carregado dados Spark
-A função %time no IPython (ou Jupyter Notebook) é uma maneira prática de medir o tempo de execução de uma única linha de código. Ela retorna o tempo total necessário para a execução do comando, ajudando você a ter uma ideia do desempenho de diferentes trechos de código.
-Vou conferir a volumetria do meu DataFrame para entender a quantidade de dados que ele possui. 📈
-Vou verificar quantas partições meu DataFrame possui atualmente. 🧐📊
-Vou dividir meu DataFrame em 10 partições para aproveitar melhor a magia da computação distribuída. 🚀✨
-Veja só, agora temos 10 partições! Um verdadeiro milagre da computação distribuída em ação. 🚀
-Ao visualizar os dados, percebemos que eles foram reparticionados. O Spark distribuiu a carga utilizando múltiplas tarefas para executar o processamento.
-Foi realizada uma consulta com um filtro básico.
-unpersist()
.Agora…aplicado o método .. 8.82 milisegundos.
-Com certeza, como PoC, é uma ótima maneira de validar o conceito com um volume menor de dados! Espero que tenha ajudado!
-Quer bater um papo, trocar ideias, ou só dar aquela stalkeada básica? Não seja tímido! Aqui estão meus canais de comunicação preferidos:
-🌐 LinkedIn
-O lugar onde pareço super profissional e séria. 😉
🐙 GitHub
-Aqui é o cantinho dos meus códigos! Dá uma espiada, mas cuidado com os bugs. 😂
📸 Instagram
-Spoiler: mais fotos e menos linhas de código! 📷✨
✍️ Medium
-Onde compartilho insights, histórias e dicas sobre dados e tecnologia. Dá uma conferida!
Vai lá, segue, curte, comenta ou manda mensagem. Prometo que não mordo (muito)! 😜
-_texto original publicado em medium.com
+ + +O método unpersist()
é eficaz para liberar recursos em processos de batch, onde você pode controlar quando o cache não é mais necessário. Em streaming, no entanto, o uso de unpersist()
não é recomendado, pois os dados são processados continuamente e o checkpoint já cuida da consistência e do armazenamento de estado. A utilização do checkpoint garante que o processo de streaming seja resiliente e possa ser retomado a partir de um ponto de falha, tornando a liberação de memória mais controlada e menos disruptiva.
Bora para exemplo?
Carregado dados Spark
@@ -4630,7 +4632,7 @@O m\u00e9todo unpersist()
\u00e9 eficaz para liberar recursos em processos de batch, onde voc\u00ea pode controlar quando o cache n\u00e3o \u00e9...
O m\u00e9todo unpersist()
\u00e9 eficaz para liberar recursos em processos de batch, onde voc\u00ea pode controlar quando o cache n\u00e3o \u00e9 mais necess\u00e1rio. Em streaming, no entanto, o uso de unpersist()
n\u00e3o \u00e9 recomendado, pois os dados s\u00e3o processados continuamente e o checkpoint j\u00e1 cuida da consist\u00eancia e do armazenamento de estado. A utiliza\u00e7\u00e3o do checkpoint garante que o processo de streaming seja resiliente e possa ser retomado a partir de um ponto de falha, tornando a libera\u00e7\u00e3o de mem\u00f3ria mais controlada e menos disruptiva.
O m\u00e9todo unpersist()
\u00e9 eficaz para liberar recursos em processos de batch, onde voc\u00ea pode controlar quando o cache n\u00e3o \u00e9...
O m\u00e9todo unpersist()
\u00e9 eficaz para liberar recursos em processos de batch, onde voc\u00ea pode controlar quando o cache n\u00e3o \u00e9 mais necess\u00e1rio. Em streaming, no entanto, o uso de unpersist()
n\u00e3o \u00e9 recomendado, pois os dados s\u00e3o processados continuamente e o checkpoint j\u00e1 cuida da consist\u00eancia e do armazenamento de estado. A utiliza\u00e7\u00e3o do checkpoint garante que o processo de streaming seja resiliente e possa ser retomado a partir de um ponto de falha, tornando a libera\u00e7\u00e3o de mem\u00f3ria mais controlada e menos disruptiva.