Skip to content

Commit

Permalink
Making a new commit.
Browse files Browse the repository at this point in the history
  • Loading branch information
leonardopangaio committed Jan 22, 2025
1 parent 3294930 commit 3166a77
Show file tree
Hide file tree
Showing 11 changed files with 50 additions and 271 deletions.
2 changes: 2 additions & 0 deletions docs/blog/posts/luciana-sampaio/unpersistPySpark.md
Original file line number Diff line number Diff line change
Expand Up @@ -15,6 +15,8 @@ slug: unpsersist-pyspark

O método `unpersist()` é eficaz para liberar recursos em processos de batch, onde você pode controlar quando o cache não é mais necessário. Em streaming, no entanto, o uso de `unpersist()` não é recomendado, pois os dados são processados continuamente e o checkpoint já cuida da consistência e do armazenamento de estado. A utilização do checkpoint garante que o processo de streaming seja resiliente e possa ser retomado a partir de um ponto de falha, tornando a liberação de memória mais controlada e menos disruptiva.

<!-- more -->

Bora para exemplo?

![alt text](../../../images/blog/luciana/unpersit1.png)
Expand Down
59 changes: 7 additions & 52 deletions site/blog/archive/2025/index.html
Original file line number Diff line number Diff line change
Expand Up @@ -4568,58 +4568,13 @@ <h1 id="2025">2025<a class="headerlink" href="#2025" title="Permanent link">&par
<div class="md-post__content md-typeset">
<h2 id="o-que-e-unpersist-em-pyspark"><a class="toclink" href="../../unpsersist-pyspark/">O que é unpersist() em PySpark?</a></h2>
<p>O método <code>unpersist()</code> é eficaz para liberar recursos em processos de batch, onde você pode controlar quando o cache não é mais necessário. Em streaming, no entanto, o uso de <code>unpersist()</code> não é recomendado, pois os dados são processados continuamente e o checkpoint já cuida da consistência e do armazenamento de estado. A utilização do checkpoint garante que o processo de streaming seja resiliente e possa ser retomado a partir de um ponto de falha, tornando a liberação de memória mais controlada e menos disruptiva.</p>
<p>Bora para exemplo?</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit1.png" /></p>
<p>Carregado dados Spark</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit2.png" /></p>
<p>A função %time no IPython (ou Jupyter Notebook) é uma maneira prática de medir o tempo de execução de uma única linha de código. Ela retorna o tempo total necessário para a execução do comando, ajudando você a ter uma ideia do desempenho de diferentes trechos de código.</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit3.png" /></p>
<p>Vou conferir a volumetria do meu DataFrame para entender a quantidade de dados que ele possui. 📈</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit4.png" /></p>
<p>Vou verificar quantas partições meu DataFrame possui atualmente. 🧐📊</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit5.png" /></p>
<p>Vou dividir meu DataFrame em 10 partições para aproveitar melhor a magia da computação distribuída. 🚀✨</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit6.png" /></p>
<p>Veja só, agora temos 10 partições! Um verdadeiro milagre da computação distribuída em ação. 🚀</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit7.png" /></p>
<p>Ao visualizar os dados, percebemos que eles foram reparticionados. O Spark distribuiu a carga utilizando múltiplas tarefas para executar o processamento.</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit8.png" /></p>
<p>Foi realizada uma consulta com um filtro básico.</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit9.png" /></p>
<h4 id="consumo-da-cpu-em-tempo-e-de-112-milisegundos"><a class="toclink" href="../../unpsersist-pyspark/#consumo-da-cpu-em-tempo-e-de-112-milisegundos">Consumo da cpu em tempo é de 11.2 milisegundos.</a></h4>
<ul>
<li>A ideia agora é eliminar o cache utilizando o método <code>unpersist()</code>.</li>
</ul>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit10.png" /></p>
<ul>
<li>Nesse passo de limpar o cache, tivemos um pequeno aumento no consumo.</li>
</ul>
<hr />
<p>Agora…aplicado o método .. 8.82 milisegundos.</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit11.png" /></p>
<p>Com certeza, como PoC, é uma ótima maneira de validar o conceito com um volume menor de dados! Espero que tenha ajudado!</p>
<h2 id="meus-contatos"><a class="toclink" href="../../unpsersist-pyspark/#meus-contatos">Meus Contatos! 🌟</a></h2>
<p>Quer bater um papo, trocar ideias, ou só dar aquela stalkeada básica? Não seja tímido! Aqui estão meus canais de comunicação preferidos:</p>
<ul>
<li>
<p>🌐 <a href="https://www.linkedin.com/in/luciana-sampaio/">LinkedIn</a><br />
<strong>O lugar onde pareço super profissional e séria. 😉</strong></p>
</li>
<li>
<p>🐙 <a href="https://github.com/luasampaio">GitHub</a><br />
<strong>Aqui é o cantinho dos meus códigos! Dá uma espiada, mas cuidado com os bugs. 😂</strong></p>
</li>
<li>
<p>📸 <a href="https://www.instagram.com/luasampaio/">Instagram</a><br />
<strong>Spoiler: mais fotos e menos linhas de código! 📷✨</strong></p>
</li>
<li>
<p>✍️ <a href="https://medium.com/@luciana.sampaio84">Medium</a><br />
<strong>Onde compartilho insights, histórias e dicas sobre dados e tecnologia. Dá uma conferida!</strong></p>
</li>
</ul>
<p>Vai lá, segue, curte, comenta ou manda mensagem. Prometo que não mordo (muito)! 😜</p>
<p><em>_texto original publicado em <a href="https://medium.com/@luciana.sampaio84/o-que-%C3%A9-unpersist-em-pyspark-b1617acef35b">medium.com</a></em></p>


<nav class="md-post__action">
<a href="../../unpsersist-pyspark/">
Continuar leitura
</a>
</nav>

</div>
</article>
Expand Down
59 changes: 7 additions & 52 deletions site/blog/category/data-science/index.html
Original file line number Diff line number Diff line change
Expand Up @@ -4604,58 +4604,13 @@ <h1 id="data-science">Data Science<a class="headerlink" href="#data-science" tit
<div class="md-post__content md-typeset">
<h2 id="o-que-e-unpersist-em-pyspark"><a class="toclink" href="../../unpsersist-pyspark/">O que é unpersist() em PySpark?</a></h2>
<p>O método <code>unpersist()</code> é eficaz para liberar recursos em processos de batch, onde você pode controlar quando o cache não é mais necessário. Em streaming, no entanto, o uso de <code>unpersist()</code> não é recomendado, pois os dados são processados continuamente e o checkpoint já cuida da consistência e do armazenamento de estado. A utilização do checkpoint garante que o processo de streaming seja resiliente e possa ser retomado a partir de um ponto de falha, tornando a liberação de memória mais controlada e menos disruptiva.</p>
<p>Bora para exemplo?</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit1.png" /></p>
<p>Carregado dados Spark</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit2.png" /></p>
<p>A função %time no IPython (ou Jupyter Notebook) é uma maneira prática de medir o tempo de execução de uma única linha de código. Ela retorna o tempo total necessário para a execução do comando, ajudando você a ter uma ideia do desempenho de diferentes trechos de código.</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit3.png" /></p>
<p>Vou conferir a volumetria do meu DataFrame para entender a quantidade de dados que ele possui. 📈</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit4.png" /></p>
<p>Vou verificar quantas partições meu DataFrame possui atualmente. 🧐📊</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit5.png" /></p>
<p>Vou dividir meu DataFrame em 10 partições para aproveitar melhor a magia da computação distribuída. 🚀✨</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit6.png" /></p>
<p>Veja só, agora temos 10 partições! Um verdadeiro milagre da computação distribuída em ação. 🚀</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit7.png" /></p>
<p>Ao visualizar os dados, percebemos que eles foram reparticionados. O Spark distribuiu a carga utilizando múltiplas tarefas para executar o processamento.</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit8.png" /></p>
<p>Foi realizada uma consulta com um filtro básico.</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit9.png" /></p>
<h4 id="consumo-da-cpu-em-tempo-e-de-112-milisegundos"><a class="toclink" href="../../unpsersist-pyspark/#consumo-da-cpu-em-tempo-e-de-112-milisegundos">Consumo da cpu em tempo é de 11.2 milisegundos.</a></h4>
<ul>
<li>A ideia agora é eliminar o cache utilizando o método <code>unpersist()</code>.</li>
</ul>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit10.png" /></p>
<ul>
<li>Nesse passo de limpar o cache, tivemos um pequeno aumento no consumo.</li>
</ul>
<hr />
<p>Agora…aplicado o método .. 8.82 milisegundos.</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit11.png" /></p>
<p>Com certeza, como PoC, é uma ótima maneira de validar o conceito com um volume menor de dados! Espero que tenha ajudado!</p>
<h2 id="meus-contatos"><a class="toclink" href="../../unpsersist-pyspark/#meus-contatos">Meus Contatos! 🌟</a></h2>
<p>Quer bater um papo, trocar ideias, ou só dar aquela stalkeada básica? Não seja tímido! Aqui estão meus canais de comunicação preferidos:</p>
<ul>
<li>
<p>🌐 <a href="https://www.linkedin.com/in/luciana-sampaio/">LinkedIn</a><br />
<strong>O lugar onde pareço super profissional e séria. 😉</strong></p>
</li>
<li>
<p>🐙 <a href="https://github.com/luasampaio">GitHub</a><br />
<strong>Aqui é o cantinho dos meus códigos! Dá uma espiada, mas cuidado com os bugs. 😂</strong></p>
</li>
<li>
<p>📸 <a href="https://www.instagram.com/luasampaio/">Instagram</a><br />
<strong>Spoiler: mais fotos e menos linhas de código! 📷✨</strong></p>
</li>
<li>
<p>✍️ <a href="https://medium.com/@luciana.sampaio84">Medium</a><br />
<strong>Onde compartilho insights, histórias e dicas sobre dados e tecnologia. Dá uma conferida!</strong></p>
</li>
</ul>
<p>Vai lá, segue, curte, comenta ou manda mensagem. Prometo que não mordo (muito)! 😜</p>
<p><em>_texto original publicado em <a href="https://medium.com/@luciana.sampaio84/o-que-%C3%A9-unpersist-em-pyspark-b1617acef35b">medium.com</a></em></p>


<nav class="md-post__action">
<a href="../../unpsersist-pyspark/">
Continuar leitura
</a>
</nav>

</div>
</article>
Expand Down
59 changes: 7 additions & 52 deletions site/blog/category/pyspark/index.html
Original file line number Diff line number Diff line change
Expand Up @@ -4604,58 +4604,13 @@ <h1 id="pyspark">PySpark<a class="headerlink" href="#pyspark" title="Permanent l
<div class="md-post__content md-typeset">
<h2 id="o-que-e-unpersist-em-pyspark"><a class="toclink" href="../../unpsersist-pyspark/">O que é unpersist() em PySpark?</a></h2>
<p>O método <code>unpersist()</code> é eficaz para liberar recursos em processos de batch, onde você pode controlar quando o cache não é mais necessário. Em streaming, no entanto, o uso de <code>unpersist()</code> não é recomendado, pois os dados são processados continuamente e o checkpoint já cuida da consistência e do armazenamento de estado. A utilização do checkpoint garante que o processo de streaming seja resiliente e possa ser retomado a partir de um ponto de falha, tornando a liberação de memória mais controlada e menos disruptiva.</p>
<p>Bora para exemplo?</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit1.png" /></p>
<p>Carregado dados Spark</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit2.png" /></p>
<p>A função %time no IPython (ou Jupyter Notebook) é uma maneira prática de medir o tempo de execução de uma única linha de código. Ela retorna o tempo total necessário para a execução do comando, ajudando você a ter uma ideia do desempenho de diferentes trechos de código.</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit3.png" /></p>
<p>Vou conferir a volumetria do meu DataFrame para entender a quantidade de dados que ele possui. 📈</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit4.png" /></p>
<p>Vou verificar quantas partições meu DataFrame possui atualmente. 🧐📊</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit5.png" /></p>
<p>Vou dividir meu DataFrame em 10 partições para aproveitar melhor a magia da computação distribuída. 🚀✨</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit6.png" /></p>
<p>Veja só, agora temos 10 partições! Um verdadeiro milagre da computação distribuída em ação. 🚀</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit7.png" /></p>
<p>Ao visualizar os dados, percebemos que eles foram reparticionados. O Spark distribuiu a carga utilizando múltiplas tarefas para executar o processamento.</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit8.png" /></p>
<p>Foi realizada uma consulta com um filtro básico.</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit9.png" /></p>
<h4 id="consumo-da-cpu-em-tempo-e-de-112-milisegundos"><a class="toclink" href="../../unpsersist-pyspark/#consumo-da-cpu-em-tempo-e-de-112-milisegundos">Consumo da cpu em tempo é de 11.2 milisegundos.</a></h4>
<ul>
<li>A ideia agora é eliminar o cache utilizando o método <code>unpersist()</code>.</li>
</ul>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit10.png" /></p>
<ul>
<li>Nesse passo de limpar o cache, tivemos um pequeno aumento no consumo.</li>
</ul>
<hr />
<p>Agora…aplicado o método .. 8.82 milisegundos.</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit11.png" /></p>
<p>Com certeza, como PoC, é uma ótima maneira de validar o conceito com um volume menor de dados! Espero que tenha ajudado!</p>
<h2 id="meus-contatos"><a class="toclink" href="../../unpsersist-pyspark/#meus-contatos">Meus Contatos! 🌟</a></h2>
<p>Quer bater um papo, trocar ideias, ou só dar aquela stalkeada básica? Não seja tímido! Aqui estão meus canais de comunicação preferidos:</p>
<ul>
<li>
<p>🌐 <a href="https://www.linkedin.com/in/luciana-sampaio/">LinkedIn</a><br />
<strong>O lugar onde pareço super profissional e séria. 😉</strong></p>
</li>
<li>
<p>🐙 <a href="https://github.com/luasampaio">GitHub</a><br />
<strong>Aqui é o cantinho dos meus códigos! Dá uma espiada, mas cuidado com os bugs. 😂</strong></p>
</li>
<li>
<p>📸 <a href="https://www.instagram.com/luasampaio/">Instagram</a><br />
<strong>Spoiler: mais fotos e menos linhas de código! 📷✨</strong></p>
</li>
<li>
<p>✍️ <a href="https://medium.com/@luciana.sampaio84">Medium</a><br />
<strong>Onde compartilho insights, histórias e dicas sobre dados e tecnologia. Dá uma conferida!</strong></p>
</li>
</ul>
<p>Vai lá, segue, curte, comenta ou manda mensagem. Prometo que não mordo (muito)! 😜</p>
<p><em>_texto original publicado em <a href="https://medium.com/@luciana.sampaio84/o-que-%C3%A9-unpersist-em-pyspark-b1617acef35b">medium.com</a></em></p>


<nav class="md-post__action">
<a href="../../unpsersist-pyspark/">
Continuar leitura
</a>
</nav>

</div>
</article>
Expand Down
59 changes: 7 additions & 52 deletions site/blog/category/tech/index.html
Original file line number Diff line number Diff line change
Expand Up @@ -4604,58 +4604,13 @@ <h1 id="tech">Tech<a class="headerlink" href="#tech" title="Permanent link">&par
<div class="md-post__content md-typeset">
<h2 id="o-que-e-unpersist-em-pyspark"><a class="toclink" href="../../unpsersist-pyspark/">O que é unpersist() em PySpark?</a></h2>
<p>O método <code>unpersist()</code> é eficaz para liberar recursos em processos de batch, onde você pode controlar quando o cache não é mais necessário. Em streaming, no entanto, o uso de <code>unpersist()</code> não é recomendado, pois os dados são processados continuamente e o checkpoint já cuida da consistência e do armazenamento de estado. A utilização do checkpoint garante que o processo de streaming seja resiliente e possa ser retomado a partir de um ponto de falha, tornando a liberação de memória mais controlada e menos disruptiva.</p>
<p>Bora para exemplo?</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit1.png" /></p>
<p>Carregado dados Spark</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit2.png" /></p>
<p>A função %time no IPython (ou Jupyter Notebook) é uma maneira prática de medir o tempo de execução de uma única linha de código. Ela retorna o tempo total necessário para a execução do comando, ajudando você a ter uma ideia do desempenho de diferentes trechos de código.</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit3.png" /></p>
<p>Vou conferir a volumetria do meu DataFrame para entender a quantidade de dados que ele possui. 📈</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit4.png" /></p>
<p>Vou verificar quantas partições meu DataFrame possui atualmente. 🧐📊</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit5.png" /></p>
<p>Vou dividir meu DataFrame em 10 partições para aproveitar melhor a magia da computação distribuída. 🚀✨</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit6.png" /></p>
<p>Veja só, agora temos 10 partições! Um verdadeiro milagre da computação distribuída em ação. 🚀</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit7.png" /></p>
<p>Ao visualizar os dados, percebemos que eles foram reparticionados. O Spark distribuiu a carga utilizando múltiplas tarefas para executar o processamento.</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit8.png" /></p>
<p>Foi realizada uma consulta com um filtro básico.</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit9.png" /></p>
<h4 id="consumo-da-cpu-em-tempo-e-de-112-milisegundos"><a class="toclink" href="../../unpsersist-pyspark/#consumo-da-cpu-em-tempo-e-de-112-milisegundos">Consumo da cpu em tempo é de 11.2 milisegundos.</a></h4>
<ul>
<li>A ideia agora é eliminar o cache utilizando o método <code>unpersist()</code>.</li>
</ul>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit10.png" /></p>
<ul>
<li>Nesse passo de limpar o cache, tivemos um pequeno aumento no consumo.</li>
</ul>
<hr />
<p>Agora…aplicado o método .. 8.82 milisegundos.</p>
<p><img alt="alt text" src="../../../images/blog/luciana/unpersit11.png" /></p>
<p>Com certeza, como PoC, é uma ótima maneira de validar o conceito com um volume menor de dados! Espero que tenha ajudado!</p>
<h2 id="meus-contatos"><a class="toclink" href="../../unpsersist-pyspark/#meus-contatos">Meus Contatos! 🌟</a></h2>
<p>Quer bater um papo, trocar ideias, ou só dar aquela stalkeada básica? Não seja tímido! Aqui estão meus canais de comunicação preferidos:</p>
<ul>
<li>
<p>🌐 <a href="https://www.linkedin.com/in/luciana-sampaio/">LinkedIn</a><br />
<strong>O lugar onde pareço super profissional e séria. 😉</strong></p>
</li>
<li>
<p>🐙 <a href="https://github.com/luasampaio">GitHub</a><br />
<strong>Aqui é o cantinho dos meus códigos! Dá uma espiada, mas cuidado com os bugs. 😂</strong></p>
</li>
<li>
<p>📸 <a href="https://www.instagram.com/luasampaio/">Instagram</a><br />
<strong>Spoiler: mais fotos e menos linhas de código! 📷✨</strong></p>
</li>
<li>
<p>✍️ <a href="https://medium.com/@luciana.sampaio84">Medium</a><br />
<strong>Onde compartilho insights, histórias e dicas sobre dados e tecnologia. Dá uma conferida!</strong></p>
</li>
</ul>
<p>Vai lá, segue, curte, comenta ou manda mensagem. Prometo que não mordo (muito)! 😜</p>
<p><em>_texto original publicado em <a href="https://medium.com/@luciana.sampaio84/o-que-%C3%A9-unpersist-em-pyspark-b1617acef35b">medium.com</a></em></p>


<nav class="md-post__action">
<a href="../../unpsersist-pyspark/">
Continuar leitura
</a>
</nav>

</div>
</article>
Expand Down
Loading

0 comments on commit 3166a77

Please sign in to comment.