GitHub

Webscraping y Minería de Redes Sociales

Febrero de 2019

Desarrollado por:

Proyecto de recopilación de datos para la Cámara de Comercio de Medellín usando técnicas de Webscraping y Minería de Redes Sociales en Python. Las aplicaciones son desplegadas en Instancias (Compute Engine) de Google Cloud Platform usando Docker. Para construir las imagenes basta con instalar Docker de forma local y ejecutar el siguiente comando:

  docker build -t [NOMBRE_DE_LA_IMAGEN] .                              # Si se está dentro de la carpeta que contiene el Dockerfile
  docker build -t [NOMBRE_DE_LA_IMAGEN] -f [RUTA_DEL_DOCKERFILE] .     # Si se está en una carpeta externa que no contiene el Dockerfile

Para arrancar el contenedor de forma local se debe ejecutar el siguiente comando:

  docker run -d --name [NOMBRE_DEL_CONTENEDOR] -v [VOLUMEN_HOST]:[VOLUMEN_CONTENEDOR] [NOMBRE_DE_LA_IMAGEN]

Para poder acceder a los resultados de forma local se debe crear un volumen, en donde estarán los archivos necesarios para que el contenedor funcione de forma correcta, y en donde se gurdará el archivo con los resultados del proceso, en este caso un archivo csv con la siguiente estructura: economista_[NOMBRE_CLUSTER]_antioquia.csv. Para monitoriar si el contenedor está corriendo y cuántos recursos está utilizando se pueden ejecutar los siguientes comandos, respectivamente:

  docker ps
  docker stats

TODO:

Se debe documentar todo el proceso
Se deben generar pruebas sobre los .py
Se deben optimizar las imagenes usando como base Linux Alpine y no Ubuntu, ya que las imagenes quedan de más de 1GB. Para esto se debe probar y documentar la forma de instalar pandas y Numpy (desde los .whl) en Linux Alpine

Versión preliminar no aprobada

Name		Name	Last commit message	Last commit date
Latest commit History 28 Commits
ElEconomista		ElEconomista
Google		Google
Twitter		Twitter
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Webscraping y Minería de Redes Sociales

Febrero de 2019

TODO:

About

Releases

Packages

Languages

JorgeQuintanaL/CCMA

Folders and files

Latest commit

History

Repository files navigation

Webscraping y Minería de Redes Sociales

Febrero de 2019

TODO:

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages