Skip to content

Latest commit

 

History

History
87 lines (67 loc) · 4.25 KB

web-scraping.org

File metadata and controls

87 lines (67 loc) · 4.25 KB

Web scraping, extracción de datos de páginas web

Carolina Cristanchi ha realizado un simple tutorial para realizar web scraping. Lo primero de todo, para saber qué herramienta y/o procedimiento realizar, ha diseñado un diagrama: http://carolinacristanchi.com/wp-content/uploads/2014/12/Web-Scraping.png

Primer escenario: tabla(s) HTML

Si tienes una o varias tablas HTML de las que importar los datos, lo más fácil es que utilices la función IMPORTHTML de Google Spreadsheets donde extrae los datos de la tabla de la página web que digas y los introduce en la hoja de cálculo. La fórmula es:

=IMPORTHTML ("URL", "table", N)

Donde:

  • URL es la dirección de la página web
  • table es el tipo de elemento HTML del que queremos extraer los datos.
  • N es el número de la tabla en la página web, siendo 1 la primera tabla que aparezca con el elemento table. También podemos utilizarlo con el elemento ul (lista desordenada) o ol (lista ordenada).

Table Capture (Chrome, Chromium)

Podemos utilizar Table Capture como extensión de Chrome. Cuando visitamos una página con tablas, permite seleccionarla y copiarla al portapapeles o exportarla a Google Docs. https://chrome.google.com/webstore/detail/table-capture/iebpjdmgckacbodjpijphcplhebcmeop

Table to clipboard (Firefox, Iceweasel)

Encabezamiento

Tal como señalan en el blog de Marios Braindump, se puede utilizar org-mode para gestionar la bibliografía trabajando conjuntamente con el modo RefTex. Para ello:

Configurar Emacs

Hemos de configurar nuestro Emacs para que desde orgmode invoquemos a RefTex. Añadimos a nuestro archivo de configuración, por ejemplo, a .emacs

(defun org-mode-reftex-setup ()
(load-library "reftex")
(and (buffer-file-name)
(file-exists-p (buffer-file-name))
(reftex-parse-all))
(define-key org-mode-map (kbd "C-c )") 'reftex-citation)
)
(add-hook 'org-mode-hook 'org-mode-reftex-setup)

Enlazar la bibliografía

Luego, enlazamos la bibliografía en el documento org, poniendo al final del mismo, pero antes de \end{document} las siguientes líneas:

\bibliographystyle{plain}
\bibliography{bibliografia}

Donde plain es el estilo deseado para la bibliografía (hay siete estilos estándar, multitud de estilos específicos e incluso puedes crear uno a tu medida) y bibliografia es la ruta al archivo con la bibliografía en BibTeX; en este caso, el archivo bibliografia.bib, se encuentra en el mismo directorio que el archivo org. También podemos incluir bibliografía en el propio documento org con el entorno de LaTeX \thebibliography.

Referencias bibliográficas

Para insertar las citas bibliográficas escribiremos en Emacs, tal como hemos configurado en .emacs, C c [ o bien invocando reftex-citation. RefTex nos pedirá que introduzcamos una expresión regular -el apellido del autor del libro o una palabra del título, por ejemplo… en definitiva, algo que recordemos de esa referencia- con la que buscará en nuestra bibliografía, bien en el archivo bib externo, bien en las referencias embebidas o en la bibliografía externa. Se mostrará un buffer con la lista de resultados y podremos seleccionar el que estemos buscando.

Imágenes

http://i50.tinypic.com/ibdmpf.jpg

1** Misc Howpublished

En esta página se propone también la función @misc aunque con el atributo howpublished, donde quedaría así: