Carolina Cristanchi ha realizado un simple tutorial para realizar web scraping. Lo primero de todo, para saber qué herramienta y/o procedimiento realizar, ha diseñado un diagrama: http://carolinacristanchi.com/wp-content/uploads/2014/12/Web-Scraping.png
Si tienes una o varias tablas HTML de las que importar los datos, lo más fácil es que utilices la función IMPORTHTML
de Google Spreadsheets donde extrae los datos de la tabla de la página web que digas y los introduce en la hoja de cálculo.
La fórmula es:
=IMPORTHTML ("URL", "table", N)
Donde:
URL
es la dirección de la página webtable
es el tipo de elemento HTML del que queremos extraer los datos.N
es el número de la tabla en la página web, siendo 1 la primera tabla que aparezca con el elementotable
. También podemos utilizarlo con el elementoul
(lista desordenada) ool
(lista ordenada).
Podemos utilizar Table Capture como extensión de Chrome. Cuando visitamos una página con tablas, permite seleccionarla y copiarla al portapapeles o exportarla a Google Docs. https://chrome.google.com/webstore/detail/table-capture/iebpjdmgckacbodjpijphcplhebcmeop
Tal como señalan en el blog de Marios Braindump, se puede utilizar org-mode para gestionar la bibliografía trabajando conjuntamente con el modo RefTex. Para ello:
Hemos de configurar nuestro Emacs para que desde orgmode invoquemos a RefTex. Añadimos a nuestro archivo de configuración, por ejemplo, a .emacs
(defun org-mode-reftex-setup () (load-library "reftex") (and (buffer-file-name) (file-exists-p (buffer-file-name)) (reftex-parse-all)) (define-key org-mode-map (kbd "C-c )") 'reftex-citation) ) (add-hook 'org-mode-hook 'org-mode-reftex-setup)
Luego, enlazamos la bibliografía en el documento org, poniendo al final del mismo, pero antes de \end{document}
las siguientes líneas:
\bibliographystyle{plain} \bibliography{bibliografia}
Donde plain
es el estilo deseado para la bibliografía (hay siete estilos estándar, multitud de estilos específicos e incluso puedes crear uno a tu medida) y bibliografia
es la ruta al archivo con la bibliografía en BibTeX; en este caso, el archivo bibliografia.bib
, se encuentra en el mismo directorio que el archivo org
.
También podemos incluir bibliografía en el propio documento org
con el entorno de LaTeX \thebibliography
.
Para insertar las citas bibliográficas escribiremos en Emacs, tal como hemos configurado en .emacs
, C c [
o bien invocando reftex-citation
. RefTex nos pedirá que introduzcamos una expresión regular -el apellido del autor del libro o una palabra del título, por ejemplo… en definitiva, algo que recordemos de esa referencia- con la que buscará en nuestra bibliografía, bien en el archivo bib
externo, bien en las referencias embebidas o en la bibliografía externa.
Se mostrará un buffer con la lista de resultados y podremos seleccionar el que estemos buscando.
http://i50.tinypic.com/ibdmpf.jpg
1** Misc Howpublished
En esta página se propone también la función @misc
aunque con el atributo howpublished
, donde quedaría así: