Almacenar el contenido de una pagina html en una variable en Python

wpid-python-thread-exitEn alguna ocasión no interesa guardar el contenido de una pagina en una variable para luego poder procesarla, ya sea para obtener datos relevantes de ella, para indexar su contenido, etc.

Para hacer esto en python solo tenemos que importar la librería “urllib”

Dentro de esta librería podemos encontrar el comando “urlopen”, al que tenemos que pasar como parámetro la url de la pagina que queremos abrir, el comando nos devolverá  una cadena con el contenido de la pagina.

Una vez almacenada la pagina en la variable, ya podemos procesarla como deseemos, utilizando alguna tecnica de “parse” para localizar las etiquetas, buscar la información deseada, etc.

Código completo, y muestra del código fuente de la pagina leída.

Fácil y sencillo como siempre con Python

 

 

2 thoughts on “Almacenar el contenido de una pagina html en una variable en Python”

    1. Eso es debido a problema con la librería, puede ser que en las nuevas versiones de esa librería, el comando urlopen tenga más parámetros o los parámetros sean distintos. Este proyecto lo hice con python 2 si estas usando el 3, que seria lo más lógico a estas alturas, puede que urlopen se maneje de otra forma comprueba la versión, y los parámetros que utiliza.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *