Almacenar el contenido de una pagina html en una variable en Python

wpid-python-thread-exitEn alguna ocasión no interesa guardar el contenido de una pagina en una variable para luego poder procesarla, ya sea para obtener datos relevantes de ella, para indexar su contenido, etc.

Para hacer esto en python solo tenemos que importar la librería «urllib»

import urllib

Dentro de esta librería podemos encontrar el comando «urlopen», al que tenemos que pasar como parámetro la url de la pagina que queremos abrir, el comando nos devolverá  una cadena con el contenido de la pagina.

sContenidoPagina = urllib.urlopen("http://www.todavinose.com")

Una vez almacenada la pagina en la variable, ya podemos procesarla como deseemos, utilizando alguna tecnica de «parse» para localizar las etiquetas, buscar la información deseada, etc.

Código completo, y muestra del código fuente de la pagina leída.

import urllib

sContenidoPagina = urllib.urlopen("http://www.todavianose.com")

print sContenidoPagina.read()

Fácil y sencillo como siempre con Python