En alguna ocasión no interesa guardar el contenido de una pagina en una variable para luego poder procesarla, ya sea para obtener datos relevantes de ella, para indexar su contenido, etc.
Para hacer esto en python solo tenemos que importar la librería «urllib»
import urllib
Dentro de esta librería podemos encontrar el comando «urlopen», al que tenemos que pasar como parámetro la url de la pagina que queremos abrir, el comando nos devolverá una cadena con el contenido de la pagina.
sContenidoPagina = urllib.urlopen("http://www.todavinose.com")
Una vez almacenada la pagina en la variable, ya podemos procesarla como deseemos, utilizando alguna tecnica de «parse» para localizar las etiquetas, buscar la información deseada, etc.
Código completo, y muestra del código fuente de la pagina leída.
import urllib sContenidoPagina = urllib.urlopen("http://www.todavianose.com") print sContenidoPagina.read()
Fácil y sencillo como siempre con Python
hola buenas, he introducido el codigo y me da error
‘module’ object has no attribute ‘urlopen’
Eso es debido a problema con la librería, puede ser que en las nuevas versiones de esa librería, el comando urlopen tenga más parámetros o los parámetros sean distintos. Este proyecto lo hice con python 2 si estas usando el 3, que seria lo más lógico a estas alturas, puede que urlopen se maneje de otra forma comprueba la versión, y los parámetros que utiliza.