Almacenar el contenido de una pagina html en una variable en Python

4 septiembre, 2014

pruebas Python html, parse, Python, urllib

Almacenar el contenido de una pagina html en una variable en Python

En alguna ocasión no interesa guardar el contenido de una pagina en una variable para luego poder procesarla, ya sea para obtener datos relevantes de ella, para indexar su contenido, etc.

Para hacer esto en python solo tenemos que importar la librería «urllib»

import urllib

Dentro de esta librería podemos encontrar el comando «urlopen», al que tenemos que pasar como parámetro la url de la pagina que queremos abrir, el comando nos devolverá una cadena con el contenido de la pagina.

sContenidoPagina = urllib.urlopen("http://www.todavinose.com")

Una vez almacenada la pagina en la variable, ya podemos procesarla como deseemos, utilizando alguna tecnica de «parse» para localizar las etiquetas, buscar la información deseada, etc.

Código completo, y muestra del código fuente de la pagina leída.

import urllib

sContenidoPagina = urllib.urlopen("http://www.todavianose.com")

print sContenidoPagina.read()

Fácil y sencillo como siempre con Python

Almacenar el contenido de una pagina html en una variable en Python

Escrito por:

pruebas

2 comentarios

vperis7 junio, 2016 15:42

pruebas7 junio, 2016 21:09

Deja un comentario
Cancelar la respuesta

Almacenar el contenido de una pagina html en una variable en Python

Escrito por:

pruebas

2 comentarios

vperis7 junio, 2016 15:42

pruebas7 junio, 2016 21:09

Deja un comentario Cancelar la respuesta

Deja un comentario
Cancelar la respuesta