Hace un tiempo quería hacer pruebas de extracción de datos de PDF que publica la Administración Pública en Venezuela, ya que el concepto de Datos Abiertos no está muy claro por acá, lo más que se logra son documentos en PDF donde pegan gráficas y tablas como capturas de pantalla.
Artículos sobre webscraping.
Por cierto, existe un evento del día de los datos abiertos. Ese día fue el 3 de Marzo en este año. si le dan clic al mapa, aparece la lista de eventos de ese día por países.
Este artículo se basa en un artículo en inglés publicado en Medium sobre tabula-py.
Para el caso de Venezuela, no aparece en la lista de eventos de la fecha del 3 de Marzo.
Alianza para el gobierno Abierto.
Iniciativas de sitios de Datos Abiertos.
Que tal que pueda hacer un scraping y de una usar Pandas (Introducción a pandas) para Ciencia de Datos.
Existe una librería para Python llamada tabula-py, en el github de tabula-py se encuentra un archivo llamado data.pdf, ese será el archivo pdf que se va a extraer la información.
Para usar tabula-py se puede instalar vía pip:
pip install tabula-py
A continuación se muestra en jupyter como usar tabula-py:
A continuación se muestra la figura del editor que muestra data.csv:
Ahora se muestra el contenido del archivo data.tsv:
Al tener los datos en un dataframe se puede realizar toda la analítica de datos que se puede hacer con Pandas.
Artículos sobre webscraping.
Por cierto, existe un evento del día de los datos abiertos. Ese día fue el 3 de Marzo en este año. si le dan clic al mapa, aparece la lista de eventos de ese día por países.
Este artículo se basa en un artículo en inglés publicado en Medium sobre tabula-py.
Para el caso de Venezuela, no aparece en la lista de eventos de la fecha del 3 de Marzo.
Alianza para el gobierno Abierto.
Iniciativas de sitios de Datos Abiertos.
Que tal que pueda hacer un scraping y de una usar Pandas (Introducción a pandas) para Ciencia de Datos.
Existe una librería para Python llamada tabula-py, en el github de tabula-py se encuentra un archivo llamado data.pdf, ese será el archivo pdf que se va a extraer la información.
Para usar tabula-py se puede instalar vía pip:
pip install tabula-py
A continuación se muestra en jupyter como usar tabula-py:
In [1]:
#Se importa read_pdf de tabula
fromtabulaimportread_pdf
In [2]:
#Se lee el archivo data.pdf y se muestra el encabezado del dataframe
df=read_pdf('./Data/data.pdf')
df.head()
Out[2]:
In [3]:
#También se puede mostrar los datos en formato json
js=read_pdf('./Data/data.pdf',output_format='json')
In [4]:
#También se puede guardar un archivo en JSON, CSV,TSV
fromtabulaimportconvert_into
convert_into('./Data/data.pdf',"./Data/data.json",output_format='json')
#!cat ./Data/data.json
In [5]:
convert_into('./Data/data.pdf',"./Data/data.tsv",output_format='tsv')
#!cat ./Data/data.tsv
In [6]:
convert_into('./Data/data.pdf',"./Data/data.csv",output_format='csv')
#!cat ./Data/data.csv
A continuación se muestra la figura del editor que muestra data.csv:
Ahora se muestra el contenido del archivo data.tsv:
Al tener los datos en un dataframe se puede realizar toda la analítica de datos que se puede hacer con Pandas.