Importando y Exportando datos en Python

El primer paso que debemos realizar al momento de cualquier análisis que hagamos es, obviamente, tener los datos con los que vamos a trabajar, por lo que necesitamos importarlos, para ello vamos a utilizar la librería de Pandas de Python.

importar y exportar datos en pythonPara realizar este proceso debemos tomar en cuenta el formato y la ubicación del archivo.

El formato se refiere a la forma en que codifican los datos. Por lo general, podemos distinguir diferentes esquemas de codificación mirando el final del nombre del archivo. Algunas codificaciones comunes son csv, json, xlsx, entre otros.

Por su parte la ubicación del archivo o ruta nos dice dónde están almacenados los datos. Por lo general, se almacenan en la computadora que estamos usando o en internet.

 

Para nuestro ejemplo los datos se encuentran internet por lo que está será la ubicación. Si abrimos el link de descarga vemos que cada fila es un punto de datos y como observamos una gran cantidad de propiedades están asociados con cada punto de datos.

importar y exportar datos en python

Cada elemento se encuentra separado entre sí por comas, por lo que podemos determinar que el tipo de formato es csv, que significa valores separados por comas.

Esta información no significa mucho si lo vemos de esta manera, pero una vez que lo leamos, podemos intentar realizar un análisis más detallado.

Comencemos entonces a aprender cómo podemos importar estos datos para luego manipularlos. Como dijimos anteriormente vamos a utilizar la librería de Pandas, por lo que primero que debemos hacer es importarla.

import pandas as pd

Realizado esto podemos utilizar todos los métodos dentro de esta librería.

Seguidamente definimos una variable en donde colocamos la ruta en donde se encuentran los datos, para nuestro ejemplo utilizamos “url” como variable y colocamos entre comillas la dirección web en donde se entra el archivo con los datos.

url = 'https://storage.googleapis.com/kaggle-competitions-data/kaggle/3136/test.csv?GoogleAccessId=web'

Seguidamente podemos utilizar el método read_csv para importar los datos. Este es un método de Pandas que se utiliza para leer archivos en formato csv. Para ello utilizamos la variable df refiriéndose a dataframe que es la forma en que se guardan los datos, que sería una especie de matriz.

df = pd.read_csv(url)

Con esta ya todos nuestros datos se encuentran almacenados dentro de la variable df. Inclusive podemos visualizarlos, pero la impresión de todo el conjunto de datos puede tomar demasiado tiempo y recursos, por esa razón para ahorrar tiempo utilizamos los métodos head, que sería cabeza, para mostrar las primeras filas del marco de datos.

df.head()

importar y exportar datos en python

De manera similar, utilizamos tail o cola, que muestra las filas inferiores de los datos.

Como podemos observar solamente se imprime una parte de los datos, de esta forma podemos ver de manera rápida que datos contiene nuestra base de datos.

df.tail()

importar y exportar datos en python

Veamos con más detalle los datos, como podemos ver tiene una cabecera, la cual identifica cada una de las columnas, en ocasiones los datos son entregados sin esta, y en un documento a parte se explica el contenido de cada una de las columnas, por esa razón es oportuno conocer sobre el comando columns o columnas, con este podemos agregar y cambiar los nombres de la cabecera, para ello solamente creamos una variable, para nuestro caso llamado “cabecera”, y le colocamos la información de cómo queremos que se llamen las columnas.

Para que vean cómo funciona este comando voy a cambiar la cabecera que tiene actualmente los datos por sus respectivas palabras en español. Entonces creo la variable cabecera y escribo los nombres que quiero cambiar, como ven toda esta información la encierro en corchetes y cada palabra la coloco entre comillas.

Definido los nombres, simplemente coloco df.columns  = cabecera y con esto cambio los nombres de la cabecera.

Ahora nuestros datos tienen en la cabecera los nombres en español.

cabecera = ["ID", "Clase", "Nombre", "Sexo", "edad", "Hermanos", "Hijos, "Ticket", "Cabina", "Embarque"]
df.columns = cabezera
df.head()

importar y exportar datos en python

Hasta el momento tenemos los datos en una variable pero no los hemos guardado dentro de un archivo en nuestro computador, para ello simplemente usamos el método “to_csv()”.

Para hacer esto, especificamos la ruta del archivo en la que se desee guardar, acá debemos incluir el nombre del archivo y el formato, para nuestro caso le colocaremos titanic.csv.

Seguidamente utilizamos el comando para crear el archivo y a su vez guardar los datos.

ruta = "/Users/ligdigonzalez/titanic.csv"
df.to_csv(ruta)

Finalizado esto podemos ir a la ruta donde indicamos que íbamos a guardar el archivo y allí estará, si lo abrimos tendremos algo como esto, datos separados con coma.

importar y exportar datos en python

Algo que quiero aclarar de una vez es que como lo que indique anteriormente no solamente se puede leer y guardar archivos csv, Pandas también admite la importación y exportación de la mayoría de tipos de archivos de datos con diferentes formatos.

La sintaxis del código para leer y guardar otros formatos de datos es muy similar a leer o guardar archivos csv. Acá pueden ver algunos de los comandos con los formatos de archivos más usados, como pueden ver todos son muy parecidos lo que cambia es el nombre del archivo.

importar y exportar datos en python

En resumen, estos son todos los comandos que utilizamos en este video, tenemos los métodos para importar y exportar distintos formatos de archivos, también tenemos para poder imprimir y visualizar los primeras y ultimas filas de la base de datos y por último tenemos el comando para poder cambiar la cabecera de los datos.

importar y exportar datos en python

Si es la primera vez que vez estos comandos de repente te cueste un poco recordarlos, pero a medida que lo vayas utilizando no se te van a olvidar, sobretodo que estas instrucciones siempre las utilizaras, no importa en que proyectos estés trabajando, siempre deberás importar y exportar los datos, así como imprimirlos para ver en detalle la información con la que estás trabajando.

2 thoughts on “Importando y Exportando datos en Python”

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *