Explorando los datos con Python

Ya hemos importado los datos para el análisis, ahora lo que debemos hacer es entender esa data para planear cómo debemos continuar, para ello Python y más específicamente Pandas cuenta con varios métodos integrados que pueden usarse para comprender el tipo de datos o para ver la distribución de datos dentro del conjunto de dados.

El uso de estos métodos proporciona una visión general del conjunto de datos y también señala posibles problemas, como el tipo de datos incorrecto que deben ser solucionado más adelante.

Antes de adentrarnos con los métodos debemos tener claro sobre la variedad de tipos de datos que podemos encontrar. Los que comúnmente se manejan con Pandas son:

1-2

int y float, estos datos serían numéricos, los primeros, como su nombre lo indican serían números enteros mientras que los float o flotantes, serían datos con decimales.

object, funciona de forma similar a la cadena de datos en Python.

datetime, que vendría siendo algo así como día y hora, es un tipo de datos muy útil para manejar series temporales de datos.

Las razones para verificar los tipos de datos en los dataframe es que Panda puede asignar automáticamente tipos de datos basados en la codificación que detecta de la tabla de datos original.

Esto se refiere, por ejemplo, si tomamos nuestro ejemplo con la base de datos del Titanic y en la columna de edad el tipo de datos sea, por ejemplo, objeto en vez de numérica como esperamos. En este caso el formato de los datos está incorrecto y se debe realizar un cambio al mismo para que sea más fácil su manipulación.

Pero precisamente por eso es que se debe verificar los tipos de datos de los dataframe al inicio del análisis para evitar complicaciones posteriormente.

Explorando los datos con Python

Otra de las razones de por qué es importante verificar los tipos de datos es que en ocasiones las funciones matemáticas para Machine Learning solamente aceptan datos numéricos, si estás funciones se aplican a datos no numéricos, puede producirse un error.

Esto se puede ver claramente en la columna de sexo en el dataframe de estamos utilizando del Titanic, en este caso la columna tiene male para hombres y female para mujeres, siendo el tipo de datos “objetos”, por lo que esta columna no se puede utilizar en ninguna función matemática ya que no es numérica. Obviamente con un poco de procesamiento de los datos podemos realizar el cambio respectivo, pero precisamente es por esta razón que es importante ver los tipos de datos de los dataframe que vamos a trabajar justamente al principio del análisis.

Entonces ya sabiendo la importancia de conocer los tipos de datos que hay en nuestro dataframe, vamos a implementarlo en el programa que estamos construyendo.

El método a utilizar es “dtype”, que nos devuelve el tipo de datos de cada columna.

df.dtypes

Explorando los datos con Python

Si ya tenemos la información de los tipos de datos ahora podemos verificar los análisis estadísticos del dataframe. Esta información nos puede decir si hay problemas matemáticos, como extremos atípicos y grandes desviaciones. Para conocer esto solamente utilizamos el método “describe()”.

df.describe()

Explorando los datos con Python

La información que nos arroja es la siguiente:

“count”: se refiere al número de términos en la columna,

“mean”: se refiere al valor promedio de la columna,

“std”: es la desviación estándar de la columna.

También se muestra los valores máximo y mínimo, así como el límite de cada uno de los cuartiles.

Si vemos con detalles la información acá mostrada podemos observar que no se encuentran todas las columnas de nuestro dataframe, esto se debe a que la función describe() omite filas y columnas que no contienen números, pero esta función también puede analizar datos tipo objetos, para ellos solamente se debe incluir “include = “all” a la función, dentro del paréntesis, para que muestra el análisis de todas las columnas y filas del dataframe.

df.describe(include = "all")

Explorando los datos con Python

Observemos que para las columnas de tipo objeto, se evalúa un conjunto diferente de estadísticas, veamos de que se trata cada uno de ellos:

“unique”: esto se refiere al número de objetos distintos en la columna,

“top”: es el dato más frecuente que se produce,

“freq”: es la cantidad de veces que aparece el objeto “top” en la columna.

Algunos valores en la tabla se muestran como “NaN”, que significa “no es un número”, esto se debe a que esta métrica estadística particular no se puede calcular para ese específico tipo de datos de columna.

El último método que vamos a ver en esta entrada es “info”, esta función muestra las 30 filas superiores y las 30 filas inferiores del dataframe, sería algo parecido a los comandos head y tail con la diferencia que acá se muestran un mayor número de filas.

df.info

Explorando los datos con Python

Al final de la información nos muestra la cantidad de filas y columnas que cuenta nuestro dataframe en nuestro caso serían 891 filas y 12 columnas.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *