Introducción al Preprocesamiento de Datos con Python

Encontramos datos en todas partes, estos pueden ser recolectados de manera manual por científicos, pero ahora es cada vez más común que sean recolectados de manera digital utilizando aplicaciones especificas configuradas para este propósito.

Pero tenemos que tener claro que los datos no necesariamente signifiquen información, por lo que es necesario aplicar un análisis a los mismos para que nos ayude a responder preguntas, descubrir información útil a través de ellos e inclusive para predecir el futuro utilizando Machine Learning.

1 Introducción

Por todo esto y mucho más es importante aplicar el análisis de datos a los conjuntos de datos con lo que trabajamos.

Para hacer el análisis de datos en Python, primero debemos hablar sobre los principales paquetes o librerías que se utilizan para el análisis. Para que tengan claro una librería de Python es una colección de funciones y métodos que permiten realizar muchas acciones sin necesidad de escribir ningún código, generalmente contienen módulos integrados que proporcionan diferentes funcionalidades que puedes usarlo directamente.

Lo dividimos en tres grupos, comencemos con el primer grupo, la librería de datos, en donde encontramos a:

Pandas: ofrece estructura de datos y herramientas para manipulación y análisis de datos de manera efectiva. El instrumento principal de Pandas es una tabla bidimensional que consiste en etiquetas de columna y fila llama DataFrame.

Numpy: utiliza matrices para sus entradas y salidas, por lo que se puede realizar un procesamiento rápido de matrices.

SciPy: incluye funciones para algunos problemas matemáticos avanzados, como integrales, ecuaciones diferenciales, entre otros.

Preprocesamiento de Datos con Python

Continuemos con las librerías de visualización, que se las utilizadas para comunicar de la mejor manera los resultados significativos del análisis.

Matplotlib: es la librería más conocida para la visualización de datos, es ideal para hacer gráficos y tramas.

Seaborn: está basado en Matplotlib, con esta librería es muy fácil generar varios diagramas como heat maps, series de tiempo, entre otros.

 

Preprocesamiento de Datos con PythonFinalizamos con las librerías de algoritmos, que son las utilizadas para Machine Learning, con estas podemos desarrollar un modelo utilizando nuestro conjunto de datos y obtener predicciones.

Scikit-learn: contiene herramientas para modelado estadístico, incluida regresión, la clasificación, la agrupación, entre otros. Está construida en NumPy, SciPy y Matplotlib.

StatsModels: es también un módulo de Python que permite a los usuarios explorar datos, estimar estadísticas y modelos y realizar pruebas estadísticas.

Para este curso vamos a trabajar con un ejemplo para que sea más fácil entender cada una de las instrucciones acá explicada.

Los datos que vamos a utilizar es el del famoso ejercicio del Titanic. Por lo general este ejercicio es uno de los primeros problemas que nos sugieren desarrollar al momento que estamos aprendiendo Machine Learning, ya que conjuga varios elementos que son ideales para poner en practica en nuestro aprendizaje y, precisamente por esa razón, es que lo vamos a utilizar acá.

En este curso no vamos a realizar la predicción de quien muere o sobrevive, que es el objetivo principal de este ejercicio, acá lo que vamos a hacer es tomar los datos y procesarlos para dejarlos listo para poderlos utilizar en cualquier algoritmo de Machine Learning.

Para obtener los datos solamente tienes que buscar en Google, Kaggle Titanic dataset. Justamente acá es donde vamos a tomar los datos que utilizaremos en nuestro curso, toma en cuenta que te debes suscribir en la página, pero tenlo por seguro que esta página la vas a usar bastante porque dispone de varios ejercicios y dataset que puedes utilizar para practicar Machine Learning y todo lo relacionado a esto.

Preprocesamiento de Datos con Python

Una vez que estés en la página del ejercicio, te recomiendo que leas la información que acá se presenta, sobretodo la que se encuentra en la pestaña de Data ya que es justamente acá donde se describe los datos que están en el dataset.

Nosotros vamos a trabajar con los datos de train.csv, por lo que será esta opción la que deberás descargar, de todas formas, el procedimiento de cómo hacer esto te lo explicaré en otra entrada.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *