Introducción a la Librería Pandas de Python – Parte 1

Pandas teoría 1

Pandas es un popular paquete de Python para la ciencia de datos y Machine Learning, las razones son muchas y es que ofrece estructuras de datos poderosas, expresivas y flexibles que facilitan la manipulación y análisis de datos. Entre las estructuras más utilizadas se encuentra el DataFrame.

Pandas es una librería de código abierto de Python que proporciona herramientas de análisis y manipulación de datos de alto rendimiento utilizando sus potentes estructuras de datos. El nombre de Pandas se deriva del término “Panel Data” y es la librería de análisis de datos de Python.

Pandas teoría 2

Esta librería se desarrollo debido a la necesidad de tener una herramienta flexible de alto rendimiento para el análisis de datos. Anteriormente Python se utilizaba para la manipulación y preparación de datos por lo que no era utilizado para Machine Learning, Pandas resolvió este problema. Usando esta librería podemos lograr cinco pasos típicos en el procesamiento y análisis de datos, independientemente del origen de los datos: cargar, preparar, manipular, modelar y analizar.

Pero hablemos de que se trata un DataFrame que es la estructura fundamental de Pandas, estos son estructuras de datos etiquetados bidimensionales con columnas de tipos potencialmente diferentes. Los Pandas DataFrame consta de tres componentes principales: los datos, el índice y las columnas.

Adicionalmente con la estructura Pandas DataFrame puedes especificar los nombres de índice y columna. El índice indica la diferencia en las filas, mientras que los nombres de las columnas indican la diferencia en las columnas. Estos componentes son muy útiles cuando se requiera manipular los datos.

Pero veamos la diferencia fundamental entre

NumPy y Pandas. Los datos en NumPy se almacenan de la siguiente forma:

Pandas teoría 3

Como se puede observar son arreglos muy parecidos a las matrices en donde no se tiene las etiquetas de las columnas ni filas, por lo que utilizar en la ciencia de datos o Machine Learning hace que se muy difícil.

Por su parte, Pandas estructura los datos de la siguiente forma:

Pandas teoría 4

Primeramente, tenemos las series, que serían matrices de una sola dimensión que son capaces de almacenar datos de cualquier tipo, pero acá lo importante y diferente con NumPy es que tiene un índice para las columnas, las cuales es asignada directamente por Pandas y que puede ser manipulada por el programador. Adicional a esto, la serie puede contener datos homogéneos, de tamaño inmutable y valores de datos mutables.

Pandas teoría 5

Por su parte los DataFrame son estructuras de dos dimensiones con columnas potencialmente diferentes que cuentan con índices tanto en las columnas como en las filas y que, por supuesto, pueden ser manipuladas por el programador. Otras características importantes de los DataFrame es que tiene datos heterogéneos y el tamaño y los datos pueden ser mutables.

Entendiendo estas diferencias ahora podemos hablar sobre las características principales de la librería Pandas:

  • Objeto DataFrame rápido y eficiente con indexación predeterminada y personalizada.
  • Herramientas para cargar datos en objetos de datos en memoria desde diferentes formatos de archivo.
  • Alineación de datos y manejo integrado de datos faltantes.
  • Remodelación y giro de conjuntos de fechas.
  • Etiquetado, corte, indexación y subconjunto de grandes conjuntos de datos.
  • Las columnas de una estructura de datos se pueden eliminar o insertar.
  • Agrupa por datos para agregación y transformaciones.
  • Alto rendimiento de fusión y unión de datos.
  • Funcionalidad de la serie de tiempo.

La instalación estándar de Python no viene con la librería Pandas instalada por lo que se utilizar el paquete de instalación, pip. En caso de que estes utilizando el paquete de Python Anaconda, no te tienes que preocupar, esta viene instalada por defecto.

Introducción-a-pandas-parte-1-6

Para utilizarla en tus programas de Machine Learning solamente debes importarla utilizando el alias pd, esta es el estándar que se utiliza para esta librería, como lo es np, para la librería NumPy. Recuerda que cuando codificas en tu propio entorno de Machine Learning no debes olvidar este paso tan importante.

importar pandas como pd

Ahora que no tienes dudas de qué se trata Pandas y sus DataFrame, qué pueden hacer y cómo se diferencia de otras estructuras, es hora de empezar a utilizarlos, en una próxima entrada veremos esta librería de manera práctica.

2 thoughts on “Introducción a la Librería Pandas de Python – Parte 1”

  1. Hola ligdi he visto tus cursos y me parece genial que nos brindes esta informacion tan bien explicada y en español, realmente una gran ayuda para los que estudiamos lo relacionado a
    machine learning y data science

    me gustaria que nos enseñaras algo sobre redes neuronales, especificamente las redes recurrentes, pues he visto que no hay mucha informacion al respecto en internet… al menos en español seria de gran ayuda pues tras ver el tema a profundidad nos encontramos con este pequeño freno (NO HAY CASI INFORMACION CLARA SOBRE REDES RECURRENTES) realmente me gustaria que nos ayudaras en ese tema, gracias

  2. Hola Abraham, si tengo pensado tocar las redes neuronales y obviamente las redes recurrentes, no te preocupes. Saludos.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *