Manipulación de datos con Pandas
En la primera parte vimos con cierto detalle el uso del objeto ndarray
de la libreria NumPy, que proporciona un mecanismo eficiente para guardar y manipular arreglos de números. Sobre ese andamio, la librería Pandas, construida sobre NumPy, proporciona una implementación eficiente del objeto DataFrame
, que es esencialmente una representación multidimensional de arreglos acompañado por etiquetas de renglones y columnas, permitiendo guardar y manipular de forma eficiente datos etiquetados y/o estructurados. Además, Pandas implementa operaciones sobre los datos que son familiares para usuarios de bases de datos y hojas de cálculo.
Pandas proporciona los objetos Series
y DataFrame
tomando como base arrays de NumPy con acceso eficiente a varias de las tareas que deben realizarse como científico de datos. En esta parte del Taller nos vamos a enfocar en la mecánica de usar estos objetos y estructuras relacionadas usando ejemplos de datos reales.
Instalando y usando Pandas¶
En la infraestructura que estamos usando, Colab Google, Pandas está instalado y no requieren hacer nada. En caso de quere hacerlo en su entorno local con Anaconda, también debe haberse instalado ya. Encontrarán más detalles de la instalación en la documentación de Pandas. Para importarlo y checar que versión tienen usasmo:
import pandas
pandas.__version__
Así como generalmente se importa NumPy usando el alias np
, usaremos el alias pd
cuando importemos Pandas:
import pandas as pd
Usaremos esta convención para importar Pandas a lo largo de este Taller.
Acerca de la Documentación¶
IPyhton, a través de las libretas de Jupyter, proporciona un acceso rápido para explorar los contenidos de un paquete, usando la tecla tab
, asi como a la documentación de las funciones, usando el caracter ?
al final del nombre.
Por ejemplo, para ver los contenidos del espacio de pandas, pueden escribir lo siguiente
In [3]: pd.<TAB>
Para desplegar la documentación de Pandas pueden usar:
In [4]: pd?
Todos los detalles, tutoriales y mucho más recursos pueden consultarse en http://pandas.pydata.org/.