This is an excerpt from the Python Data Science Handbook by Jake VanderPlas; Jupyter notebooks are available on GitHub.

The text is released under the CC-BY-NC-ND license, and code is released under the MIT license. If you find this content useful, please consider supporting the work by buying the book!

Manipulación de datos con Pandas

En la primera parte vimos con cierto detalle el uso del objeto ndarray de la libreria NumPy, que proporciona un mecanismo eficiente para guardar y manipular arreglos de números. Sobre ese andamio, la librería Pandas, construida sobre NumPy, proporciona una implementación eficiente del objeto DataFrame, que es esencialmente una representación multidimensional de arreglos acompañado por etiquetas de renglones y columnas, permitiendo guardar y manipular de forma eficiente datos etiquetados y/o estructurados. Además, Pandas implementa operaciones sobre los datos que son familiares para usuarios de bases de datos y hojas de cálculo.

Pandas proporciona los objetos Series y DataFrame tomando como base arrays de NumPy con acceso eficiente a varias de las tareas que deben realizarse como científico de datos. En esta parte del Taller nos vamos a enfocar en la mecánica de usar estos objetos y estructuras relacionadas usando ejemplos de datos reales.

Instalando y usando Pandas

En la infraestructura que estamos usando, Colab Google, Pandas está instalado y no requieren hacer nada. En caso de quere hacerlo en su entorno local con Anaconda, también debe haberse instalado ya. Encontrarán más detalles de la instalación en la documentación de Pandas. Para importarlo y checar que versión tienen usasmo:

In [1]:
import pandas
pandas.__version__
Out[1]:
'0.18.1'

Así como generalmente se importa NumPy usando el alias np, usaremos el alias pd cuando importemos Pandas:

In [2]:
import pandas as pd

Usaremos esta convención para importar Pandas a lo largo de este Taller.

Acerca de la Documentación

IPyhton, a través de las libretas de Jupyter, proporciona un acceso rápido para explorar los contenidos de un paquete, usando la tecla tab, asi como a la documentación de las funciones, usando el caracter ? al final del nombre.

Por ejemplo, para ver los contenidos del espacio de pandas, pueden escribir lo siguiente

In [3]: pd.<TAB>

Para desplegar la documentación de Pandas pueden usar:

In [4]: pd?

Todos los detalles, tutoriales y mucho más recursos pueden consultarse en http://pandas.pydata.org/.