This is an excerpt from the Python Data Science Handbook by Jake VanderPlas; Jupyter notebooks are available on GitHub.

The text is released under the CC-BY-NC-ND license, and code is released under the MIT license. If you find this content useful, please consider supporting the work by buying the book!

Introducción a NumPy

En estas primeras dos partes del taller vamos a presentar tecnicas para cargar, guardar y manipular de forma efectiva datos en memoria con Python. El tipo de datos con los que van a encontrarse es muy amplio: la información puede provenir de múltiples fuentes y tener una variedad de formatos, incluyendo documentos, imagenes, sonidos, videos, mediciones numéricas, o cualquier cosa. Sin embargo es útil pensar en cualquier forma de datos como arreglos de números.

Por ejemplo, las imágenes digitales (sin color) pueden considerarse como arreglos bidimensionales de números que representan el brillo de cada pixel sobre el área. El sonido puede verse como un arreglo unidimensional de la variación de la intensidad en el tiempo. El texto puede convertirse a representaciones numéricas de distintas formas, por ejemplo la frecuencia de ciertas palabras. No importa el tipo de datos, el primer paso para analizarlos es transformarlos y/o expresarls como arreglos de números.

(Algunas formas de realizar esta transformación serán mostradas más adelante We will discuss some specific examples of this process later in Ingeniería de Atributos)

En esta sección vamos a ver la librería NumPy (Numerical Python) que proporciona una interfaz para guardar y operar sobre arreglos de datos. Los arreglos en NumPy son como el tipo de datos list disponible en Python, pero proporcionan mucho más operaciones y eficiencia en la manipulación y el manejo de los arreglos conforme estos incrementan de tamaño.

En la infraestructura que estamos usando, NumPy ya está disponible (así como la mayoría del ecosistema para ciencia de datos en Python). Pueden checar la versión disponible de la siguiente forma:

In [1]:
import numpy
numpy.__version__
Out[1]:
'1.11.1'

Encontrarán que la mayoría de los usuarios importan NumPy usando np como alias:

In [2]:
import numpy as np

Usaremos esta convención para importar NumPy a lo largo de este Taller.

Acerca de la Documentación

IPyhton, a través de las libretas de Jupyter, proporciona un acceso rápido para explorar los contenidos de un paquete, usando la tecla tab, asi como a la documentación de las funciones, usando el caracter ? al final del nombre.

Por ejemplo, para ver los contenidos del espacio de numpy, pueden escribir lo siguiente

In [3]: np.<TAB>

Para desplegar la documentación de NumPy pueden usar:

In [4]: np?

Todos los detalles, tutoriales y mucho más recursos pueden consultarse en http://www.numpy.org.