Prefacio
¿Porque un Taller de Python en el DCI?¶
Bienvenidos al Taller de Python del Data Challenge Industrial. Este esfuerzo surgio como una propuesta de valor adicional a la experiencia que tendrán en el DCI. Hace un par de ediciones el Comité Organizador consideró que los participantes deberían llevarase una experiencia del evento que fuera más allá de la oportunidad de proponer soluciones al reto planteado con sus experiencias y surgió el Taller de Python.
Elegimos el lenguaje de programación Python por su flexibilidad, sencillez y por su amplio soporte sostenido por una comunidad especializada que ha desarrollado un ecosistema efectivo para el análisis de datos.
De este modo, desde la edición DCI 3.0 hemos incorporado un Taller de Python con el objetivo de presentar un contexto introductorio de las herramientas disponibles para el análisis de datos enfocado a datos asociados a problemas que provienen de la Industria Mexicana.
Estas libretas son una adaptación del texto
The Python Data Science Handbook by Jake VanderPlas (O’Reilly). Copyright 2016 Jake VanderPlas, 978-1-491-91205-8.
Descripcion del Taller¶
El Taller se divide en tres secciones y cubren una introduccion a las herramientas fundamentales de Python para la Ciencia de Datos:
- NumPy: la libreria numérica de Python que permite crear, guardar y operar arreglos de datos de forma efectiva.
- Pandas: librearia que ofrece el
DataFrame
para la manipulacion eficiente de datos etiquetados y en formato de columna. - Scikit-Learn: algoritmos de aprendizaje de maquina eficientes.
Consideraciones de software¶
Instalar Python y las librerias necesarias para este Taller es sencillo y la recomendación es usar la distribución de Anaconda si quieren tener acceso al ecosistema en sus máquinas locales. Sin embargo nosotros estaremos usando la infraestructura ofrecida por Colab Google en la nube, lo cual nos ahorrara tiempo en la instalacion y configuracion, permitiendonos inmediatamente comenzar a trabajar hacia los objetivos que queremos alcanzar.