Introducción a NumPy

Introducción a NumPy



Este capítulo, junto con el capítulo 3, describe técnicas para cargar, almacenar y manipular datos en memoria en Python de manera efectiva. El tema es muy amplio: los conjuntos de datos pueden provenir de una amplia gama de fuentes y una amplia gama de formatos, que incluyen colecciones de documentos, colecciones de imágenes, colecciones de clips de sonido, colecciones de medidas numéricas o casi cualquier otra cosa. A pesar de esta aparente heterogeneidad, nos ayudará a pensar en todos los datos fundamentalmente como matrices de números.


Por ejemplo, las imágenes, en particular las imágenes digitales, se pueden considerar simplemente conjuntos bidimensionales de números que representan el brillo de los píxeles en toda el área. Los clips de sonido se pueden considerar como arreglos unidimensionales de intensidad en función del tiempo. El texto se puede convertir de varias formas en representaciones numéricas, quizás dígitos binarios que representan la frecuencia de ciertas palabras o pares de palabras. No importa cuáles sean los datos, el primer paso para hacerlos analizables será transformarlos en matrices de números. (Discutiremos algunos ejemplos específicos de este proceso más adelante en Ingeniería de funciones).


Por esta razón, el almacenamiento y la manipulación eficientes de matrices numéricas es absolutamente fundamental para el proceso de hacer ciencia de datos. Ahora veremos las herramientas especializadas que Python tiene para manejar tales matrices numéricas: el paquete NumPy y el paquete Pandas (discutido en el Capítulo 3).


Este capítulo cubrirá NumPy en detalle. NumPy (abreviatura de Numerical Python) proporciona una interfaz eficiente para almacenar y operar en búferes de datos densos. De alguna manera, las matrices NumPy son como el tipo list incorporado de Python, pero las matrices NumPy proporcionan operaciones de datos y almacenamiento mucho más eficientes a medida que las matrices crecen en tamaño. Los arreglos NumPy forman el núcleo de casi todo el ecosistema de herramientas de ciencia de datos en Python, por lo que el tiempo dedicado a aprender a usar NumPy de manera efectiva será valioso sin importar qué aspecto de la ciencia de datos le interese.


Si siguió los consejos descritos en el Prefacio e instaló la pila Anaconda, ya tiene NumPy instalado y listo para funcionar. Si eres más del tipo "hazlo tú mismo", puedes ir a http://www.numpy.org/ y seguir las instrucciones de instalación que se encuentran allí. Una vez que lo haga, puede importar NumPy y verificar la versión:


In [1]:
import numpy
numpy.__version__
Out[1]:
'1.11.1'


Para las partes del paquete discutidas aquí, recomendaría NumPy versión 1.8 o posterior. Por convención, encontrará que la mayoría de las personas en el mundo SciPy / PyData importarán NumPy usando np como alias:


In [2]:
import numpy as np


A lo largo de este capítulo, y de hecho en el resto del libro, encontrará que esta es la forma en que importaremos y usaremos NumPy.


Recordatorio sobre la
documentación incorporada

Mientras lee este capítulo, no olvide que IPython le brinda la capacidad de explorar rápidamente el contenido de un paquete (usando la función de completar tabulaciones), así como la documentación de varias funciones (usando el ? carácter: consulte Ayuda y documentación en IPython).


Por ejemplo, para mostrar todo el contenido del espacio de nombres numpy, puede escribir esto:


In [3]: np.<TAB>


Y para mostrar la documentación incorporada de NumPy, puede usar esto:


In [4]: np?


Puede encontrar documentación más detallada, junto con tutoriales y otros recursos en http://www.numpy.org.


JeshuaNomics

JeshuaNomics - DataScience es una web de divulgación donde se puede encontrar material formativo en ciencia de datos y programación estadística (R, Python y SQL).

Publicar un comentario (0)
Artículo Anterior Artículo Siguiente