Análisis y visualización de datos usando Python: Glossary

Puntos Clave

Antes de comenzar
  • Python es un lenguaje de programación de código libre y plataforma independiente

  • SciPy es un ecosistema para Python que provee las herramientas necesarias para la computación científica

  • Jupyter Notebook y la Spyder IDE son excelentes herramientas para escribir código e interactuar con Python. Con su gran comunidad es fácil encontrar ayuda en internet

Breve introducción a la Programación en Python
  • FIXME

Comenzando con datos
  • FIXME

Indexación, segmentación y creación de subconjuntos a partir de DataFrames en Python
  • En Python, fragmentos de datos pueden ser accedidos usando índices, ‘slices’, encabezados de columnas, y subconjuntos basados en condiciones.

  • Python usa indexación base-0, en la cual el primer elemento de una lista, tupla o cualquier otra structura de datos tiene un indice de 0.

  • ‘Pandas’ permite usar procedimientos comunes de exploración de datos como indexación de datos, ‘slicing’ y creación de subconjuntos basados en condiciones.

Tipos de datos y formatos
  • FIXME

Combinando DataFrames con Pandas
  • FIXME

Flujos de trabajo y automatización
  • FIXME

Creando gráficos con plotnine
  • Las variables data, aes y geometry son los elementos principales de un gráfico de plotnine.

  • Con el operador + , se agregan elementos adicionales al gráfico, por ejemplo scale_*, theme_*, xlab, ylab y facet_*.

Entrada de datos y visualización - Matplotlib y Pandas
  • Matplotlib es el motor detrás de los gráficos creados con plotnine y Pandas.

  • La filosofía de los gráficos de matplotlib, basada en objetos, permite la personalización detallada de los gráficos una vez creados.

  • Exportar gráficos a un archivo usando el método savefig.

Acceso a base de datos SQLite usando Python y Pandas
  • Crea una conexión con sqlite3.connect(), luego un cursor para consultas con .cursor().

  • Ejecuta consultas usando .execute().

  • Usa Pandas .read_sql_query() para extraer datos directamente a un DataFrame.

  • Escribe los datos de un nuevo DataFrame en una nueva tabla en SQLite usando .to_sql().

  • Al final, no olvides cerrar la puerta de la conexión usando el comando .close().

Glossary

Indexación basada en cero
es una forma de asignar índices a elementos, de manera secuencial, dentro de una estructura de datos y empezando desde cero. Es decir, el primer elemento de la secuencia tiene el índice cero.
CSV (archivo)
es un acrónimo que significa archivo de valores separados por comas. Los archivos CSV almacenan datos tabulares, ya sea números, secuencias de caracteres o una combinación de los dos, en texto plano con columnas separadas por una coma y filas por el carácter de salto de línea.
base de datos
es una colección organizada de datos.
DataFrame
es una estructura bidimensional de datos etiquetados con columnas de (potencialmente) diferentes tipos.
estructura de datos
es una manera particular de organizar datos en memoria.
tipo de datos
es un tipo particular de elemento que puede ser asignado a una variable, definido por los valores que puede tomar, el lenguage de programación en uso y las operaciones que se le pueden aplicar.
diccionario o dictionary
es una estructura de datos desordenada de Python que contiene pares clave-valor, donde ambos, la clave y el valor, pueden ser integers, floats, o cadenas de caracteres. Los elementos de un diccionario pueden ser accesados con su llave y pueden ser modificados.
docstring
es una cadena de caracteres de documentación opcional que describe lo que una función de Python hace.
faceting
es el acto de trazar relaciones entre variables definidas en múltiples subconjuntos de los datos y donde los resultados aparecen como paneles diferentes en la misma figura.
float
es un tipo de datos en Python diseñado para guardar números decimales positivos y negativos mediante una representación denominada punto flotante.
función o function
es un grupo de declaraciones relacionadas que realizan una tarea específica.
integer
es un tipo de datos de Python diseñado para almacenar números enteros positivos y negativos.
modo interactivo
es un modo de operación en línea en el que el usuario escribe los comandos directamente en la línea de comandos uno por uno y los ejecuta inmediatamente presionando un botón, generalmente Return.
clave de unión
es una variable o un array representando los nombres de las columnas sobre las cuales pandas.DataFrame.join() fusiona las columndas de dos datasets.
library o biblioteca
es un conjunto de funciones y metodos agrupados para realizar algún tipo de tareas específicas.
list
es una estructura de datos de Python diseñada para contener secuencias de integers, floats, cadenas de caracteres, y cualquier combinación de las anteriores. La secuencia es ordenada e indexada por integers, empezando desde cero. Los elementos de una list pueden ser accedidos por su índice y pueden ser modificados.
loop o bucle
es una secuencia de instrucciones que es continuamente repetida hasta que se cumple una condición.
NaN
es un acrónimo para Not-a-Number (No-un-Número) y representa que falta un valor o que el cálculo no puede generar un resultado con significado.
None
es un objeto que representa la falta de un valor.
scripting mode
es un modo de operación fuera de línea en el que el usuario escribe los comandos que se ejecutarán en un archivo de texto (con extensión .py para Python) que luego se compila o interpreta para ejecutar el programa. Nótese que Python interpreta el script en tiempo de ejecución y compila una versión binaria del programa para acelerar el tiempo de ejecución.
Sequential (estructura de datos)
es un grupo ordenado de objetos almacenados en la memoria al que se puede acceder especificando su índice, es decir, su posición en la estructura.
SQL
o Structured Query Language, es un lenguaje de dominio-específico (-REVISAR-) para administrar datos almacenados en un sistema de administración de bases de datos relacionales (RDBMS por sus siglas en íngles).
SQLite
es un motor de base de datos de SQL, de dominio público e independiente.
string o cadena de caracteres
es un tipo de datos de Python que almacena secuencias de caracteres.
tupla
es una estructura de datos de Python diseñada para contener secuencias de integers, floats, cadenas de caracteres, y cualquier combinación de las anteriores. La secuencia es ordenada e indexada por integers, empezando desde cero. Los elementos de una list pueden ser accedidos por su índice pero no pueden ser modificados.