Curso Introducción al análisis de datos sociales con Python

Inscripción abierta

Contenidos

Módulo 1: El Laboratorio (Setup y Herramientas)

  • Instalación: Configuración de Python + Visual Studio Code (VSC).
  • Workspace Profesional: Organización de un proyecto mediante carpetas críticas (/data, /scripts, /output).
  • Entorno Virtual (venv): Creación y gestión de un entorno de trabajo aislado para garantizar la estabilidad de las librerías.
  • Extensiones de VSC: Herramientas de productividad para mejorar la escritura de código.
  • IA Asistente: Configuración de una IA como tutor y consultor técnico integrado en el flujo de trabajo.


Módulo 2: Ingesta y Tipología de Datos

  • Centralidad del DataFrame: El concepto de “Matriz de Datos” en el entorno Pandas.
  • Ingesta Multiformato: Lectura técnica de archivos .sav (SPSS), .xlsx (Excel) y .csv.
  • Tipos de Datos: Identificación y relevancia de los tipos de datos (numéricos, categóricos, objetos) para el análisis estadístico.


Módulo 3: Exploración Inicial (EDA) y Selección

  • Primer Vistazo (EDA): Diagnóstico rápido de la salud de la base con .head(), .info() y .describe().
  • Anatomía de la Matriz: Manejo del Index y las etiquetas de columnas.
  • Selección de Subgrupos de Interés: Filtrado de casos mediante condiciones lógicas aplicadas a variables sociales.
  • Descriptivos Base: Tablas de frecuencia (value_counts) y medidas de resumen estadístico.


Módulo 4: Limpieza y Preparación

  • Gestión de Valores Nulos: Estrategias para la identificación y tratamiento de datos faltantes (NaN).
  • Normalización de Texto: Limpieza de strings (eliminación de espacios, tildes y corrección de errores de carga).
  • Conversión de Tipos: Asegurar la operatividad de las variables (convertir texto a números o categorías).
  • IA Asistente: Uso de IA para la generación de expresiones regulares (Regex) aplicadas a la limpieza de texto complejo.


Módulo 5: Operaciones Avanzadas, Agregación y Fusión

  • Transformación Masiva: Aplicación de funciones a columnas y creación de nuevas variables.
  • Agregación (GroupBy): Procesamiento de datos para obtener promedios, totales o estadísticos por grupos sociales.
  • Tablas Pivot: Generación de tablas de contingencia y reportes cruzados.
  • Fusión de Matrices: Técnicas para unir múltiples bases de datos mediante llaves comunes.


Módulo 6: El Pipeline de Ciencia de Datos

  • Del Script al Proceso: Construcción de un archivo .py estructurado que ejecute de forma automática el flujo completo (Carga → Limpieza → Análisis).
  • Trazabilidad y Reproducibilidad: El script como “autodocumentación” del pipeline de ciencia de datos.


Módulo 7: Visualización de Datos

  • Librerías de Graficación: Introducción a Seaborn y herramientas de visualización estadística.