Curso Introducción al análisis de datos sociales con Python

Módulo 1: El Laboratorio (Setup y Herramientas)

Instalación: Configuración de Python + Visual Studio Code (VSC).
Workspace Profesional: Organización de un proyecto mediante carpetas críticas (/data, /scripts, /output).
Entorno Virtual (venv): Creación y gestión de un entorno de trabajo aislado para garantizar la estabilidad de las librerías.
Extensiones de VSC: Herramientas de productividad para mejorar la escritura de código.
IA Asistente: Configuración de una IA como tutor y consultor técnico integrado en el flujo de trabajo.

Módulo 2: Ingesta y Tipología de Datos

Centralidad del DataFrame: El concepto de “Matriz de Datos” en el entorno Pandas.
Ingesta Multiformato: Lectura técnica de archivos .sav (SPSS), .xlsx (Excel) y .csv.
Tipos de Datos: Identificación y relevancia de los tipos de datos (numéricos, categóricos, objetos) para el análisis estadístico.

Módulo 3: Exploración Inicial (EDA) y Selección

Primer Vistazo (EDA): Diagnóstico rápido de la salud de la base con .head(), .info() y .describe().
Anatomía de la Matriz: Manejo del Index y las etiquetas de columnas.
Selección de Subgrupos de Interés: Filtrado de casos mediante condiciones lógicas aplicadas a variables sociales.
Descriptivos Base: Tablas de frecuencia (value_counts) y medidas de resumen estadístico.

Módulo 4: Limpieza y Preparación

Gestión de Valores Nulos: Estrategias para la identificación y tratamiento de datos faltantes (NaN).
Normalización de Texto: Limpieza de strings (eliminación de espacios, tildes y corrección de errores de carga).
Conversión de Tipos: Asegurar la operatividad de las variables (convertir texto a números o categorías).
IA Asistente: Uso de IA para la generación de expresiones regulares (Regex) aplicadas a la limpieza de texto complejo.

Módulo 5: Operaciones Avanzadas, Agregación y Fusión

Transformación Masiva: Aplicación de funciones a columnas y creación de nuevas variables.
Agregación (GroupBy): Procesamiento de datos para obtener promedios, totales o estadísticos por grupos sociales.
Tablas Pivot: Generación de tablas de contingencia y reportes cruzados.
Fusión de Matrices: Técnicas para unir múltiples bases de datos mediante llaves comunes.

Módulo 6: El Pipeline de Ciencia de Datos

Del Script al Proceso: Construcción de un archivo .py estructurado que ejecute de forma automática el flujo completo (Carga → Limpieza → Análisis).
Trazabilidad y Reproducibilidad: El script como “autodocumentación” del pipeline de ciencia de datos.

Módulo 7: Visualización de Datos

Librerías de Graficación: Introducción a Seaborn y herramientas de visualización estadística.