Curso Introducción al Análisis de datos sociales con Python
Presentación
El Centro de Estadística e Informática Aplicada (CEIA) ofrece cursos de iniciación y de actualización en técnicas específicas de estadística e informática, entre ellos el curso: Curso Introducción al Análisis de datos sociales con Python.
Dirección y cuerpo docente
Coordinador: Joon Hee Bang.
Comité Ejecutivo CEIA: Luis Acosta, Natalia Apel, Joon Hee Bang, María Ferraro, Mirta Judengloben.
Docente: Matías Grandi
Las nuevas técnicas de recolección de información ponen a disposición de investigadores, funcionarios y/o analistas, un volumen de datos que, años atrás, parecía impensado. Las ciencias sociales en particular, cuentan con registros de variables que hacen posibles nuevos y más profundos análisis.
En este nuevo escenario, se vuelven necesarias herramientas capaces de procesar la información y automatizar tareas para facilitar el día a día, especialmente considerando los datos sociales.
El objetivo del curso es realizar una introducción a Python, uno de los principales lenguajes de programación para Ciencia de Datos, con un enfoque orientado a perfiles provenientes de las Ciencias Sociales y Políticas Públicas.
Python se presenta como una herramienta ideal para sortear estos inconvenientes. Python es un lenguaje de programación open source y libre (free as speech), uno de los más usados en la actualidad, y el escogido por los científicos de datos de la industria para desarrollar sus modelos. Es un lenguaje sencillo, con una curva de aprendizaje lo suficientemente plana para atraer nuevos usuarios de las más diversas formaciones, especialmente aquellos que buscan trabajar con grandes volúmenes de datos dentro del ámbito de las Ciencias Sociales y las Políticas Públicas.
Este curso, entonces, busca que los estudiantes adquieran una comprensión general del lenguaje de programación, su utilidad para el análisis de datos sociales y la automatización de tareas. En el curso se tratará la sintaxis básica de programación, el manejo de datos sociales y su visualización. Así, el énfasis será sobre la importación, organización y manejo de datos sociales y la presentación de resultados.
Objetivos
Introducir al alumno en los conceptos básicos de programación en Python. En particular, la sintaxis y uso de los módulos y librerías necesarias para resolver los problemas vinculados al análisis y visualización de datos. A lo largo del curso, se focalizará en:
- Ciencias sociales y Ciencia de Aplicaciones prácticas
- Operaciones matemáticas vectoriales y
- Limpieza y Manipulación de bases de datos de información pública (open data de gobierno)
- Visualización de datos con las librerías de Python más
- Automatización de tareas en Python aplicada a las Ciencias
- Generar valor agregado a partir de análisis estadísticos
- Georreferenciación y su enfoque desde las Ciencias Sociales y las Políticas Públicas
- Introducción a técnicas de extracción de información como web
- Introducción a la creación de tableros de información.
Público objetivo
El curso está dirigido especialmente a graduados de Ciencias Sociales y a funcionarios gubernamentales. No obstante, podrán tomar el curso todas aquellas personas que deseen introducirse en el mundo de la ciencia de datos aplicada a las ciencias sociales y a las políticas públicas.
Para el mejor aprovechamiento del curso, es preciso contar con conocimientos básicos de estadística y álgebra y contar con una PC o notebook para desarrollar las prácticas.
No es necesario un conocimiento previo de Python.
Contenidos por unidad
Módulo I: Introducción a la programación en Python
- Cómo instalar Python
- Archivos de programa en Python
- Jupyter Notebooks
- Variables y tipos
- Operadores y comparaciones
- Tipos compuestos (cadenas, listas, tuplas)
- Control de flujo
- Ciclos
- Funciones
- Clases
- Módulos
- Excepciones
Módulo II: Exploración y procesamiento de datos
- Librerías principales
- Importación de datos: txt, csv, xlsx, y zip.
- Inspección inicial de la información.
- Manejo básico de la librería pandas
- Selección de filas y/o columnas, selección condicionada.
- Funciones apply, mapping and merge.
- Funciones de manejo de texto.
- Creación de muestras y subconjuntos de data frames: subsets and samples.
Módulo III: Paquetes Gráficos
- Introducción a plotly y matplot y demás librerías gráficas.
- Gráficos base: histogramas, scatter plot, bar plot, box plot.
- Otras herramientas para visualización de datos: manejo de mapas.
- Personalización de gráficos: ejes, colores, títulos.
- Exportación de gráficos.
Módulo IV: Análisis de datos ponderados
- Procesamiento de la Encuesta Permanente de Hogares
- Creación de indicadores sociales a partir de muestras ponderadas
- Módulos ad-hoc
Módulo V: Scrapping de datos
- Introducción a BeautifulSoap
- Ventajas y limitaciones del scrapping y de la librería
- Aplicación: Creación de una base de datos con las noticias de la Casa Rosada
Módulo VI: Georreferenciación
- Georreferenciación de información con el módulo Geopandas
- Introducción a las proyecciones y formatos de capas con información espacial (shape, GeoJson)
- Puntos y mapas coropleticos
- Operaciones de análisis espacial
- Isocronas
Módulo VII: Dashboards
- ¿Qué es un framework y por qué lo utilizamos?
- Presentación de los principales frameworks para programar tableros de control
- Elaboración de una simple demo con Dash o Streamlit
Bibliografía y sitios recomendados
Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython, Wes
McKinney. Del creador de la librería Pandas, un libro detallado sobre su uso
http://www.python.org – The official web page of the Python programming language.
http://www.python.org/dev/peps/pep-0008 – Guía de estilo para la programación en Python.
http://www.greenteapress.com/thinkpython/ – Libro gratuito sobre Python.
Python Essential Reference – Un buen libro de referencia sobre programación en Python.
Recursos adicionales
Kaggle: Sitio con datagrames y notebooks preparados para practicar EDA y machine learning. Bases de datos de todo tipo, con código comentado. Recomendado para practicar con datos reales.
Google Colab: Editor y ejecutor de notebooks en la nube. No hace falta instalar nada local. Gratis.
Corey Schafer: Excelente fuente de tutoriales sobre Python.
Keith Galli: Completo tutorial de Pandas
Cursada
Modalidad webinar (Teleconferencia)
Fecha de inicio: 14 de abril de 2023.
Fecha de finalización: 9 de junio de 2023.
Día/horario de cursada: viernes de 17 a 20 hs.
Duración: 9 clases (27 hs).
Modalidad de cursada y carga horaria
El curso se encuentra organizado en base a una modalidad teórico-práctica.
Para la consideración de temas conceptuales/teóricos, se adoptará la modalidad de organizar discusiones conceptuales sobre la base de la lectura previa de textos seleccionados.
En el abordaje de los temas prácticos se desarrollarán las herramientas metodológicas y de producción de información específica.
Modalidad de evaluación
La evaluación final consistirá en un trabajo final integrador individual a ser realizado en el hogar. En esta instancia se evaluarán las capacidades de aplicación de los contenidos, herramientas y metodologías del curso.
El trabajo deberá consistir en la elección de un dataset por parte de los alumnos y la aplicación de los conocimientos de python vistos en clase sobre el dataset elegido. La aplicación puede ir desde el desarrollo de un análisis exploratorio de datos, pasando por la realización de técnicas de limpieza y normalización de datos, hasta el desarrollo de un informe con gráficos. En todo caso, también lo aclaramos en la presentación.
Certificación otorgada
Se otorgará un certificado de asistencia y aprobación del curso una vez aprobada la evaluación del trabajo final. Se prevé un certificado de asistencia para aquellos que cumplan el requisito del 75% de asistencia y que aprueben la evaluación.
Inscripción
-INSCRIPCIÓN CERRADA-
Pasos para realizar la inscripción
Los alumnos se considerarán inscriptos en el curso sólo cuando hayan cumplido los siguientes requisitos antes de la fecha de cierre de inscripción:
- Completar el formulario de pre-inscripción.
- Entregar fotocopia del DNI (1º y 2º hoja).
ARANCEL
Residentes en Argentina:
- Curso completo: $ 28.800.
- Pago único, 10 % desc: $ 25.920.
- Pago en cuotas:
– Matrícula + 1 cuota de $ 20.160.
– Cuota 2: $ 8.640.
Residentes en el exterior:
- Curso completo: U$S 450.
- Pago único, 10 % desc: U$S 405.
- Pago en cuotas:
– Matrícula + 1 cuota de U$S 315.
– Cuota 2: U$S 135.
Ver modalidades de pago https://www.flacso.org.ar/pagos
Informes
Centro de Estadística e Informática Aplicada
Responsable administrativa: Marcela López.
E-mail: ceia@flacso.org.ar
Atención por Whatsapp: +54 9 11-3258-2856.