Curso Introducción al Análisis de datos sociales con Python

Presentación

El Centro de Estadística e Informática Aplicada (CEIA) ofrece cursos de iniciación y de actualización en técnicas específicas de estadística e informática, entre ellos el curso: Curso Introducción al Análisis de datos sociales con Python.

Dirección y cuerpo docente
Coordinador: Joon Hee Bang.
Comité Ejecutivo CEIA: Luis Acosta, Natalia Apel, Joon Hee Bang, María Ferraro, Mirta Judengloben.
Docente: Jeremias Morlandi.

Las nuevas técnicas de recolección de información ponen a disposición de investigadores, funcionarios y/o analistas, un volumen de datos que, años atrás, parecía impensado. Las ciencias sociales en particular, cuentan con registros de variables que hacen posibles nuevos y más profundos análisis.

En este nuevo escenario, se vuelven necesarias herramientas capaces de procesar la información y automatizar tareas para facilitar el día a día, especialmente considerando los datos sociales.

El objetivo del curso es realizar una introducción a Python, uno de los principales lenguajes de programación para Ciencia de Datos, con un enfoque orientado a perfiles provenientes de las Ciencias Sociales y Políticas Públicas.

Python se presenta como una herramienta ideal para sortear estos inconvenientes. Python es un lenguaje de programación open source y libre (free as speech), uno de los más usados en la actualidad, y el escogido por los científicos de datos de la industria para desarrollar sus modelos. Es un lenguaje sencillo, con una curva de aprendizaje lo suficientemente plana para atraer nuevos usuarios de las más diversas formaciones, especialmente aquellos que buscan trabajar con grandes volúmenes de datos dentro del ámbito de las Ciencias Sociales y las Políticas Públicas.

Este curso, entonces, busca que los estudiantes adquieran una comprensión general del lenguaje de programación, su utilidad para el análisis de datos sociales y la automatización de tareas. En el curso se tratará la sintaxis básica de programación, el manejo de datos sociales y su visualización. Así, el énfasis será sobre la importación, organización y manejo de datos sociales y la presentación de resultados.

Objetivos

Introducir al alumno en los conceptos básicos de programación en Python. En particular, la sintaxis y uso de los módulos y librerías necesarias para resolver los problemas vinculados al análisis y visualización de datos. A lo largo del curso, se focalizará en:

Ciencias sociales y Ciencia de Aplicaciones prácticas
Operaciones matemáticas vectoriales y
Limpieza y Manipulación de bases de datos de información pública (open data de gobierno)
Visualización de datos con las librerías de Python más
Automatización de tareas en Python aplicada a las Ciencias
Generar valor agregado a partir de análisis estadísticos
Georreferenciación y su enfoque desde las Ciencias Sociales y las Políticas Públicas
Introducción a técnicas de extracción de información como web
Introducción a la creación de tableros de información.

Público objetivo

El curso está dirigido especialmente a graduados de Ciencias Sociales y a funcionarios gubernamentales. No obstante, podrán tomar el curso todas aquellas personas que deseen introducirse en el mundo de la ciencia de datos aplicada a las ciencias sociales y a las políticas públicas.

Para el mejor aprovechamiento del curso, es preciso contar con conocimientos básicos de estadística y álgebra y contar con una PC o notebook para desarrollar las prácticas.

No es necesario un conocimiento previo de Python.

Contenidos por unidad

Módulo I: Introducción a la programación en Python

Cómo instalar Python
Archivos de programa en Python
Jupyter Notebooks
Variables y tipos
Operadores y comparaciones
Tipos compuestos (cadenas, listas, tuplas)
Control de flujo
Ciclos
Funciones
Clases
Módulos
Excepciones

Módulo II: Exploración y procesamiento de datos

Librerías principales
Importación de datos: txt, csv, xlsx, y zip.
Inspección inicial de la información.
Manejo básico de la librería pandas
- Selección de filas y/o columnas, selección condicionada.
  - Funciones apply, mapping and merge.
  - Funciones de manejo de texto.
- Creación de muestras y subconjuntos de data frames: subsets and samples.

Módulo III: Paquetes Gráficos

Introducción a plotly y matplot y demás librerías gráficas.
Gráficos base: histogramas, scatter plot, bar plot, box plot.
Otras herramientas para visualización de datos: manejo de mapas.
Personalización de gráficos: ejes, colores, títulos.
Exportación de gráficos.

Módulo IV: Análisis de datos ponderados

Procesamiento de la Encuesta Permanente de Hogares
Creación de indicadores sociales a partir de muestras ponderadas
Módulos ad-hoc

Módulo V: Scrapping de datos

Introducción a BeautifulSoap
Ventajas y limitaciones del scrapping y de la librería
Aplicación: Creación de una base de datos con las noticias de la Casa Rosada

Módulo VI: Georreferenciación

Georreferenciación de información con el módulo Geopandas
Introducción a las proyecciones y formatos de capas con información espacial (shape, GeoJson)
Puntos y mapas coropleticos
Operaciones de análisis espacial
Isocronas

Módulo VII: Dashboards

¿Qué es un framework y por qué lo utilizamos?
Presentación de los principales frameworks para programar tableros de control
Elaboración de una simple demo con Dash o Streamlit

Bibliografía y sitios recomendados

Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython, Wes

McKinney. Del creador de la librería Pandas, un libro detallado sobre su uso

http://www.python.org – The official web page of the Python programming language.

http://www.python.org/dev/peps/pep-0008 – Guía de estilo para la programación en Python.

http://www.greenteapress.com/thinkpython/ – Libro gratuito sobre Python.

Python Essential Reference – Un buen libro de referencia sobre programación en Python.

Recursos adicionales

Kaggle: Sitio con datagrames y notebooks preparados para practicar EDA y machine learning. Bases de datos de todo tipo, con código comentado. Recomendado para practicar con datos reales.

Google Colab: Editor y ejecutor de notebooks en la nube. No hace falta instalar nada local. Gratis.

Corey Schafer: Excelente fuente de tutoriales sobre Python.

Keith Galli: Completo tutorial de Pandas

Cursada

Modalidad a distancia (sincrónico). Teleconferencia.
Fecha de inicio: 11 de abril de 2025.
Fecha de finalización: 6 de junio de 2025.
Día/horario de cursada: viernes de 18 a 21 hs.
Duración: 9 clases (27 hs).

Modalidad de cursada y carga horaria

El curso se encuentra organizado en base a una modalidad teórico-práctica.

Para la consideración de temas conceptuales/teóricos, se adoptará la modalidad de organizar discusiones conceptuales sobre la base de la lectura previa de textos seleccionados.

En el abordaje de los temas prácticos se desarrollarán las herramientas metodológicas y de producción de información específica.

Modalidad de evaluación

La evaluación final consistirá en un trabajo final integrador individual a ser realizado en el hogar. En esta instancia se evaluarán las capacidades de aplicación de los contenidos, herramientas y metodologías del curso.

El trabajo deberá consistir en la elección de un dataset por parte de los alumnos y la aplicación de los conocimientos de python vistos en clase sobre el dataset elegido. La aplicación puede ir desde el desarrollo de un análisis exploratorio de datos, pasando por la realización de técnicas de limpieza y normalización de datos, hasta el desarrollo de un informe con gráficos. En todo caso, también lo aclaramos en la presentación.

Certificación otorgada

Se otorgará un certificado de asistencia y aprobación del curso una vez aprobada la evaluación del trabajo final. Se prevé un certificado de asistencia para aquellos que cumplan el requisito del 75% de asistencia y que aprueben la evaluación.

Inscripción

-INSCRIPCIÓN CERRADA-

Pasos para realizar la inscripción

Los alumnos se considerarán inscriptos en el curso sólo cuando hayan cumplido los siguientes requisitos antes de la fecha de cierre de inscripción:

Completar el formulario de pre-inscripción.
Entregar fotocopia del DNI (1º y 2º hoja).

ARANCEL

Residentes en Argentina:

Curso completo: $ 81.000
Pago único, 10 % desc: $ 72.900
Pago en cuotas:
– Matrícula + 1 cuota de $ 56.700
– Cuota 2: $ 24.300

Residentes en el exterior:

Curso completo: U$S 450.
Pago único, 10 % desc: U$S 405.
Pago en cuotas:
– Matrícula + 1 cuota de U$S 315.
– Cuota 2: U$S 135.

Ver modalidades de pago https://www.flacso.org.ar/pagos

Informes

Centro de Estadística e Informática Aplicada
Responsable administrativa: Marcela López.
E-mail: ceia@flacso.org.ar
Atención por Whatsapp: +54 9 11-3258-2856.