Autor | Título | Editorial |
Año |
Birkin, Mark | Big Data for Social Science Research | Ubiquity Symposium |
2018 |
Downey, Allen
Gutierrez-Puebl |
Think Python – How to Think Like a Computer Scientist Big (Geo)Data en Ciencias Sociales: |
Green Tea Press Needham, Massachusetts Revista de Estudios Andaluces |
2012
2016 |
a, Javier Hernández-Leal, |
Retos y Oportunidades Big Data: una exploración de |
TecnoLógicas, vol. 20, no. 39, |
2017 |
Duque-Méndez, Moreno-Cadavi d Leek, Jeff |
investigaciones, tecnologías y casos de aplicaciónThe Elements of Data Analytic Style |
mayo – agosto, 2017
Leanpub |
2015 |
Liou, Tao, Lin | THE DATA ANALYTICS – handbook | DATA ANALYSTS + DATA |
2018 |
Shashua, |
Introduction to Machine Learning |
SCIENTISTS School of Computer Science and |
2008 |
Amnon
Stanton, Jeffrey |
Introduction to Data Science |
Engineering The Hebrew University of Jerusalem Jerusalem, Israel Syracuse University |
2013 |
Curso Introducción al Análisis de datos sociales con Python
Presentación
El Centro de Estadística e Informática Aplicada (CEIA) ofrece cursos de iniciación y de actualización en técnicas específicas de estadística e informática, entre ellos el curso: Curso Introducción al Análisis de datos sociales con Python.
Dirección y cuerpo docente
Coordinador: Joon Hee Bang.
Comité Ejecutivo CEIA: Luis Acosta, Natalia Apel, Joon Hee Bang, María Ferraro, Mirta Judengloben.
Docente: Matías Grandi
Las nuevas técnicas de recolección de información ponen a disposición de investigadores, funcionarios y/o analistas, un volumen de datos que, años atrás, parecía impensado. Las ciencias sociales en particular, cuentan con registros de variables que hacen posibles nuevos y más profundos análisis.
En este nuevo escenario, se vuelven necesarias herramientas capaces de procesar la información y automatizar tareas para facilitar el día a día, especialmente considerando los datos sociales.
El objetivo del curso es realizar una introducción a Python, uno de los principales lenguajes de programación para Ciencia de Datos, con un enfoque orientado a perfiles provenientes de las Ciencias Sociales y Políticas Públicas.
Python se presenta como una herramienta ideal para sortear estos inconvenientes. Python es un lenguaje de programación open source y libre (free as speech), uno de los más usados en la actualidad, y el escogido por los científicos de datos de la industria para desarrollar sus modelos. Es un lenguaje sencillo, con una curva de aprendizaje lo suficientemente plana para atraer nuevos usuarios de las más diversas formaciones, especialmente aquellos que buscan trabajar con grandes volúmenes de datos dentro del ámbito de las Ciencias Sociales y las Políticas Públicas.
Este curso, entonces, busca que los estudiantes adquieran una comprensión general del lenguaje de programación, su utilidad para el análisis de datos sociales y la automatización de tareas. En el curso se tratará la sintaxis básica de programación, el manejo de datos sociales y su visualización. Así, el énfasis será sobre la importación, organización y manejo de datos sociales y la presentación de resultados.
Objetivos
Introducir al alumno en los conceptos básicos de programación en Python. En particular, la sintaxis y uso de los módulos y librerías necesarias para resolver los problemas vinculados al análisis y visualización de datos. A lo largo del curso, se focalizará en:
- Ciencias sociales y Ciencia de Aplicaciones prácticas
- Operaciones matemáticas vectoriales y
- Limpieza y Manipulación de bases de datos de información pública (open data de gobierno)
- Visualización de datos con las librerías de Python más
- Automatización de tareas en Python aplicada a las Ciencias
- Generar valor agregado a partir de análisis estadísticos
- Georreferenciación y su enfoque desde las Ciencias Sociales y las Políticas Públicas
- Introducción a técnicas de extracción de información como web
- Introducción a la creación de tableros de información.
Público objetivo
El curso está dirigido especialmente a graduados de Ciencias Sociales y a funcionarios gubernamentales. No obstante, podrán tomar el curso todas aquellas personas que deseen introducirse en el mundo de la ciencia de datos aplicada a las ciencias sociales y a las políticas públicas.
Para el mejor aprovechamiento del curso, es preciso contar con conocimientos básicos de estadística y álgebra y contar con una PC o notebook para desarrollar las prácticas.
No es necesario un conocimiento previo de Python.
Contenidos por unidad
Módulo 1: Introducción y Operaciones Iniciales
- ¿Qué es Python? ¿En qué plataforma se puede utilizar? ¿Qué es un lenguaje multipropósito?
- ¿Cómo puede aplicarse a las Políticas Públicas y a las Ciencias Sociales? Tipos y estructuras de datos utilizados en Ciencias Sociales y Políticas Públicas.
- Numpy y Pandas. Operaciones básicas e indexación. Aplicación a datasets con información socioeconómica (dataset: csv o similar).
- ¿Dónde buscar ayuda? ¿Hay lugares para buscar ayuda para proyectos de investigación?
- Buscar, importar, limpiar y transformar datos con información específica para Ciencias Lugares más usuales para obtener información.
- Extracción de información. Métodos aplicables. Cómo complementar con métodos tradicionales. Cómo aplicarlo a análisis demográficos. (dataset: caba_2040 o similar).
Módulo 2: Iniciando a Programar
- Clases, métodos y Controles de
- Caso práctico de evaluación de Política Pública. ¿Cómo evaluar ASPO/DISPO durante la pandemia? (dataset mobility_report o similar)
Módulo 3: Funcionalidades
- Cómo instalar y cargar paquetes. ¿Hay paquetes específicos para Ciencias Sociales y Políticas Públicas? ¿Se pueden adaptar?
- Operaciones con cadenas de texto. Su aplicación en las Ciencias Sociales (dataset: twitter hate o similar)
- Selección condicionada de filas y/o Cómo pensar el análisis de atributos e instancias.
- Formatos de fuentes de datos: txt, csv, xlsx, .pkl y
- Análisis de la información disponible y desarrollo de información
Módulo 4: Gráficos e Informes
- Introducción a paquetes de visualización (como por ejemplo
- plotly, altair).
- Gráficos base: histogramas, dispersión, barras, “bigotes”. Aplicación a las Ciencias Sociales y a las Políticas Públicas
- Personalización de gráficos: ejes, colores, títulos.
- Exportación de gráficos.
- Creación de Informes
- Caso práctico: análisis de terrorismo global (dataset: global_terrorism o similar)
Módulo 5: Georreferenciación
- La importancia de procesar información georreferenciada en términos de Ciencias Sociales y Políticas Públicas.
- Georreferenciación de información con Geopandas
- Introducción al manejo de mapas. Proyecciones. Formatos
- Visualización de la información: puntos y mapas coropléticos.
- Aplicación a datasets y casos estudiados (datasets: factbook, mobility report o similar)
Módulo 6: Estadística aplicada con Python
- Construcción de análisis estadísticos descriptivos.
- Pruebas estadísticas.
- Modelos estadísticos. (Regresiones y modelos de clústering)
- Introducción a las herramientas para extracción de información de páginas web (web scrapping)
- Introducción a los tableros de información en Python aplicado a la evaluación de políticas públicas.
- Caso de análisis sobre alguno de los datasets presentados.
Módulo 7: Introducción Machine Learning Aplicado a Ciencias Sociales
- Introducción a modelos de regresión: Regresión lineal simple. Regresión lineal Multivariada.
- Lineamientos sobre árboles de decisión. Estructura básica del modelo. Componentes y conceptos principales. Random forest.
- Introducción a técnicas de procesamiento de lenguaje natural (NLP)
- Principales librerías para análisis de sentimientos. Manejo de stopwords. Modelización y Clusterización
- Caso práctico. Cómo pensar un modelo predictivo (dataset: deathprobability o similar)
Bibliografía
Cursada
Modalidad híbrida
Fecha de inicio: 14 de abril de 2023.
Fecha de finalización: 9 de junio de 2023.
Día/horario de cursada: viernes de 17 a 20 hs.
Duración: 9 clases (27 hs).
Modalidad de cursada y carga horaria
El curso se encuentra organizado en base a una modalidad teórico-práctica.
Para la consideración de temas conceptuales/teóricos, se adoptará la modalidad de organizar discusiones conceptuales sobre la base de la lectura previa de textos seleccionados.
En el abordaje de los temas prácticos se desarrollarán las herramientas metodológicas y de producción de información específica.
Modalidad de evaluación
La evaluación final consistirá en un trabajo final integrador individual a ser realizado en el hogar. En esta instancia se evaluarán las capacidades de aplicación de los contenidos, herramientas y metodologías del curso.
El trabajo deberá consistir en la elección de un dataset por parte de los alumnos y la aplicación de los conocimientos de python vistos en clase sobre el dataset elegido. La aplicación puede ir desde el desarrollo de un análisis exploratorio de datos, pasando por la realización de técnicas de limpieza y normalización de datos, hasta el desarrollo de un informe con gráficos. En todo caso, también lo aclaramos en la presentación.
Certificación otorgada
Se otorgará un certificado de asistencia y aprobación del curso una vez aprobada la evaluación del trabajo final. Se prevé un certificado de asistencia para aquellos que cumplan el requisito del 75% de asistencia y que aprueben la evaluación.
Inscripción
Inscripción: a partir del 13 de febrero de 2023.
Pasos para realizar la inscripción
Los alumnos se considerarán inscriptos en el curso sólo cuando hayan cumplido los siguientes requisitos antes de la fecha de cierre de inscripción:
- Completar el formulario de pre-inscripción.
- Entregar fotocopia del DNI (1º y 2º hoja).
ARANCEL
Residentes en Argentina:
- Curso completo: $ 28.800.
- Pago único, 10 % desc: $ 25.920.
- Pago en cuotas:
– Matrícula + 1 cuota de $ 20.160.
– Cuota 2: $ 8.640.
Residentes en el exterior:
- Curso completo: U$S 450.
- Pago único, 10 % desc: U$S 405.
- Pago en cuotas:
– Matrícula + 1 cuota de U$S 315.
– Cuota 2: U$S 135.
Ver modalidades de pago https://www.flacso.org.ar/pagos