Introducción a la Ciencia de datos con R


Presentación

El Centro de Estadística e Informática Aplicada (CEIA) ofrece cursos de iniciación y de actualización en técnicas específicas de estadística e informática, entre ellos el curso Introducción a la Ciencia de datos con R.

Dirección y cuerpo docente:
Coordinador: Joon Hee Bang (FLACSO).
Comité Ejecutivo: Luis Acosta (IDES), Joon Hee Bang (FLACSO) y Eduardo Basualdo (FLACSO).
Docente a cargo: Andrés Farall.

La existencia y disponibilidad actual de grandes y complejas estructuras de información exige disponer de nuevas técnicas de análisis y visualización de datos. Un ejemplo de estas estructuras de información lo constituye la información recopilada y analizada por Ministerios y Secretarías a nivel nacional y provincial. Otro ejemplo, son las bases de datos de CRM (Customer Relationship Management) utilizadas en el ámbito privado por empresas en su gestión de clientes.

El acceso a este tipo de estructuras de información, permite un abordaje del análisis de los mismos datos a partir de un enfoque metodológico basado en la teoría, pero con una mayor preeminencia del dato. La fuerte dinámica en la evolución de las estructuras de información generadas por la ciencia, las empresas y las distintas dependencias del Estado, requieren contar con herramientas que den acceso a un entorno de creación y utilización de instrumentos de análisis que comparta esa misma dinámica.

Una definición posible de Ciencia de Datos es la de un campo interdisciplinario que involucra métodos científicos, procesos y sistemas para extraer conocimiento o un mejor entendimiento de los datos en sus diferentes formas (Véase Liu 2015 http://www.researchmethods.org/DataScienceDataScientists.pdf).

En este contexto, el entorno de Ciencia de Datos R se ha convertido en líder entre los paradigmas libres, de código abierto y comunitarios para el análisis y el modelado de datos. Así, este entorno de Ciencia de Datos permite el acceso a un contexto amplio con las técnicas más exitosas disponibles, provenientes de la estadística aplicada, la minería de datos y el aprendizaje automático.


Objetivos del curso

El curso procura brindar, de manera introductoria, el acceso al entorno R con especial atención en las novedosas técnicas de descripción y visualización de datos disponibles en este entorno.

En este sentido, el curso se orientará al estudio de las características y utilización del entorno R en su aplicación a través de herramientas provenientes principalmente de la estadística para la descripción, el análisis y el modelado de datos (entendiendo por este al ajuste estadístico de modelos de datos) en un contexto de grandes bases de datos.

Todas las herramientas a ser estudiadas serán implementadas en R, y ejemplificadas con conjuntos de datos reales. El enfoque particular del curso se centrará en los datos y en la selección de métodos de análisis que se ajustan a ellos. Se intentará dotar a los participantes del conocimiento de una amplia variedad de técnicas útiles en el contexto de la Ciencia de Datos.


Cursada

Comisión 1 – Modalidad presencial
Fecha de inicio: 9 de agosto de 2019
Días: viernes de 18:00 a 21:00
Duración: 9 clases 27 hs.

Las clases serán teórico-prácticas y se desarrollarán en el laboratorio de computación donde cada participante dispondrá de una computadora. El curso constara de 27 horas, distribuidas en 9 encuentros de 3 horas cada uno, una vez por semana. Adicionalmente, en las clases se desarrollarán los contenidos teóricos del curso. Las técnicas expuestas serán presentadas mediante la aplicación a un caso concreto.

Requisitos

Para ser admitido al curso se requerirá contar con conocimientos de básicos de estadística. Se supondrá que el asistente entiende conceptos de análisis y modelado de datos tales como: media, varianza, correlación, test de hipótesis, intervalos de confianza, gráficos de dispersión y significatividad estadística.

Sistema de evaluación

Para la aprobación del curso se debe cumplimentar la asistencia mínima del 75% de las clases y la aprobación de un examen final individual de carácter práctico. Aquellos participantes que cumplan el 75% de asistencia, pero no deseen realizar el examen, podrán disponer de un certificado de asistencia.


Contenidos

• Nociones Básicas de Ciencia de Datos:

  • ¿Qué entendemos por Ciencia de Datos?
  • Análisis Supervisado y No Supervisado
  • Inferencia, Predicción y Clasificación
  • Trade-off Sesgo-Varianza


• Introducción a R

  • Elementos Básicos de Programación
  • El entorno Rstudio: Aplicación que facilita el uso y manejo de R.
  • Prototipado mediante Shiny: Herramienta que posibilita la creación de prototipos funcionales (aplicaciones interactivas) de análisis de datos.
  • Versionado mediante GIT: Libraría libre y de código abierto que facilita el manejo de versiones de los programas R creados por los usuarios.
  • Notebooks (Rmarkdown): Documentos técnicos, a modo de informes, automáticamente generados desde R, en formato PDF y HTML.
  • Filosofía Tydiverse (DplyR, SF, ggplot): Sintaxis en R de gran flexibilidad y potencia, especialmente util en el manejo de datos complejos.


• Análisis gráficos de datos:

  • La graficación como técnica de detección de patrones
  • Técnicas interactivas de visualización
  • Herramientas de visualización espacial
  • Graficación en una, dos y tres dimensiones


• Aplicación de Técnicas de Análisis y Modelado de Datos:

  • Modelo Lineal Clásco y Robusto: Método de Mínimos Cuadrados y sus variantes Robustas (no afectadas por datos atípicos).
  • Modelo Lineal Generalizado (GLM): ¿Cómo modelar la distribución de datos no gausianos?
  • Regularización: Regresión Lasso y Ridge ¿Cómo controlar automáticamente la complejidad de los modelos estadísticos?
  • Modelos Aditivos Generalizados (GAM): Flexibilizando las relaciones de dependencia entre la variable respuesta y las variables explicativas.
  • Redes Neuronales Artificiales (ANN): Método fundamental de modelado que subyace a las aplicaciones más exitosas de la Inteligencia Artificial (por ej. Reconocimiento de Imágenes).


BIBLIOGRAFÍA

  • An Introduction to R: https://cran.r-project.org/doc/manuals/R-intro.html
  • James, Witten, Hastie & Tibshirani, R. (2013). An introduction to statistical learning (Vol. 6). New York: springer.
  • Efron, B., & Hastie, T. (2016). Computer Age Statistical Inference (Vol. 5). Cambridge University Press.

Inscripción

-INSCRIPCIÓN CERRADA-

Los alumnos se considerarán inscriptos en el curso sólo cuando hayan cumplido los siguientes requisitos antes de la fecha de cierre de inscripción:

  1. Completar en línea el formulario de pre-inscripción
  2. Entregar fotocopia del DNI (1º y 2º hoja)


Arancel:

  • Curso completo: $ 6.750.
  • Pago único, 15 % desc: $ 5.740
  • Pago en cuotas:
    – Matrícula + 1 cuota de $ 2.700.
    – Cuota 2: $ 2.025.
    – Cuota 3: $2.025.

Ver modalidades de pago aquí


Informes

FLACSO Argentina
Tucumán 1966, CABA, Argentina.

Centro de Estadística e Informática Aplicada
Asistente técnica: Marcela López.
Teléfono: (54-11) 5238-9300 interno 475.
Horario de atención: lunes, miércoles y viernes de 15:30 a 19:30 hs.
E-mail: ceia@flacso.org.ar
Atención por Whatsapp: 15-11-3258-2856.