Diplomado en Webscraping y visualización de datos sociales en R

Estudia en la Universidad N°1 de habla hispana en Latinoamérica por QS Latam University Rankings 2024

Acerca del programa:

El Diplomado permite aprender a presentar, identificar y mejorar la captura de datos de manera visual para comunicar efectivamente los resultados de la exploración y análisis de datos en el software estadístico R.


Dirigido a:

El Diplomado está dirigido a profesionales o licenciados de diversas áreas de las ciencias sociales, humanidades, comunicaciones o educación, que necesiten aprender a utilizar el software R para el procesamiento, visualización y presentación de datos, así como para ampliar el repertorio de fuentes de datos a su disposición para posteriores análisis cuantitativos.


Jefe de Programa

Mauricio Bucca

Profesor asistente del Instituto de Sociología de la Pontificia Universidad Católica de Chile. Sociólogo UC, Doctor en Sociología de la Universidad de Cornell y Max Weber Postdoctoral Fellow en el Instituto Universitario Europeo.

Equipo Docente

keyboard_arrow_down

Víctor Macías

Ingeniero Comercial de la Universidad de Chile.Magíster en Economía de la Universidad de Chile. Doctor en Economía de la Universidad de Maryland. Académico de la Universidad de Chile y la Universidad Diego Portales en las siguientes áreas: Entorno económico para los negocios, Tópicos en economía y negocios usando R, Econometría financiera, Introducción a Fintech y R para Finanzas, Evaluación de Impacto, Análisis Predictivo, Innovación Financiera.

Cristián Ayala

Ingeniero Civil Industrial de la Pontificia Universidad Católica de Chile. Magíster en Sociología UC. Director del Departamento de Estudios Sociales del Instituto de Sociología UC (DESUC).Amplia experiencia en estudios vinculados al sector público y privado, con diversas metodologías y técnicas de análisis. Especialista en el diseño y levantamiento de estudios cuantitativos complejos y la aplicación de estudios a través de plataformas digitales.

Mauricio Bucca

Sociólogo, Pontificia Universidad Católica de Chile.Doctor en Sociología, Universidad de Cornell.Profesor Instituto de Sociología UC. 

Además, se incorporarán al equipo ayudantes que guiarán y asistirán a los docentes durante algunas de las clases.

Descripción

Este Diplomado se compone de tres cursos que permiten a los profesionales aprender sobre el análisis, construcción y visualización de datos para mejorar sus herramientas laborales a la hora de comunicar efectivamente los datos que se obtienen desde las bases de datos.

El primer curso aborda aspectos avanzados en el procesamiento de bases de datos, tales como manejo de variables, consolidación de bases de datos, buenas prácticas de programación y producción de reportes automatizados y replicables. Al final del curso se espera que los alumnos puedan analizar bases de datos de mediana a avanzada complejidad.

El segundo curso aborda la representación de distintos tipos de datos, a través de gráficos, mapas y dashboards, así como usar diferentes elementos visuales (posición, color, forma, etc,) que permitan comunicar efectivamente los resultados de la exploración y análisis de datos.

El tercer curso explora distintas formas de acceder a los datos de manera programática utilizando R, aplicando también técnicas para limpiar, tabular y crear bases de datos a partir de la web para análisis posteriores.

Al finalizar este diplomado, los y las estudiantes debieran tener la capacidad de procesar y manejar datos en diferentes bases de datos; construir bases con elementos visuales para comunicar datos de manera efectiva; y poder acceder a nuevos datos de manera programática, accediendo a nuevas fuentes de datos.

El desarrollo de los contenidos será en el programa R, un software estadístico gratuito y de código abierto que se encuentra entre los más utilizados en ámbitos académicos e investigación aplicada.

Este diplomado se impartirá en modalidad en 2023 on line – clases en vivo, es decir, clases sincrónicas vía plataforma zoom. Además, se integran horas de clases asincrónicas, a través de video cápsulas grabadas, para administración por parte de los y las estudiantes. Para este 2023, se incluirán algunas horas de actividades presenciales o en formato híbrido. 

Requisitos de Ingreso

  • Grado académico o título profesional, obtenido en universidades chilenas o extranjeras.
  • Se sugiere conocimiento intermedio del idioma inglés para lectura de bibliografía.
  • Se necesita formación previa en análisis de datos.

Objetivos de Aprendizaje

  • Procesar bases de datos para el análisis estadístico de éstos, utilizando el programa R.
  • Comunicar datos a través de la utilización de distintos elementos visuales.
  • Analizar fenómenos sociales a través de la información obtenida desde la web.

Desglose de cursos

CURSO: PROCESAMIENTO AVANZADO DE BASES DE DATOS

Nombre curso en inglés: Advanced Processing of Databases Course

Horas cronológicas: 54 horas

Horas pedagógicas: 72 horas

Créditos: 10

Descripción del curso

Este curso aborda aspectos avanzados en el procesamiento de bases de datos secundarias, tanto en términos de manejo de variables como de consolidación de bases de datos (creación, traspaso de archivos, combinar archivos, cambiar de unidad de análisis). Además, los alumnos podrán tener la experiencia de trabajar con las más importantes bases de datos de encuestas disponibles de manera gratuita en y/o sobre Chile. Al final del curso se espera que los alumnos puedan enfrentar demandas de mediana a avanzada complejidad que impliquen el procesamiento de primera mano de distintas bases de datos disponibles en el país.

Resultados de aprendizaje

Al finalizar este curso los/las estudiantes debieran ser capaces de:

  • Desarrollar destrezas en la creación y procesamiento avanzado de bases de datos para el análisis estadístico de éstos, utilizando software estadístico.
  • Entrenarse en la construcción de variables complejas combinando variables provenientes de distintas bases de datos.
  • Conocer y evaluar las fortalezas y debilidades de las principales encuestas disponibles para analizar en y/o sobre Chile.
  • Analizar y discutir acerca de los principales desafíos éticos que implica el trabajo con bases de datos secundarias.

Contenidos

  • Construcción de bases de datos utilizando software estadístico R.
  • Identificación de unidad de análisis y selección de la más adecuada frente a distintos tipos de demandas de información. Filtro de casos y agregar datos.
  • Homologación de casos para la construcción de bases de datos longitudinales tipo panel, así como para la construcción de bases de datos agregadas.
  • Homologación de variables para la construcción de bases de datos longitudinales tipo tendencia.
  • Revisión de las principales bases de datos de encuestas disponibles de manera gratuita en y/o sobre Chile.
  • Principales desafíos éticos que implica el trabajo con bases de datos secundarias.

Metodología de enseñanza y aprendizaje

Este curso se desarrollará en modalidad on line – clases en vivo y utilizará las siguientes estrategias de enseñanza:

  • Clases sincrónicas: Clases expositivas online, vía zoom. Discusión de textos y aprendizaje basado en problemas; trabajos aplicados y breves presentaciones en clase de los estudiantes.
  • Clases asincrónicas: clases expositivas y/o tutoriales disponibles a través de videos pre-grabados disponibles para los y las estudiantes a través de Classroom.

Evaluación de los aprendizajes

  • Realización de tres ejercicios prácticos (60%).
  • Un examen final práctico (40%).

Nombre curso: visualización de datos usando r

Nombre en inglés: Data Visualization using R.

Horas cronológicas: 21

Horas pedagógicas: 28

Créditos: 5

Descripción del curso

Este curso, usando una metodología de aprendizaje basada en problemas, está diseñado para profesionales de las ciencias sociales que posean formación previa en análisis de datos y que tengan conocimientos básicos de importación, exportación y manipulación de datos en R. Al finalizar el curso, se espera que los estudiantes, usando el lenguaje de programación R, sean capaces de representar distintos tipos de datos, a través de gráficos, mapas y dashboards, así como usar diferentes elementos visuales (posición, color, forma, etc,) que permitan comunicar efectivamente los resultados de la exploración y análisis de datos.

Resultados del aprendizaje

Al finalizar este curso los/las estudiantes debieran ser capaces de:

  • Representar montos, distribuciones, proporciones, relaciones entre variables, series de tiempo e incertidumbre por medio de gráficos.
  • Usar elementos visuales tales como: posición, forma, tamaño, color, ancho y tipo de línea para comunicar efectivamente datos.
  • Usar mapas para representar datos geolocalizados y variables asociadas a un territorio determinado (por ejemplo, comuna, región o país).
  • Representar visualmente redes de interacción social.
  • Construir de dashboards a partir de mapas, datos censales, encuestas socioeconómicas y registros administrativos, entre otros.
  • Usar R Markdown para la presentación de informes y la construcción de dashboards.

Contenidos:

  • Percepción y visualización de datos.
  • Elementos de R Markdown.
  • Representación de montos, distribuciones, proporciones, relaciones entre variables, series de tiempo e incertidumbre.
  • Visualización de redes.
  • Mapas
  • Dashboards

Metodología de enseñanza y aprendizaje

Este curso se desarrollará en modalidad on line – clases en vivo y utilizará las siguientes estrategias de enseñanza:

  • Clases sincrónicas: Clases expositivas online, vía zoom. Discusión de textos y aprendizaje basado en problemas; trabajos aplicados y breves presentaciones en clase de los estudiantes.
  • Clases asincrónicas: clases expositivas y/o tutoriales disponibles a través de videos pre-grabados disponibles para los y las estudiantes a través de Classroom.

Evaluación de los aprendizajes:

  • Trabajos:       70%
  • Examen final: 30%

CURSO WEBSCRAPING Y ACCESO A DATOS DESDE LA WEB

Nombre en inglés: Web Scraping and web data access

Horas cronológicas: 25

Horas pedagógicas: 28

Créditos: 5

Descripción del curso

Este curso explorará distintas formas de acceder a datos desde la Web (Internet) de manera programática utilizando R. Se mostrará también técnicas para limpiar, tabular y crear bases de datos para análisis posteriores. Al final de este curso los alumnos debiesen tener la capacidad de acceder a nuevas fuentes de datos para su análisis. Esta habilidad es de gran utilidad práctica porque más y más información es generada, almacenada y —de alguna manera— disponible en Internet.

Resultados del aprendizaje

Al finalizar este curso los/las estudiantes debieran ser capaces de:

  • Evaluar distintas formas de captura de datos desde páginas web
  • Aplicar técnicas para obtener información desde páginas web
  • Manejar el acceso a información de servicios web mediante APIs.
  • Aplicar expresiones regulares y programación funcional para la manipulación de datos.

Contenidos:

  • Comprensión de la estructura y funcionamiento de una página web.
  • Realizar web scraping mediante el paquete [rvest] y [polite].
  • Acceder y modificar información en planillas de Google Sheets mediante el [googlesheets4].
  • Capturar información y tweets en Twitter mediante el paquete [rtweet].
  • Limpiar y modificar caracteres mediante expresiones regulares ([stringr]).
  • Programación funcional para manejar sobre estructuras de datos como JSON o listas mediante funciones del paquete [purrr].

Metodología de enseñanza y aprendizaje:

  • Clases expositivas en línea vía Zoom.
  • Cápsulas grabadas con contenido de clases.
  • Material docente en plataforma virtual.
  • Talleres prácticos para utilizar las herramientas vistas en clases.
  • Ejercicios prácticos.

Evaluación de los aprendizajes:

  • Tareas:                      60%
  • Proyecto final:           40% 

Requisitos Aprobación

Para aprobar el Diplomado, se requiere:

Aprobar con nota no inferior a 4.0 en una escala de 1.0 a 7.0, cada uno de los cursos de acuerdo a la siguiente ponderación:

El promedio final del Diplomado será el promedio de la nota final de cada curso con las siguientes ponderaciones (en una escala de 1,0 a 7,0):

  • Nota final Curso Procesamiento Avanzado de Bases de Datos = 50%
  • Nota final Curso Visualización de datos usando R= 25%
  • Nota final Curso Webscraping y acceso a datos desde la web 25%

Los alumnos que aprueben las exigencias del programa recibirán un certificado digital de aprobación otorgado por la Pontificia Universidad Católica de Chile.

El alumno que no cumpla con una de estas exigencias reprueba automáticamente sin posibilidad de ningún tipo de certificación.

Proceso de Admisión

Las personas interesadas deberán completar la ficha de postulación que se encuentra al costado derecho de esta página web  y enviar los siguientes documentos al momento de la postulación o de manera posterior a la coordinación a cargo:  

  • Currículum vitae actualizado.
  • Copia simple de título o licenciatura (de acuerdo a cada programa).
  • Fotocopia simple del carnet de identidad por ambos lados.

Con el objetivo de brindar las condiciones y asistencia adecuadas, invitamos a personas con discapacidad física, motriz, sensorial (visual o auditiva) u otra, a dar aviso de esto durante el proceso de postulación.

El postular no asegura el cupo, una vez inscrito o aceptado en el programa se debe pagar el valor completo de la actividad para estar matriculado.

No se tramitarán postulaciones incompletas.

Puedes revisar aquí más información importante sobre el proceso de admisión y matrícula.


¿Te parece interesante este programa?

No