Diplomado en WebScraping y visualización de datos sociales en R - Online - clases en vivo*

El Diplomado permite aprender a presentar, identificar y mejorar la captura de datos de manera visual para comunicar efectivamente los resultados de la exploración y análisis de datos en el software estadístico R.

15% de descuento para matrículas hasta el 15 de diciembre de 2021.


Descripción

Este diplomado, compuesto de tres cursos, entrega herramientas modernas para la extracción, construcción, análisis y visualización de datos en R. 

El primer curso aborda aspectos avanzados en el procesamiento de bases de datos en R, tales como manipulación y análisis de estructuras de datos complejas, buenas prácticas de programación y producción de reportes automatizados y replicables. Al final del curso los alumnos podrán analizar bases de datos de mediana a avanzada complejidad. 
El segundo curso aborda la representación de distintos tipos de datos, a través de gráficos, mapas y dashboards, así como diferentes elementos visuales (posición, color, forma, etc,) que permitan comunicar efectivamente los resultados de la exploración y análisis de datos.
El tercer curso cubre distintas formas de extraer datos de manera programática utilizando R, a partir de información semi-estructurada almacenada en la web. El curso también cubre herramientas de limpieza y construcción bases de datos para análisis posteriores.
Al finalizar este diplomado los y las estudiantes tendrán las competencias necesarias para extraer, manera programática, datos semi-estructurado desde la web y almacenar dicha información en formatos idóneos para su manipulación, análisis y visualización en R.
El desarrollo de los contenidos será en el programa R, un software estadístico gratuito y de código abierto que se encuentra entre los más utilizados en ámbitos académicos e investigación aplicada.
El diplomado se desarrollará en modalidad on line – clases en vivo y utilizará las siguientes estrategias de enseñanza:
- Clases sincrónicas: Clases expositivas online, vía zoom. Se realizará discusión de textos y aprendizaje basado en problemas; trabajos aplicados y breves presentaciones en clase de los estudiantes.
- Clases asincrónicas: clases expositivas y/o tutoriales disponibles a través de videos pre-grabados que los y las estudiantes pueden obtener desde el Classroom.

 

Dirigido a

El Diplomado está dirigido a profesionales o licenciados de diversas áreas de las ciencias sociales, humanidades, comunicaciones o educación, que necesiten aprender a utilizar el software R para el procesamiento, visualización y presentación de datos, así como para ampliar el repertorio de fuentes de datos a su disposición para posteriores análisis cuantitativos.

Prerrequisitos
  • Grado académico o título profesional, obtenido en universidades chilenas o extranjeras, equivalente al grado de licenciado que confiere la Pontificia Universidad Católica de Chile. 
  • Se sugiere conocimiento intermedio del idioma inglés para lectura de bibliografía.
  • Se necesita formación previa en análisis de datos.
Objetivo de aprendizaje
  1. Procesar bases de datos para el análisis estadístico de éstos, utilizando el programa R. 
  2. Comunicar datos a través de la utilización de distintos elementos visuales.
  3. Analizar fenómenos sociales a través de la información obtenida desde la web.
Desglose de cursos

El Diplomado consta de la realización de tres cursos: 

CURSO PROCESAMIENTO AVANZADO DE BASES DE DATOS10 CRÉDITOS CURSO VISUALIZACIÓN DE DATOS CON R5 CRÉDITOS WEB SCRAPING Y ACCESO A DATOS DESDE LA WEB5 CRÉDITOS

NOMBRE CURSO: PROCESAMIENTO AVANZADO DE BASES DE DATOS 
Nombre curso en inglés: Advanced Processing of Databases CourseSigla VRA: SOL4001
Horas cronológicas: 54 horas
Horas pedagógicas: 72 horas
Créditos: 10


DESCRIPCIÓN DEL CURSO:

Este curso aborda aspectos avanzados en el procesamiento de bases de datos secundarias, tanto en términos de manejo de variables como de consolidación de bases de datos (creación, traspaso de archivos, combinar archivos, cambiar de unidad de análisis). Además, los alumnos podrán tener la experiencia de trabajar con las más importantes bases de datos de encuestas disponibles de manera gratuita en y/o sobre Chile. Al final del curso se espera que los alumnos puedan enfrentar demandas de mediana a avanzada complejidad que impliquen el procesamiento de primera mano de distintas bases de datos disponibles en el país. 


RESULTADOS DE APRENDIZAJE:

Al finalizar este curso los/las estudiantes debieran ser capaces de: 

  1. Desarrollar destrezas en la creación y procesamiento avanzado de bases de datos para el análisis estadístico de éstos, utilizando software estadístico. 
  2. Entrenarse en la construcción de variables complejas combinando variables provenientes de distintas bases de datos. 
  3. Conocer y evaluar las fortalezas y debilidades de las principales encuestas disponibles para analizar en y/o sobre Chile. 
  4. Analizar y discutir acerca de los principales desafíos éticos que implica el trabajo con bases de datos secundarias. 

CONTENIDOS:

  • Construcción de bases de datos utilizando software estadístico R.
  • Identificación de unidad de análisis y selección de la más adecuada frente a distintos tipos de demandas de información. Filtro de casos y agregar datos.
  • Homologación de casos para la construcción de bases de datos longitudinales tipo panel, así como para la construcción de bases de datos agregadas. 
  • Homologación de variables para la construcción de bases de datos longitudinales tipo tendencia.
  • Revisión de las principales bases de datos de encuestas disponibles de manera gratuita en y/o sobre Chile.
  • Principales desafíos éticos que implica el trabajo con bases de datos secundarias.

METODOLOGÍA DE ENSEÑANZA Y APRENDIZAJE:

Este curso se desarrollará en modalidad on line – clases en vivo y utilizará las siguientes estrategias de enseñanza:

  • Clases sincrónicas: Clases expositivas online, vía zoom. Discusión de textos y aprendizaje basado en problemas; trabajos aplicados y breves presentaciones en clase de los estudiantes.
  • Clases asincrónicas: clases expositivas y/o tutoriales disponibles a través de videos pre-grabados disponibles para los y las estudiantes a través de Classroom. 

EVALUACIÓN DE LOS APRENDIZAJES:

  1. Realización de tres ejercicios prácticos (60%).
  2. Un examen final práctico (40%).

NOMBRE CURSO: VISUALIZACIÓN DE DATOS USANDO R
Nombre en inglés: Data Visualization using R.Sigla VRA: SOL 4043
Horas cronológicas: 21 
Horas pedagógicas: 28
Créditos: 5

DESCRIPCIÓN DEL CURSO:

Este curso, usando una metodología de aprendizaje basada en problemas, está diseñado para profesionales de las ciencias sociales que posean formación previa en análisis de datos y que tengan conocimientos básicos de importación, exportación y manipulación de datos en R. Al finalizar el curso, se espera que los estudiantes, usando el lenguaje de programación R, sean capaces de representar distintos tipos de datos, a través de gráficos, mapas y dashboards, así como usar diferentes elementos visuales (posición, color, forma, etc,) que permitan comunicar efectivamente los resultados de la exploración y análisis de datos


RESULTADOS DEL APRENDIZAJE:

Al finalizar este curso los/las estudiantes debieran ser capaces de:

  • Representar montos, distribuciones, proporciones, relaciones entre variables, series de tiempo e incertidumbre por medio de gráficos.
  • Usar elementos visuales tales como: posición, forma, tamaño, color, ancho y tipo de línea para comunicar efectivamente datos.
  • Usar mapas para representar datos geolocalizados y variables asociadas a un territorio determinado (por ejemplo, comuna, región o país).
  • Representar visualmente redes de interacción social.
  • Construir de dashboards a partir de mapas, datos censales, encuestas socioeconómicas y registros administrativos, entre otros.
  • Usar R Markdown para la presentación de informes y la construcción de dashboards.

CONTENIDOS: 

 

 

 

  1. Percepción y visualización de datos.
  2. Elementos de R Markdown.
  3. Representación de montos, distribuciones, proporciones, relaciones entre variables, series de tiempo e incertidumbre.
  4. Visualización de redes.
  5. Mapas
  6. Dashboards

METODOLOGÍA DE ENSEÑANZA Y APRENDIZAJE:

Este curso se desarrollará en modalidad on line – clases en vivo y utilizará las siguientes estrategias de enseñanza:

  • Clases sincrónicas: Clases expositivas online, vía zoom. Discusión de textos y aprendizaje basado en problemas; trabajos aplicados y breves presentaciones en clase de los estudiantes.
  • Clases asincrónicas: clases expositivas y/o tutoriales disponibles a través de videos pre-grabados disponibles para los y las estudiantes a través de Classroom. 

Evaluación de los aprendizajes:

  • Trabajos: 70%
  • Examen final: 30% 

NOMBRE CURSO: WEB SCRAPING Y ACCESO A DATOS DESDE LA WEB
Nombre en inglés: Web Scraping and web data access
Horas cronológicas: 25
Horas pedagógicas: 28
Créditos: 5

Descripción del curso:

Este curso explorará distintas formas de acceder a datos desde la Web (Internet) de manera programática utilizando R. Se mostrará también técnicas para limpiar, tabular y crear bases de datos para análisis posteriores. Al final de este curso los alumnos debiesen tener la capacidad de acceder a nuevas fuentes de datos para su análisis. Esta habilidad es de gran utilidad práctica porque más y más información es generada, almacenada y —de alguna manera— disponible en Internet.

Resultados del Aprendizaje:

Al finalizar este curso los/las estudiantes debieran ser capaces de:

  • Evaluar distintas formas de captura de datos desde páginas web
  • Aplicar técnicas para obtener información desde páginas web‐ Manejar el acceso a información de servicios web mediante APIs.
  • Aplicar expresiones regulares y programación funcional para la manipulación de datos.

Contenidos: 

 

 

 

  1. Comprensión de la estructura y funcionamiento de una página web.
  2. Realizar web scraping mediante el paquete [rvest] y [polite].
  3. Acceder y modificar información en planillas de Google Sheets mediante el [googlesheets4].
  4. Capturar información y tweets en Twitter mediante el paquete [rtweet].
  5. Limpiar y modificar caracteres mediante expresiones regulares ([stringr]).
  6. Programación funcional para manejar sobre estructuras de datos como JSON o listas mediante funciones del paquete [purrr].

Metodología de enseñanza y aprendizaje:

  • Clases expositivas en línea vía Zoom. 
  • Cápsulas grabadas con contenido de clases.
  • Material docente en plataforma virtual.
  • Talleres prácticos para utilizar las herramientas vistas en clases. 
  • Ejercicios prácticos.

Evaluación de los aprendizajes:

  • Tareas: 60%
  • Proyecto final: 40% 

 

Equipo Docente

JEFE DE PROGRAMA

Mauricio Bucca 
Profesor asistente del Instituto de Sociología de la Pontificia Universidad Católica de Chile. Sociólogo UC, Doctor en Sociología de la Universidad de Cornell y Max Weber Postdoctoral Fellow en el Instituto Universitario Europeo. 

Estudia las desigualdades del mercado laboral, movilidad social intergeneracional y creencias sobre la desigualdad, utilizando una combinación de modelación estadística, estrategias empíricas para inferencia causal y métodos experimentales y computacionales.
Desde 2019, realiza cursos sobre Análisis de datos categóricos; Análisis de datos y programación en R; Métodos de simulación y remuestreo para pruebas de inferencia e hipótesis; e Introducción a los métodos cuantitativos. Su trabajo ha sido publicado en revistas académicas como Science Advances, Sociological Methods and Research, RSF: The Russell Sage Foundation Journal of the Social Sciences, Research in Social Stratification and Mobility.

EQUIPO DOCENTE

Mauricio Bucca 
Sociólogo, Pontificia Universidad Católica de Chile. Doctor en Sociología, Universidad de CornellProfesor Instituto de Sociología UC 


Víctor Macías
Ingeniero Comercial de la Universida dde Chile. Magíster en Economía de la Universidad de ChileDoctor en Economía de la Universidad de Maryland. Académico de la Universidad de Chile y la Universidad Diego Portales en las siguientes áreas: Entorno económico para los negocios, Tópicos en economía y negocios usando R, Econometría financiera, Introducción a Fintech y R para Finanzas, Evaluación de Impacto, Análisis Predictivo, Innovación Financiera. 


Cristián Ayala
Ingeniero Civil Industrial de la Pontificia Universidad Católica de Chile. Magíster en Sociología UC. Director del Departamento de Estudios Sociales del Instituto de Sociología UC (DESUC).Amplia experiencia en estudios vinculados al sector público y privado, con diversas metodologías y técnicas de análisis. Especialista en el diseño y levantamiento de estudios cuantitativos complejos y la aplicación de estudios a través de plataformas digitales.


Además, se incorporarán al equipo uno o dos ayudantes que guiarán y asistirán a los docentes durante algunas de las clases.

Requisitos de aprobación

Para aprobar el Diplomado, se requiere:

  1. Aprobar con nota no inferior a 4.0 en una escala de 1.0 a 7.0, cada uno de los cursos de acuerdo a la siguiente ponderación:

El promedio final del Diplomado será el promedio de la nota final de cada curso con las siguientes ponderaciones (en una escala de 1,0 a 7,0):

  • Nota final Curso Procesamiento Avanzado de Bases de Datos = 50% 
  • Nota final Curso Visualización de datos usando R= 25%
  • Nota final Curso Webscraping y acceso a datos desde la web 25%

- Los alumnos que aprueben las exigencias del programa recibirán un Certificado de aprobación otorgado por la Pontificia Universidad Católica de Chile.
- El alumno que no cumpla con una de estas exigencias reprueba automáticamente sin posibilidad de ningún tipo de certificación.

Bibliografía
Curso: Procesamiento avanzado de bases de datos
  • Básicos (disponibles en la UC): · Hadley Wickham (2009), ggplot2 Elegant Graphics for Data Analysis. Springer  
  • Bradley C. Boehmke (2016), Data Wrangling with R. Springer
  • Robert Kabacoff (2015), R in Action Data Analysis and Graphics with R. Manning Publications
  • Keon-Woong Moon (2016), Learn ggplot2 Using Shiny App. Springer
  • Matt Wiley, Joshua F. Wiley (2016), Advanced R. Data Programming and the Cloud. Apress.
Otros:
  • Hadley Wickham (2015) Advanced R, CRC Press, Taylor & Francis Group, Boca Raton,FL. 
  • Hadley Wickham and Garrett Grolemund (2017). R for Data Science. Import, Tidy, Transform, Visualize, and Model Data. O’Reilly Media, Inc., 
  • Garrett Grolemund (2014). Hands-On Programming with R. O’Reilly Media, Inc., 
  • Chris Beeley (2013). Web Application Development with R Using Shiny. Packt Publishing.
  • Winston Chang (2013). R Graphics Cookbook. O’Reilly Media, Inc., 
  • Yihui Xie (2013). Dynamic Documents with R and knitr. O’Reilly Media, Inc., 
Curso: Visualización de datos usando R
Mínima
  • Wickham, H. y G. Grolemund. 2017. R for data science. O’Reilly Media. 1a Edición.https://r4ds.had.co.nz/
  • Tennekes, M. 2018. tmap: Thematic Maps in R, Journal of Statistical Software. Vol. 84(6).https://www.jstatsoft.org/article/view/v084i06 
  • Xie, Y., Allaire, J.J. y G. Grolemund. 2019. R Markdown: The definitive guide. CRC Press.https://bookdown.org/yihui/rmarkdown/
Complementaria:
  • Healy, K. 2019. Data visualization: a practical introduction. Princeton University Press. 1a. Edición.
  • Sosulski, K. 2019. Data visualization made simple: insights into becoming visual. Routledge. 1a. Edición.
  • Tufte, E. 2001. The visual display of quantitative information. Graphics. 2a. Edición.
  • Ware, C. 2013. Information visualization: perception for design. Waltham, Ma: Morgan Kaufman. 3a Edición.
  • Wickham, H. 2016. ggplot2: Elegant Graphics for Data Analysis (Use R!). Springer. 2a Edición.
  • Wilke, C. 2019. Fundamentals of data visualization. O’Reilly. 1a Edición.
Curso: WebScraping y acceso a datos desde la web

El material del curso es auto--contenido, no siendo necesarias lecturas obligatorias. Se sugieren el siguiente material para reforzar el uso de R y revisar la documentación en línea de cada uno de los paquetes que se utilizarán en este curso. Todo el material complementario está disponible gratuitamente en sus respectivas páginas web.

Bibliografía complementaria:
  • Wickham, Hadley. 2019. Advanced R. CRC press. https://adv-r.hadley.nz. 
  • Wickham, Hadley, y Garrett Grolemund. 2017. «R for data science». https://r4ds.had.co.nz. 
  • Wickham, Hadley, y Garrett Grolemund. 2017. «R para ciencia de datos». https://es.r4ds.hadley.nz.
  • Xie, Yihui, J. J. Allaire, y Garrett Grolemund. 2021. R Markdown: The Definitive Guide. Chapman & Hall/CRC. https://bookdown.org/yihui/rmarkdown/. 
Documentación de paquetes a revisar en el curso:
  • [rvest]: https://rvest.tidyverse.org
  • [purrr]: https://purrr.tidyverse.org
  • [stringr]: https://stringr.tidyverse.org
  • [polite]: https://dmi3kno.github.io/polite/
  • [googlesheets4]: https://googlesheets4.tidyverse.org
  • [rtweet]: https://docs.ropensci.org/rtweet/
Proceso de Admisión

Las personas interesadas deberán completar la ficha de postulación que se encuentra en http://www.educacioncontinua.uc.cl/ y enviar los siguientes documentos a Francisca Campos al correo frcampos@uc.cl 

  • Currículum Vitae actualizado con foto 
  • Copia simple de título o licenciatura 
  • Fotocopia simple del carnet de identidad por ambos lados. 

- Tras la revisión de antecedentes, los y las postulantes aceptados/as serán confirmados a través de un correo electrónico. En algunos casos, será necesario llamar a entrevista presencial o telefónica para verificar, especialmente, manejo de algunos contenidos. 

VACANTES: 15
Las postulaciones son hasta completar las vacantes.

- El Programa se reserva el derecho de suspender la realización del diplomado/curso si no cuenta con el mínimo de alumnos requeridos. En tal caso se devuelve a los alumnos matriculados la totalidad del dinero en un plazo aproximado de 10 días hábiles.
- A las personas matriculadas que se retiren de la actividad antes de la fecha de inicio, se les devolverá el total pagado menos el 10% del total del arancel.

Importante- Sobre retiros y suspensiones-

  • La coordinación del programa se reserva el derecho de suspender o reprogramar la realización de la actividad si no cuenta con el mínimo de alumnos requeridos o por motivos de fuerza mayor. En tal caso se devuelve a los alumnos matriculados la totalidad del dinero a la brevedad posible con un máximo de 10 días hábiles. La devolución se efectuará con depósito en la cuenta (corriente o vista) que indique el alumno o a través de un vale vista que deberá ser retirado en cualquier sucursal del Banco Santander.
  • A las personas matriculadas que se retiren de la actividad antes de la fecha de inicio, se les devolverá el total pagado menos el 10% del valor del programa.* A las personas que se retiren una vez iniciada la actividad, se les cobrará las horas o clases cursadas o asistidas y materiales entregados a la fecha de la entrega de solicitud formal de retiro más el 10% del valor del programa* La solicitud de retiro debe realizarse a la coordinación a cargo y hasta antes de que el 50% de la actividad se haya desarrollado (Reglamento de alumno de Educación Continua). En ambos casos la devolución, demorará cómo máximo 15 días hábiles y se efectuará con depósito en la cuenta (corriente o vista) que indique el alumno o a través de un vale vista que deberá ser retirado en cualquier sucursal del Banco Santander. *El 10% corresponde al uso de vacante y se calcula en base al precio publicado, no el valor final pagado.
SOLICITAR MÁS INFORMACIÓN
POSTULA AQUÍ


Otros programas que pueden ser de su interés

imagen

Diplomado en Análisis Estadístico de Datos Sociales

imagen

Diplomado en Desafíos sociales contemporáneos: claves para su comprensión

imagen

Diplomado en Investigación cualitativa para estudios sociales: fundamentos, técnicas y análisis para el trabajo profesional

Mantente conectado a nuestras redes sociales