Webscraping y acceso a datos desde la web - Online - clases en vivo*

El curso está dirigido a profesionales que necesitan identificar ampliar o mejorar sus herramientas en la captura de datos disponibles en la web. Este curso se encuentra articulado con el Diploma en Webscraping y Visualización de datos en R, impartido por el Instituto de Sociología UC.


Descripción

Internet es una fuente importante de datos para las ciencias sociales y humanidades.  Puede tratarse de datos alojados en páginas web, habitualmente en formato html o accediendo a servicios como Google Sheets, YouTube o Twitter mediante APIs provistas por esas empresas. En varios casos se han desarrollado paquetes de R para recuperar información desde ellos de manera fácil e intuitiva. 
Este curso explorará distintas formas de acceder a ellos de manera programática utilizando R. Se mostrará también técnicas para limpiar, tabular y crear bases de datos para análisis posteriores.
Al final de este curso los alumnos debiesen tener la capacidad de acceder a nuevas fuentes de datos para su análisis. Esta habilidad es de gran utilidad práctica porque más y más información es generada, almacenada y —de alguna manera— disponible en Internet.
El curso se desarrollará en modalidad on line – clases en vivo y utilizará las siguientes estrategias de enseñanza: 
- Clases sincrónicas: Clases expositivas online, vía zoom. Se realizará discusión de textos y aprendizaje basado en problemas; trabajos aplicados y breves presentaciones en clase de los estudiantes.- Clases asincrónicas: clases expositivas y/o tutoriales disponibles a través de videos pre-grabados que los y las estudiantes pueden obtener desde el Classroom.

Dirigido a

El curso está dirigido a profesionales o licenciados de diversas áreas de las ciencias sociales, humanidades, comunicaciones o educación, que deseen ampliar el repertorio de fuentes de datos a su disposición para posteriores análisis cuantitativos.

Prerrequisitos

Grado académico o título profesional, obtenido en universidades chilenas o extranjeras, equivalente al grado de licenciado que confiere la Pontificia Universidad Católica de Chile. 

  • Currículum vitae con antecedentes curriculares. 
  • Es deseable conocimiento intermedio del idioma inglés.
  • Se necesita formación previa en análisis y procesamiento de datos sociales. 
  • Se necesita formación previa en software R.
Objetivo de aprendizaje
  1. Analizar fenómenos sociales a través de la información obtenida desde la web.
  2. Entender el funcionamiento y estructura de una página web con miras a identificar información posible de capturar programáticamente.
  3. Seleccionar y dominar distintas técnicas de captura de datos en la web según las finalidades de investigación que se desee enfrentar.
  4. Obtener información de servicios web mediante sus APIs y librerías diseñadas para ello.
  5. Ampliar y mejorar la capacidad de limpieza de datos mediante expresiones regulares y programación funcional utilizando paquetes del tidyverse.
Desglose de cursos

Nombre del curso: Webscraping y acceso a datos desde la web
Nombre en inglés: Webscraping and web data access
Horas cronológicas: 25
Horas presenciales: 21
Horas e-learning:
Horas pedagógicas: 28
Créditos: 5


Resultados del Aprendizaje:

  • Evaluar distintas formas de captura de datos desde páginas web
  • Aplicar técnicas para obtener información desde páginas web
  • Manejar el acceso a información de servicios web mediante APIs.
  • Aplicar expresiones regulares y programación funcional para la manipulación de datos.

Contenidos: 

 

  1. Comprensión de la estructura y funcionamiento de una página web.
  2. Realizar web scraping mediante el paquete [rvest] y [polite].
  3. Acceder y modificar información en planillas de Google Sheets mediante el [googlesheets4].
  4. Capturar información y tweets en Twitter mediante el paquete [rtweet].
  5. Limpiar y modificar caracteres mediante expresiones regulares ([stringr]).
  6. Programación funcional para manejar sobre estructuras de datos como JSON o listas mediante funciones del paquete [purrr].
Equipo Docente

JEFE DE PROGRAMA

Mauricio Bucca 
Profesor asistente del Instituto de Sociología de la Pontificia Universidad Católica de Chile. Sociólogo UC, Doctor en Sociología de la Universidad de Cornell y Max Weber Postdoctoral Fellow en el Instituto Universitario Europeo. 

Estudia las desigualdades del mercado laboral, movilidad social intergeneracional y creencias sobre la desigualdad, utilizando una combinación de modelación estadística, estrategias empíricas para inferencia causal y métodos experimentales y computacionales.
Desde 2019, realiza cursos sobre Análisis de datos categóricos; Análisis de datos y programación en R; Métodos de simulación y remuestreo para pruebas de inferencia e hipótesis; e Introducción a los métodos cuantitativos. Su trabajo ha sido publicado en revistas académicas como Science Advances, Sociological Methods and Research, RSF: The Russell Sage Foundation Journal of the Social Sciences, Research in Social Stratification and Mobility.

EQUIPO DOCENTE

Cristián Ayala
Ingeniero Civil Industrial de la Pontificia Universidad Católica de Chile. Magíster en Sociología UC. Director del Departamento de Estudios Sociales del Instituto de Sociología UC (DESUC).Amplia experiencia en estudios vinculados al sector público y privado, con diversas metodologías y técnicas de análisis. Especialista en el diseño y levantamiento de estudios cuantitativos complejos y la aplicación de estudios a través de plataformas digitales.

Además, se incorporarán al equipo uno o dos ayudantes que guiarán y asistirán a los docentes durante algunas de las clases.

Metodología
  • Clases expositivas en línea vía Zoom. 
  • Cápsulas grabadas con contenido de clases.
  • Material docente en plataforma virtual.
  • Talleres prácticos para utilizar las herramientas vistas en clases.
  • Ejercicios prácticos.
Evaluación
  • Tareas: 60%
  • Proyecto final: 40% 
Requisitos de aprobación

Para aprobar el Curso, se requiere:

  1. Aprobar con nota no inferior a 4.0 en una escala de 1.0 a 7.0

- Los alumnos que aprueben las exigencias del programa recibirán un Certificado digital de aprobación otorgado por la Pontificia Universidad Católica de Chile.
- El alumno que no cumpla con una de estas exigencias reprueba automáticamente sin posibilidad de ningún tipo de certificación.

Bibliografía

Bibliografía complementaria:

  • Wickham, Hadley. 2019. Advanced R. CRC press. https://adv-r.hadley.nz. 
  • Wickham, Hadley, y Garrett Grolemund. 2017. «R for data science». https://r4ds.had.co.nz. 
  • Wickham, Hadley, y Garrett Grolemund. 2017. «R para ciencia de datos». https://es.r4ds.hadley.nz. 
  • Xie, Yihui, J. J. Allaire, y Garrett Grolemund. 2021. R Markdown: The Definitive Guide. Chapman & Hall/CRC. https://bookdown.org/yihui/rmarkdown/. 

Documentación de paquetes a revisar en el curso:

  • [rvest]: https://rvest.tidyverse.org
  • [purrr]: https://purrr.tidyverse.org
  • [stringr]: https://stringr.tidyverse.org
  • [polite]: https://dmi3kno.github.io/polite/
  • [googlesheets4]: https://googlesheets4.tidyverse.org
  • [rtweet]: https://docs.ropensci.org/rtweet/
Proceso de Admisión

Las personas interesadas deberán completar la ficha de postulación que se encuentra en http://www.educacioncontinua.uc.cl/ y enviar los siguientes documentos a Francisca Campos al correo frcampos@uc.cl 

  • Currículum Vitae actualizado con foto 
  • Copia simple de título o licenciatura 
  • Fotocopia simple del carnet de identidad por ambos lados. 

- Tras la revisión de antecedentes, los y las postulantes aceptados/as serán confirmados a través de un correo electrónico. En algunos casos, será necesario llamar a entrevista presencial o telefónica para verificar, especialmente, manejo de algunos contenidos. 
- Las postulaciones son hasta completar las vacantes.

VACANTES: 30

- El Programa se reserva el derecho de suspender la realización del diplomado/curso si no cuenta con el mínimo de alumnos requeridos. En tal caso se devuelve a los alumnos matriculados la totalidad del dinero en un plazo aproximado de 10 días hábiles.
- A las personas matriculadas que se retiren de la actividad antes de la fecha de inicio, se les devolverá el total pagado menos el 10% del total del arancel.

Importante- Sobre retiros y suspensiones-

  • La coordinación del programa se reserva el derecho de suspender o reprogramar la realización de la actividad si no cuenta con el mínimo de alumnos requeridos o por motivos de fuerza mayor. En tal caso se devuelve a los alumnos matriculados la totalidad del dinero a la brevedad posible con un máximo de 15 días hábiles. La devolución se efectuará con depósito en la cuenta (corriente o vista) que indique el alumno o a través de un vale vista que deberá ser retirado en cualquier sucursal del Banco Santander. 
  • A las personas matriculadas que se retiren de la actividad antes de la fecha de inicio, se les devolverá el total pagado menos el 10% del valor del programa.* A las personas que se retiren una vez iniciada la actividad, se les cobrará las horas o clases cursadas o asistidas y materiales entregados a la fecha de la entrega de solicitud formal de retiro más el 10% del valor del programa*La solicitud de retiro debe realizarse a la coordinación a cargo y hasta antes de que el 50% de la actividad se haya desarrollado (Reglamento de alumno de Educación Continua).   En ambos casos la devolución, demorará cómo máximo 15 días hábiles y se efectuará con depósito en la cuenta (corriente o vista) que indique el alumno o a través de un vale vista que deberá ser retirado en cualquier sucursal del Banco Santander. *El 10% corresponde al uso de vacante y se calcula en base al precio publicado, no el valor final pagado.

Para cursos (con inscripción)

Las personas interesadas deberán completar la ficha de inscripción ubicada al lado derecho de esta página web.
- Las inscripciones son hasta completar las vacantes.- Si el pago lo efectúa su empresa, el encargado de capacitación de su empresa debe ingresar el requerimiento en “Inscripción Empresa”, subiendo ficha de inscripción con firma y timbre además de ODC, OTIC, OC CM.- El inscribirse no asegura el cupo, una vez inscrito en el programa, se debe cancelar el valor para estar matriculado.

SOLICITAR MÁS INFORMACIÓN
ACTIVIDAD NO DISPONIBLE
PARA INSCRIPCIÓN

POR FAVOR DÉJENOS SU CONSULTA
Y LO CONTACTAREMOS

Mantente conectado a nuestras redes sociales