Webscraping y acceso a datos desde la web

Estudia en la Universidad N°1 de habla hispana en Latinoamérica 2024 por QS World University Rankings

Acerca del programa:

El curso Webscraping y acceso a datos desde la web, está dirigido a profesionales que necesitan identificar ampliar o mejorar sus herramientas en la captura de datos disponibles en la web. Este curso se encuentra articulado con el Diploma en Web Scraping y Visualización de datos en R, impartido por el Instituto de Sociología UC.


Dirigido a:

El curso está dirigido a profesionales o licenciados de diversas áreas de las ciencias sociales, humanidades, comunicaciones o educación, que deseen ampliar el repertorio de fuentes de datos a su disposición para posteriores análisis cuantitativos.


Jefe de Programa

Mauricio Bucca

Profesor asistente del Instituto de Sociología de la Pontificia Universidad Católica de Chile. Sociólogo UC, Doctor en Sociología de la Universidad de Cornell y Max Weber Postdoctoral Fellow en el Instituto Universitario Europeo. Estudia las desigualdades del mercado laboral, movilidad social intergeneracional y creencias sobre la desigualdad, utilizando una combinación de modelación estadística, estrategias empíricas para inferencia causal y métodos experimentales y computacionales.

Equipo Docente

keyboard_arrow_down

Cristián Ayala

Ingeniero Civil Industrial de la Pontificia Universidad Católica de Chile. Magíster en Sociología UC. Director del Departamento de Estudios Sociales del Instituto de Sociología UC (DESUC).Amplia experiencia en estudios vinculados al sector público y privado, con diversas metodologías y técnicas de análisis. Especialista en el diseño y levantamiento de estudios cuantitativos complejos y la aplicación de estudios a través de plataformas digitales.

Además, se incorporarán al equipo uno o dos ayudantes que guiarán y asistirán a los docentes durante algunas de las clases.

Descripción

Internet es una fuente importante de datos para las ciencias sociales y humanidades. Puede tratarse de datos alojados en páginas web, habitualmente en formato html o accediendo a servicios como Google Sheets, YouTube o Twitter mediante APIs provistas por esas empresas. En varios casos se han desarrollado paquetes de R para recuperar información desde ellos de manera fácil e intuitiva.

Este curso explorará distintas formas de acceder a ellos de manera programática utilizando R. Se mostrará también técnicas para limpiar, tabular y crear bases de datos para análisis posteriores.

Al final de este curso los alumnos debiesen tener la capacidad de acceder a nuevas fuentes de datos para su análisis. Esta habilidad es de gran utilidad práctica porque más y más información es generada, almacenada y —de alguna manera— disponible en Internet.

El curso se desarrollará en modalidad online – clases en vivo y utilizará las siguientes estrategias de enseñanza:

  • Clases sincrónicas: Clases expositivas online, vía Zoom. Se realizará discusión de textos y aprendizaje basado en problemas; trabajos aplicados y breves presentaciones en clase de los estudiantes.
  • Clases asincrónicas: clases expositivas y/o tutoriales disponibles a través de videos pre-grabados que los y las estudiantes pueden obtener desde el Classroom. 

Requisitos de Ingreso

  • Grado académico o título profesional obtenido en universidades chilenas o extranjeras
  • Currículum vitae con antecedentes curriculares
  • Es deseable conocimiento intermedio del idioma inglés para lectura de bibliografía.
  • Se necesita formación previa en análisis y procesamiento de datos sociales.
  • Se necesita formación previa en software R.

Objetivos de Aprendizaje

  • Analizar fenómenos sociales a través de la información obtenida desde la web.
  • Entender el funcionamiento y estructura de una página web con miras a identificar información posible de capturar programáticamente.
  • Seleccionar y dominar distintas técnicas de captura de datos en la web según las finalidades de investigación que se desee enfrentar.
  • Obtener información de servicios web mediante sus APIs y librerías diseñadas para ello.
  • Ampliar y mejorar la capacidad de limpieza de datos mediante expresiones regulares y programación funcional utilizando paquetes del tidyverse.

Metodología

  • Clases expositivas en línea vía Zoom.
  • Cápsulas grabadas con contenido de clases.
  • Material docente en plataforma virtual.
  • Talleres prácticos para utilizar las herramientas vistas en clases.
  • Ejercicios prácticos.

Desglose de cursos

Resultados del aprendizaje

  • Evaluar distintas formas de captura de datos desde páginas web
  • Aplicar técnicas para obtener información desde páginas web
  • Manejar el acceso a información de servicios web mediante APIs.
  • Aplicar expresiones regulares y programación funcional para la manipulación de datos.

 Contenidos:

  • Comprensión de la estructura y funcionamiento de una página web.
  • Realizar web scraping mediante el paquete [rvest].
  • Acceder y modificar información en planillas de Google Sheets mediante el [googlesheets4].
  • Limpiar y modificar caracteres mediante expresiones regulares ([stringr]).
  • Programación funcional para manejar sobre estructuras de datos como JSON o listas mediante funciones del paquete [purrr].
  • Capturar información y tweets en Twitter mediante el paquete [rtweet].

Evaluación

  • Tareas:                      60%
  • Proyecto final:          40% 

Requisitos Aprobación

Para aprobar el Curso, se requiere:

  •  Aprobar con nota no inferior a 4.0 en una escala de 1.0 a 7.0

Los alumnos que aprueben las exigencias del programa recibirán un certificado digital de aprobación otorgado por la Pontificia Universidad Católica de Chile.

El alumno que no cumpla con una de estas exigencias reprueba automáticamente sin posibilidad de ningún tipo de certificación.

Proceso de Admisión

Las personas interesadas deberán completar la ficha de postulación que se encuentra al costado derecho de esta página web  y enviar los siguientes documentos al momento de la postulación o de manera posterior a la coordinación a cargo:  

  • Currículum vitae actualizado.
  • Copia simple de título o licenciatura (de acuerdo a cada programa).
  • Fotocopia simple del carnet de identidad por ambos lados.

Con el objetivo de brindar las condiciones y asistencia adecuadas, invitamos a personas con discapacidad física, motriz, sensorial (visual o auditiva) u otra, a dar aviso de esto durante el proceso de postulación.

El postular no asegura el cupo, una vez inscrito o aceptado en el programa se debe pagar el valor completo de la actividad para estar matriculado.

No se tramitarán postulaciones incompletas.

Puedes revisar aquí más información importante sobre el proceso de admisión y matrícula.


¿Te parece interesante este programa?

No