Acerca del programa:
El curso Técnicas de big data para machine learning entrega las principales técnicas que marcan el estado del arte y la agenda de investigación en el análisis de fuentes masivas de información, conocidas como el paradigma Big Data.

Dirigido a:
- Profesionales que necesiten adquirir las competencias necesarias para construir aplicaciones de Big Data y Machine Learning usando las herramientas del ecosistema Hadoop y Apache Spark.
- Interesados en el área de Ciencia de Datos que deseen adquirir habilidades para recolectar y analizar grandes volúmenes de datos.
Jefe de Programa
Equipo Docente
keyboard_arrow_downGabriel Sepúlveda
Ingeniero Civil Electrónico, con Mención en Control Automático, Mención Complementaria Computadores, Universidad Técnica Federico Santa María. Candidato a Doctor en Ciencias de la Ingeniería en el área de Ciencias de la Computación, Pontificia Universidad Católica de Chile. Profesor Instructor, Departamento de Ciencia de la Computación, Escuela de Ingeniería, Pontificia Universidad Católica de Chile.
Iván Lillo
Doctor en Ciencias de la Ingeniería, Pontificia Universidad Católica de Chile. Magíster en Ciencias de la Ingeniería, Pontificia Universidad Católica de Chile. Ingeniero Civil Electricista, Pontificia Universidad Católica de Chile. Profesor Instructor, Departamento de Ciencia de la Computación, Escuela de Ingeniería, Pontificia Universidad Católica de Chile.
* EP (Educación Profesional) de la Escuela de Ingeniería se reserva el derecho de remplazar, en caso de fuerza mayor, a él o los profesores indicados en este programa; y de asignar al docente que dicta el programa según disponibilidad de los profesores.
Descripción
keyboard_arrow_downGrandes repositorios de datos han comenzado a surgir en diversos ámbitos de nuestra sociedad. Estos corresponden a fuentes de información masiva, diversa y distribuida, cuyo análisis efectivo ofrece la oportunidad de obtener valiosa información en distintos ámbitos del quehacer social. Sin embargo, esta gran oportunidad presenta también grandes desafíos debido a la incapacidad de las aplicaciones tradicionales para el manejo de grandes volúmenes de datos.
El presente curso está diseñado para abordar la problemática de Big Data desde la perspectiva del uso de herramientas de manipulación de grandes cantidades de datos y en la aplicación de técnicas de Machine Learning y sistemas computacionales de alto rendimiento sobre grandes fuentes de datos distribuidos.
La metodología de enseñanza y aprendizaje para este curso online consiste en técnicas metodológicas activas, donde el participante puede interactuar con sus pares y el profesor-tutor a través de los recursos tecnológicos proporcionados por la plataforma educativa virtual destinada para el curso.
Requisitos de Ingreso
keyboard_arrow_downSe recomienda contar con conocimientos básicos de programación y de comodidad en manejo de terminal (consola). Para Apache Spark, se enfocará el curso específicamente en lenguaje Python. En particular, debe ser capaz de utilizar controles de flujo, distintos tipos de datos y funciones, y diccionarios con Python.
Si desea evaluar su nivel de Python, puede realizar una prueba opcional gratuita en este link: https://www.hackerrank.com/prueba-python. Se recomienda iniciar los test en orden, ya que van creciendo en dificultad. Los dos últimos tienen un nivel superior al requerido para ingresar al diplomado, y han sido instalados allí sólo como desafío. Si uno de los test falló, se recomienda revisar y ejercitar esos contenidos antes del inicio del programa.
A continuación, ponemos a su disposición algunos cursos optativos por si desea prepararse previamente al inicio del programa:
- MOOC “Introducción a la Programación en Python I: Aprendiendo a programar con Python”, disponible en el siguiente link: https://www.coursera.org/learn/aprendiendo-programar-python.
- Curso “Herramientas de programación en Python para procesamiento de datos”, disponible en el siguiente link: https://teleduc.uc.cl/curso/herramientas-programacion-python-procesamiento-datos/.
Objetivos de Aprendizaje
keyboard_arrow_down- Aplicar técnicas de Machine Learning que puedan escalar al caso de grandes fuentes de datos distribuidos.
Metodología
keyboard_arrow_down- Aprendizaje autónomo asincrónico estructurado en 6 módulos
- Clases expositivas
- Foros
- Estudio de caso
Desglose de cursos
keyboard_arrow_downHoras Totales: 75 | Horas directas: 35 | Horas indirectas: 40
Créditos: 4 créditos.
Resultados del Aprendizaje
- Identificar la problemática y particularidades del manejo de grandes volúmenes de dato en diferentes contextos.
- Distinguir los principios, bases técnicas y herramientas del ecosistema Hadoop.
- Utilizar las herramientas del ecosistema Hadoop para el manejo de volúmenes gigantescos de datos.
- Reconocer el esquema de trabajo Apache Spark para el procesamiento de datos de propósito general.
- Utilizar las principales herramientas del framework Spark para análisis de datos y aplicación de técnicas de Machine Learning.
- Aplicar herramientas de visualización para facilitar la interpretación de resultados.
Contenidos:
- Ecosistema Hadoop
- Introducción a Big Data
- Instalación de herramientas Hadoop
- Herramientas de Ecosistema Hadoop
- Hadoop MapReduce
- Apache Hive
- Apache Pig
- Apache Spark
- Programación en Apache Spark
- Data Analytics con Apache Spark
- Apache Flume
- Spark Streaming
- Spark SQL
- Machine Learning con Apache Spark
- Spark MLLIB: Algoritmos supervisados
- Spark MLLIB: Algoritmos no supervisados
- Técnicas de visualización
- Reducción de dimensionalidad
Evaluación
keyboard_arrow_down- 3 controles individuales – 40%
- 3 mini proyectos individuales – 60%
Requisitos Aprobación
keyboard_arrow_downLos alumnos deberán ser aprobados de acuerdo los criterios que establezca la unidad académica:
- Calificación mínima de todos los cursos 4.0 en su promedio ponderado.
El alumno que no cumpla con estas exigencias reprueba automáticamente sin posibilidad de ningún tipo de certificación.
Los resultados de las evaluaciones serán expresados en notas, en escala de 1,0 a 7,0 con un decimal, sin perjuicio que la Unidad pueda aplicar otra escala adicional.
Los alumnos que aprueben las exigencias del programa recibirán un certificado de aprobación digital otorgado por la Pontificia Universidad Católica de Chile.
Proceso de Admisión
keyboard_arrow_downLas personas interesadas deberán completar la ficha de postulación que se encuentra al costado derecho de esta página web y enviar los siguientes documentos al momento de la postulación o de manera posterior a la coordinación a cargo:
- Currículum vitae actualizado.
Cualquier información adicional o inquietud podrás escribir al correo programas@ing.puc.cl.
VACANTES: 40
INFORMACIÓN RELEVANTE
Con el objetivo de brindar las condiciones de infraestructura necesaria y la asistencia adecuada al inicio y durante las clases para personas con discapacidad: Física o motriz, Sensorial (Visual o auditiva) u otra, los invitamos a informarlo.
El postular no asegura el cupo, una vez inscrito o aceptado en el programa se debe pagar el valor completo de la actividad para estar matriculado.
No se tramitarán postulaciones incompletas.
Puedes revisar aquí más información importante sobre el proceso de admisión y matrícula
Fechas disponibles
Los detalles del programa pueden variar en cada fecha de edición
Fecha | Horario | Lugar | Valor | |
---|---|---|---|---|
30 septiembre 2025 - 25 noviembre 2025 | Asincrónico | $575.000 | Ver más |
¿Te parece interesante este programa?
Sí No