Acerca del programa:
El Diplomado Online en Big Data y Machine Learning tiene como propósito entregar las competencias necesarias para construir aplicaciones y soluciones que aprovechen las técnicas de Machine Learning en la era del Big Data.

Dirigido a:
- Profesionales que necesiten adquirir las competencias necesarias para construir aplicaciones de Big Data y Machine Learning usando las herramientas del ecosistema Python.
- Interesados en el área de Ciencia de Datos que deseen adquirir habilidades para interactuar y visualizar volúmenes grandes de datos.
Jefe de Programa

Jaime Navón Cohen
Equipo Docente
keyboard_arrow_downPatricio Cofré
Ingeniero Civil de industrias UC con con Mención en Tecnologías de la Información, Profesor Instructor Adjunto Departamento de Ciencia de la Computación - Escuela de Ingeniería UC, y Master of Engineering Management, Northwestern University. CEO at MetricArts, empresa consultora fundada el año 2007 y especializada en las áreas de Inteligencia de Negocios y Análisis de Negocios.
Fernando Florenzano
Magíster en Ciencias de la Ingeniería, PUC. Ingeniero Civil Computación PUC.
Iván Lillo
Doctor en Ciencias de la Ingeniería, Pontificia Universidad Católica de Chile. Magíster en Ciencias de la Ingeniería, Pontificia Universidad Católica de Chile. Ingeniero Civil Electricista, Pontificia Universidad Católica de Chile. Profesor Instructor, Departamento de Ciencia de la Computación, Escuela de Ingeniería, Pontificia Universidad Católica de Chile.
Jaime Navón Cohen
Ph.D. Computer Science, University of North Carolina at Chapel Hill. Master of Science, Technion-Israel Institute of Technology. Ingeniero Civil Electricista, Pontificia Universidad Católica de Chile. Profesor Asociado del Departamento de Ciencia de la Computación, Pontificia Universidad Católica de Chile.
Denis Parra
Profesor Asistente UC; Ingeniero Civil en Informática, Universidad Austral de Chile; Doctor of Philosophy in Information Science, University of Pittsburgh, EE.UU.
Francisco Pérez
Ph.D (c) en Ciencias de la Computación, Pontificia Universidad Católica de Chile. Magíster en Gestión de Operaciones e Ingeniero Civil Industrial, Universidad de Talca. Profesor Adjunto de Educación Profesional UC, Escuela de Ingeniería, Pontificia Universidad Católica de Chile.
Gabriel Sepúlveda
Ingeniero Civil Electrónico, con Mención en Control Automático, Mención Complementaria Computadores, Universidad Técnica Federico Santa María. Candidato a Doctor en Ciencias de la Ingeniería en el área de Ciencias de la Computación, Pontificia Universidad Católica de Chile. Profesor Instructor, Departamento de Ciencia de la Computación, Escuela de Ingeniería, Pontificia Universidad Católica de Chile.
Hernán Valdivieso
Magíster en Ciencias de la Ingeniería e Ingeniero Civil en Computación, UC. Profesor Instructor del Departamento de Ciencia de la Computación de la Escuela de Ingeniería UC. Su área principal de trabajo es la docencia y el desarrollo de técnicas de visualización.
* EP (Educación Profesional) de la Escuela de Ingeniería se reserva el derecho de reemplazar, en caso de fuerza mayor, a él o los profesores indicados en este programa; y de asignar al docente que dicta el programa según disponibilidad de los profesores.
Descripción
keyboard_arrow_downEl Diplomado en Big Data y Machine Learning proporciona los conocimientos necesarios para entender las técnicas y algoritmos de aprendizaje automático en el contexto de grandes volúmenes de datos. A través de sus cuatro cursos, el programa cubre la mayoría de las competencias requeridas para trabajar en esta área fascinante.
En uno de los cursos, aprenderás técnicas y herramientas para el manejo de Big Data (Hadoop, Spark, etc.). Otro curso te brindará las competencias para utilizar el lenguaje Python en el contexto del machine learning. Un tercer curso está enfocado íntegramente en la importante área de la visualización de información. Finalmente, el curso de aplicaciones ofrece una perspectiva sobre las aplicaciones más comunes y prometedoras para estas técnicas y herramientas.
El Diplomado se estructura en cuatro cursos que emplean técnicas metodológicas activas. Gracias a estas técnicas, los participantes pueden interactuar con sus pares y el profesor-tutor a través de los recursos tecnológicos que ofrece la plataforma educativa virtual. Además, cada curso cuenta con una clase sincrónica en formato streaming.
Requisitos de Ingreso
keyboard_arrow_downSe recomienda contar con conocimientos básicos de programación, específicamente en lenguaje Python. En particular, debe ser capaz de utilizar controles de flujo, distintos tipos de datos y funciones, y diccionarios con Python.
Si desea evaluar su nivel, puede realizar una prueba opcional gratuita en este link: https://www.hackerrank.com/prueba-python. Se recomienda iniciar los test en orden, ya que van creciendo en dificultad. Los dos últimos tienen un nivel superior al requerido para ingresar al diplomado, y han sido instalados allí sólo como desafío. Si uno de los test falló, se recomienda revisar y ejercitar esos contenidos antes del inicio del programa.
A continuación, ponemos a su disposición algunos cursos optativos por si desea prepararse previamente al inicio del programa:
- MOOC “Introducción a la Programación en Python I: Aprendiendo a programar con Python”, disponible en el siguiente link: https://www.coursera.org/learn/aprendiendo-programar-python
- Curso “Herramientas de programación en Python para procesamiento de datos”, disponible en el siguiente link: https://teleduc.uc.cl/curso/herramientas-programacion-python-procesamiento-datos/
Objetivos de Aprendizaje
keyboard_arrow_down- Implementar soluciones de ciencia de datos e inteligencia artificial que requieren el manejo de volúmenes de datos muy grandes (Big Data).
Desglose de cursos
keyboard_arrow_downCURSO 1: Técnicas de Big Data para Machine Learning
keyboard_arrow_downDocente(s): Gabriel Sepúlveda e Iván Lillo
Unidad académica responsable: Escuela de Ingeniería
Requisitos: Sin prerrequisitos
Créditos: 4
Horas totales: 75 | Horas directas: 35 | Horas indirectas: 40
Descripción del curso
Grandes repositorios de datos han comenzado a surgir en diversos ámbitos de nuestra sociedad. Estos corresponden a fuentes de información masiva, diversa y distribuida, cuyo análisis efectivo ofrece la oportunidad de obtener valiosa información en distintos ámbitos del quehacer social. Sin embargo, esta gran oportunidad presenta también grandes desafíos debido a la incapacidad de las aplicaciones tradicionales para el manejo de grandes volúmenes de datos.
El presente curso está diseñado para abordar la problemática de Big Data desde la perspectiva del uso de herramientas de manipulación de grandes cantidades de datos y en la aplicación de técnicas de Machine Learning y sistemas computacionales de alto rendimiento sobre grandes fuentes de datos distribuidos.
La metodología de enseñanza y aprendizaje para este curso online consiste en técnicas metodológicas activas, donde el participante puede interactuar con sus pares y el profesor-tutor a través de los recursos tecnológicos proporcionados por la plataforma educativa virtual destinada para el curso.
Resultados de aprendizaje
- Identificar la problemática y particularidades del manejo de grandes volúmenes de dato en diferentes contextos.
- Distinguir los principios, bases técnicas y herramientas del ecosistema Hadoop.
- Utilizar las herramientas del ecosistema Hadoop para el manejo de volúmenes gigantescos de datos.
- Reconocer el esquema de trabajo Apache Spark para el procesamiento de datos de propósito general.
- Utilizar las principales herramientas del framework Spark para análisis de datos y aplicación de técnicas de Machine Learning.
- Aplicar herramientas de visualización que faciliten la interpretación de resultados.
Contenidos
- Ecosistema Hadoop
- Introducción a Big Data
- Instalación de herramientas Hadoop
- Herramientas de Ecosistema Hadoop
- Hadoop MapReduce
- Apache Hive
- Apache Pig
- Apache Spark
- Programación en Apache Spark
- Data Analytics con Apache Spark
- Apache Flume
- Spark Streaming
- Spark SQL
- Machine Learning con Apache Spark
- Spark MLLIB: Algoritmos supervisados
- Spark MLLIB: Algoritmos no supervisados
- Técnicas de visualización
- Reducción de dimensionalidad
Estrategias metodológicas:
- Aprendizaje autónomo asincrónico estructurado en 6 módulos
- Clases expositivas
- Foros
- Estudio de caso
Estrategias evaluativas:
- 3 controles individuales – 40%
- 3 mini proyectos individuales – 60%
CURSO 2: Python para Machine Learning
keyboard_arrow_downDocente(s): Francisco Pérez
Unidad académica responsable: Escuela de Ingeniería
Requisitos: Sin prerrequisitos
Créditos: 4
Horas totales: 75 | Horas directas: 35 | Horas indirectas: 40
Descripción del curso
Python se ha convertido en una de las herramientas fundamentales para los profesionales de Machine Learning. En este contexto, el saber usar librerías como scikit-learn, scipy, numpy, pandas o keras, constituye una competencia básica para el desarrollo de proyectos de este tipo en el entorno empresarial. Este curso busca entregar una base de conocimiento de los fundamentos que soportan estas potentes metodologías y herramientas, potenciando significativamente al participante para enfrentar desafíos que involucran inteligencia artificial y dándole así una ventaja competitiva en el mercado laboral.
A través de este curso, los alumnos aprenderán los conceptos fundamentales asociados de Machine Learning tanto en su versión supervisada como no supervisada. Dicho aprendizaje será acompañado mediante un conjunto de librerías de Python, las que permitirán pasar de la teoría a la implementación de forma amigable, y actualizada a las tecnologías utilizadas en el mercado.
La metodología de enseñanza y aprendizaje para este curso online consiste en técnicas metodológicas activas, donde el participante puede interactuar con sus pares y profesor-tutor a través de los recursos tecnológicos que provee la plataforma educativa virtual provista para el curso.
Resultados de aprendizaje
- Comprender aspectos formales de modelos de aprendizaje supervisado tradicionales, experimentando y comparando su rendimiento.
- Visualizar diferentes tipos de variables en una base de datos utilizando librerías de Python.
- Emplear modelos de redes neuronales artificiales básicas.
- Diseñar modelos de aprendizaje supervisado basados en regresiones.
- Implementar modelos de aprendizaje no supervisado a través de librerías de Python.
Contenidos:
- Introducción al Aprendizaje de Máquinas con Python
- Introducción al Aprendizaje de Máquina
- Tipos de problemas en Aprendizaje de Máquina
- Preprocesamiento de datos con Python
- Introducción a librerías del ecosistema de Data Science
- Tipos de variables
- Análisis descriptivo de variables
- Transformación de variables
- Visualización de variables
- Imputación de datos
- Regresiones
- Aprendizaje supervisado
- Regresión lineal
- Regresiones polinomiales
- Regresión con penalización
- Regresión logística
- Aprendizaje supervisado
- Naive Bayes
- Evaluación de clasificadores
- Árboles de decisión
- Random Forest
- Random Forest para regresión
- Redes neuronales
- Introducción a las redes neuronales artificiales
- Tecnologías para desarrollo de redes neuronales artificiales
- Redes neuronales artificiales
- Aprendizaje no supervisado
- Aprendizaje no supervisado
- K-Means
- Cluster jerárquico
- Evaluación de clusters
- Reducción de dimensionalidad
Estrategias metodológicas:
- Aprendizaje autónomo asincrónico estructurado en 6 módulos
- Clases expositivas
- Foros
- Estudio de caso
Estrategias evaluativas:
- 3 controles individuales – 40%
- 3 mini proyectos individuales – 60%
CURSO 3: Visualización de información en la era de Big Data
keyboard_arrow_downDocente(s): Denis Parras, Fernando Florenzano y Hernán Valdivieso
Unidad académica responsable: Escuela de Ingeniería
Requisitos: Sin prerrequisitos
Créditos: 4
Horas totales: 75 | Horas directas: 35 | Horas indirectas: 40
Descripción del curso
La visión desempeña un papel fundamental en nuestro sistema cognitivo humano. Presentar información en formato visual puede ayudarnos en diversas tareas, como realizar análisis exploratorio de datos, comunicar los resultados de análisis, detectar problemas en fuentes de datos existentes y respaldar nuestra toma de decisiones. Para crear visualizaciones de datos efectivas en estas tareas, es necesario no solo aprender herramientas de software, sino también comprender los principios visuales y cognitivos que influyen en nuestra percepción. Además, es crucial identificar la relación entre tipos de datos y distintos formatos de representación visual.
Los estudiantes de este curso adquirirán conocimientos sobre los conceptos fundamentales de visualización de información, lo que les permitirá analizar y evaluar visualizaciones existentes. Posteriormente, aprenderán una metodología para diseñar y evaluar visualizaciones de información efectivas: el modelo anidado de Munzner. Con estos principios y el modelo anidado, los estudiantes aprenderán prácticamente cómo seleccionar la codificación visual óptima para diversos tipos de conjuntos de datos (tabulares, de red, espaciales, de texto) y atributos (continuos, categóricos, ordinales). Además, se introducirá el concepto de reducción de dimensionalidad, que los estudiantes aplicarán para visualizar datos con un gran número de atributos o dimensiones
Los contenidos serán abordados en 6 clases en línea (8 semanas), donde se entregarán los contenidos mediante recursos interactivos que integran videos, esquemas, artículos, lecturas y preguntas formativas. Esto se impartirá a través de una plataforma educativa virtual.
Resultados de aprendizaje
- Evaluar visualizaciones de información existentes y proponer mejoras en ellas.
- Implementar en lenguaje Python gráficos simples y avanzados usando diversos tipos de datasets.
- Diseñar nuevas visualizaciones mediante la identificación de las relaciones entre tipos de datos, las tareas de visualización y los tipos de gráficos.
Contenidos
- Ejemplos históricos de Visualización de datos.
- Conceptos fundamentales de visualización de información.
- Funciones básicas de matplotlib y seaborn.
- Modelo anidado de Munzner para diseño y validación de visualización.
- Reglas y recomendaciones generales para visualizaciones efectivas.
- Diseño e implementación de gráficos simples para datos tabulares usando modelo anidado.
- Diseño e implementación de gráficos avanzados para datos tabulares usando modelo anidado.
- Reducción de dimensionalidad.
- Diseño e implementación de gráficos avanzados para datos de red usando modelo anidado.
- Visualización básica de datos de texto.
- Visualización básica de datos espaciales.
Estrategias metodológicas
- Aprendizaje autónomo asincrónico estructurado en 6 módulos
- Clases expositivas
- Foros
- Estudio de caso
- Estrategias evaluativas
- 3 controles individuales – 40%
- 3 mini proyectos individuales – 60%
CURSO 4: Aplicaciones de Machine Learning y Ciencia de Datos
keyboard_arrow_downDocente(s): Patricio Cofré
Unidad académica responsable: Escuela de Ingeniería
Requisitos: Sin prerrequisitos
Créditos: 4
Horas totales: 75 | Horas directas: 35 | Horas indirectas: 40
Descripción del curso
Las técnicas asociadas a la ciencia de datos y al aprendizaje de máquina, a veces englobadas bajo el paraguas de la inteligencia artificial, han adquirido gran notoriedad en los últimos años. Esto se debe principalmente a que han comenzado a surgir aplicaciones espectaculares en diversos ámbitos de negocios y de la sociedad.
El presente curso está diseñado para abordar las temáticas asociadas a la ciencia de datos y el machine learning desde la perspectiva de sus aplicaciones en el mundo de los negocios y otros sectores. El curso inicia con una revisión de las técnicas básicas, para luego avanzar rápidamente a examinar aplicaciones interesantes, apreciar las oportunidades y comprender sus dificultades y limitaciones. Los alumnos aprenderán a utilizar técnicas y herramientas de aprendizaje supervisado y no supervisado para el descubrimiento de asociaciones, correlaciones o dependencias que pueden ser importantes en la toma de decisiones.
La metodología de enseñanza y aprendizaje para este curso en línea se basa en técnicas metodológicas activas, permitiendo que el participante interactúe con sus pares y el profesor-tutor a través de los recursos tecnológicos proporcionados por la plataforma educativa virtual destinada para el curso.
Resultados de aprendizaje
- Identificar los principales conceptos y técnicas asociados a Machine Learning y ciencia de datos.
- Reconocer la importancia y los principales desafíos de los datos en el contexto actual.
- Asociar las diversas técnicas con oportunidades de aplicación en los negocios.
- Examinar las dificultades y oportunidades en la aplicación de técnicas de ciencia de datos y aprendizaje de máquina.
Contenidos:
- Introducción al aprendizaje de máquinas y ciencia de datos
- Conceptos de inteligencia de negocios y minería de datos
- Conceptos de ciencia de datos y aprendizaje de máquina
- El auge actual del aprendizaje de máquina e inteligencia artificial
- Tipos de datos y aplicaciones
- Aplicaciones sobre transacciones estructuradas
- Aplicaciones sobre texto
- Aplicaciones sobre audio
- Aplicaciones sobre video
- Técnicas de ciencia de datos y aprendizaje de máquina
- Visualización en ciencia de datos
- Aprendizaje supervisado
- Aprendizaje no supervisado
- Aprendizaje reforzado
- Aplicaciones en los negocios
- Aplicaciones de visualización en ciencia de datos
- Aplicaciones de aprendizaje supervisado
- Aplicaciones de aprendizaje no supervisado
- Aplicaciones de aprendizaje reforzado
- Casos de ciencia de datos
- Caso en compañía de seguros
- Caso en banca
- Caso en retail
- Caso en calidad del aire
- Casos de aprendizaje de máquina
- o Caso en transporte público
- o Caso en compras públicas
- o Caso en industria financiera
- o Caso en observación astronómica
Estrategias metodológicas:
- Aprendizaje autónomo asincrónico estructurado en 6 módulos
- Clases expositivas
- Foros
- Estudio de caso
Estrategias evaluativas:
- 3 controles individuales – 40%
- 3 mini proyectos individuales – 60%
Requisitos Aprobación
keyboard_arrow_downLa Nota final del diplomado se calculará de acuerdo a la siguiente ponderación de los cursos:
- Curso: Técnicas de Big Data para Machine Learning 25%
- Curso: Python para Machine Learning 25%
- Curso: Visualización de Información en la Era de Big Data 25%
- Curso: Aplicaciones de Machine Learning y Ciencia de Datos 25%
Los alumnos deberán ser aprobados de acuerdo al siguiente criterio:
- Calificación mínima de todos los cursos 4,0 en su promedio ponderado
Los resultados de las evaluaciones serán expresados en notas, en escala de 1,0 a 7,0 con un decimal, sin perjuicio que la Unidad pueda aplicar otra escala adicional.
Para aprobar un Diplomado, se requiere la aprobación de todos los cursos que lo conforman y, en los casos que corresponda, de otros requisitos que indique el programa académico.
El estudiante será reprobado en un curso o actividad del Programa cuando hubiere obtenido como nota final una calificación inferior a cuatro (4,0).
Los alumnos que aprueben las exigencias del programa recibirán un certificado de aprobación digital otorgado por la Pontificia Universidad Católica de Chile.
Además, se entregará una insignia digital por diplomado. Sólo cuando alguno de los cursos se dicte en forma independiente, además, se entregará una insignia por curso.
Proceso de Admisión
keyboard_arrow_downLas personas interesadas deberán enviar los documentos que se detallan más abajo al correo programas.ing@uc.cl
- Fotocopia Carnet de Identidad.
VACANTES: 40
INFORMACIÓN RELEVANTE
Con el objetivo de brindar las condiciones de infraestructura necesaria y la asistencia adecuada al inicio y durante las clases para personas con discapacidad: Física o motriz, Sensorial (Visual o auditiva) u otra, los invitamos a informarlo.
El postular no asegura el cupo, una vez inscrito o aceptado en el programa se debe pagar el valor completo de la actividad para estar matriculado.
No se tramitarán postulaciones incompletas.
Puedes revisar aquí más información importante sobre el proceso de admisión y matrícul
Fechas disponibles
Los detalles del programa pueden variar en cada fecha de edición
Fecha | Horario | Lugar | Valor | |
---|---|---|---|---|
30 septiembre 2025 - 21 julio 2026 | Asincrónico | $2.290.000 | Ver más | |
25 noviembre 2025 - 22 septiembre 2026 | Asincrónico | $2.290.000 | Ver más |
¿Te parece interesante este programa?
Sí No