Diplomado en Big Data y Machine Learning - Online*

El Diplomado online en Big Data y Machine Learning tiene como propósito entregar las competencias necesarias para construir aplicaciones y soluciones que puedan sacar partido de las técnicas de Machine Learning en la era de la Big Data.


Descripción

El Diplomado en Big Data y Machine Learning aporta los conocimientos que te permitirán entender las técnicas y algoritmos asociados al aprendizaje de máquina en el contexto de gigantescos volúmenes de datos.  El programa entrega, a través de sus 4 cursos, la mayor parte de las competencias que se requieren para trabajar en esta espectacular área.  En uno de los cursos aprenderás las técnicas y herramientas para el manejo de Big Data (Hadoop, Spark, etc).  Un segundo curso te entregará las competencias para utilizar el lenguaje Python en el contexto de machine learning.  Otro de sus cursos está enfocado íntegramente al importante tema de la visualización de la información. Por último, el curso de aplicaciones entrega una mirada al ámbito y tipo de aplicaciones más comunes y prometedoras para estas técnicas y herramientas. 

El formato del Diplomado en Big Data y Machine Learning es 100% en línea y se estructura sobre cuatro cursos que utilizan técnicas metodológicas activas. Gracias a estas últimas, el participante puede interactuar con sus pares y profesor-tutor a través de los recursos tecnológicos que provee la plataforma educativa virtual.

Dirigido a
  • Profesionales que necesiten adquirir las competencias necesarias para construir aplicaciones de Big Data y Machine Learning usando las herramientas del ecosistema Python.
  • Interesados en el área de Ciencia de Datos que deseen adquirir habilidades para interactuar y visualizar volúmenes grandes de datos
Prerrequisitos

Se recomienda contar con conocimientos básicos de programación, específicamente en lenguaje Python. En particular, debe ser capaz de utilizar controles de flujo, distintos tipos de datos y funciones, y diccionarios con Python. 

Si desea evaluar su nivel, puede realizar una prueba opcional gratuita en este link: https://www.hackerrank.com/prueba-python. Se recomienda iniciar los test en orden, ya que van creciendo en dificultad. Los dos últimos tienen un nivel superior al requerido para ingresar al diplomado, y han sido instalados allí sólo como desafío. Si uno de los test falló, se recomienda revisar y ejercitar esos contenidos antes del inicio del programa. 

A continuación, ponemos a su disposición algunos cursos optativos por si desea prepararse previamente al inicio del programa:

Objetivo de aprendizaje
  • Conocer la problemática de Big Data, las plataformas más importantes y las técnicas que permiten manejar esa data. Además, conocer las principales aplicaciones de Ciencia de Datos y Machine Learning.
  • Comprender e implementar los principales algoritmos de Machine Learning usando el lenguaje Python.
  • Presentar visualmente la data en forma efectiva.
Desglose de cursos

Nombre del curso: Técnicas de Big Data para Machine Learning

Nombre en inglés: Big Data Techniques for Machine Learning 

Horas cronológicas: 35; Créditos: 5 

Resultados de Aprendizaje

  • Entender la problemática y particularidades del manejo de Big Data.
  • Conocer los principios, bases técnicas y herramientas del ecosistema Hadoop.
  • Utilizar las herramientas del ecosistema Hadoop para el manejo de volúmenes gigantescos de datos.
  • Conocer Apache Spark, un framework de procesamiento de datos de propósito general.
  • Utilizar las principales herramientas del framework Spark para análisis de datos y aplicación de técnicas de Machine Learning.
  • Aplicar herramientas de visualización para facilitar la interpretación de resultados.

 Contenidos:

  • Introducción a Big data.
  • El ecosistema Hadoop.
  • HDFS, YARN.
  • Hadoop MapReduce.
  • Herramientas del ecosistema Hadoop.
  • Fundamentos de Apache Spark.
  • Implementación de aplicaciones sobre Spark.
  • Spark SQL.
  • Spark MLlib.
  • Técnicas de visualización.

Metolodogía de enseñanza y aprendizaje:

La metodología se presenta más adelante ya que para todos los cursos es la misma.

Evaluación de los aprendizajes:

  • Tres pruebas on-line, todas de igual ponderación                                      (40% en total)
  • Tres actividades de aplicación, la tercera con doble ponderación                 (60% en total)

 

Nombre del curso: Python para Machine Learning

Nombre en inglés: Python for Machine Learning  

Horas cronológicas: 35; Créditos: 5 

Resultados de Aprendizaje

  • Identificar, procesar y visualizar diferentes tipos de variables en una base de datos utilizando librerías de Python.
  • Diseñar e implementar modelos de aprendizaje supervisado basados en regresiones.
  • Comprender aspectos formales de modelos de aprendizaje supervisado tradicionales, experimentando y comparando su rendimiento.
  • Reconocer y emplear modelos de redes neuronales artificiales básicas.
  • Comprender, implementar e interpretar modelos de aprendizaje no supervisado a través de librerías de Python. 

Contenidos:

  • Conceptos fundamentales de Machine Learning.
  • Análisis, procesamiento y visualización de datos a través de Python.
  • Algoritmos de aprendizaje supervisado en Python utilizando scikit-learn.
    • Regresión Lineal.
    • Regresión Logística.
    • Regresiones Polinomiales.
    • Regresiones con penalización.
    • Árboles de Decisión.
    • Random Forest.
    • Random Forest para regresiones.
    • Naive Bayes.
    • Vecino más cercano.
    • Redes Neuronales.
    • Selección de modelos
  • Algoritmos de aprendizaje no supervisado en Python utilizando scikit-learn.
    • K-means.
    • Mezcla de Gaussianas.
    • Cluster Jerárquico.
    • Autoencoders. 

Metolodogía de enseñanza y aprendizaje:

La metodología se presenta más adelante ya que para todos los cursos es la misma. 

Evaluación de los aprendizajes:

  • Tres pruebas on-line, todas de igual ponderación                                      (40% en total)
  • Tres actividades de aplicación, la tercera con doble ponderación                (60% en total)

  

Nombre del curso: Visualización de Información en la Era de Big Data

Nombre en inglés: Information Visualization in the era of Big Data  

Horas cronológicas: 35; Créditos: 5 

Resultados de Aprendizaje

  • Analizar y evaluar visualizaciones de información existentes, así como proponer mejoras.
  • Identificar relaciones entre tipos de datos, tareas de visualización y tipos de gráficos para diseñar visualizaciones de información.
  • Diseñar e implementar en lenguaje Python gráficos simples y avanzados usando datasets tabulares.
  • Diseñar e implementar en lenguaje Python gráficos usando datasets de red.
  • Diseñar e implementar en lenguaje Python gráficos para visualizar datos de texto y espaciales. 

Contenidos:

  • Ejemplos históricos de Visualización de datos.
  • Conceptos fundamentales de visualización de información.
  • Funciones básicas de matplotlib y seaborn.
  • Modelo anidado de Munzner para diseño y validación de visualización.
  • Reglas y recomendaciones generales para visualizaciones efectivas.
  • Diseño e implementación de gráficos simples para datos tabulares usando modelo anidado.
  • Diseño e implementación de gráficos avanzados para datos tabulares usando modelo anidado.
  • Reducción de dimensionalidad.
  • Diseño e implementación de gráficos avanzados para datos de red usando modelo anidado.
  • Visualización básica de datos de texto.
  • Visualización básica de datos espaciales. 

Metolodogía de enseñanza y aprendizaje:

La metodología se presenta más adelante ya que para todos los cursos es la misma. 

Evaluación de los aprendizajes:

  • Tres pruebas on-line, todas de igual ponderación                                      (40% en total)
  • Tres actividades de aplicación, la tercera con doble ponderación                (60% en total)

 

Nombre del curso: Aplicaciones de Machine Learning y Ciencia de Datos

Nombre en inglés: Machine Learning and Data Science Applications  

Horas cronológicas: 35; Créditos: 5 

Resultados de Aprendizaje

  • Identificar los principales conceptos y técnicas asociados a Machine Learning y ciencia de datos.
  • Reconocer la importancia y los principales desafíos de los datos.
  • Asociar las diversas técnicas con oportunidades de aplicación en los negocios.
  • Examinar las dificultades y oportunidades en la aplicación de técnicas de ciencia de datos y aprendizaje de máquina. 

Contenidos:

  • Conceptos de inteligencia de negocios y de minería de datos.
  • Conceptos de ciencia de datos y de machine learning.
  • Aplicación al ámbito de transacciones estructuradas.
  • Aplicación al ámbito de aplicaciones de texto, audio y video.
  • Aprendizaje supervisado, aprendizaje no supervisado y aprendizaje reforzado.
  • Aplicaciones de aprendizaje supervisado, aprendizaje no supervisado y aprendizaje reforzado.
  • Estudio de casos: seguros, banca, retail, calidad del aire, transporte, compras públicas, finanzas, astronomía. 

Metolodogía de enseñanza y aprendizaje:

La metodología se presenta más adelante ya que para todos los cursos es la misma. 

Evaluación de los aprendizajes:

  • Tres pruebas on-line, todas de igual ponderación                                      (40% en total)
  • Tres actividades de aplicación, la tercera con doble ponderación                 (60% en total)

  

Nota: El orden de los cursos dependerá de la programación que realice la Dirección Académica

 

Equipo Docente

JEFE DE PROGRAMA

Jaime Navón Cohen

Ph.D. Computer Science, University of North Carolina at Chapel Hill. Master of Science, Technion-Israel Institute of Technology. Ingeniero Civil Electricista, Pontificia Universidad Católica de Chile. Profesor Asociado del Departamento de Ciencia de la Computación, Pontificia Universidad Católica de Chile. 

EQUIPO DOCENTE

Ignacio Becker

Ph.D (c) en Ciencias de la Computación, Pontificia Universidad Católica de Chile. Astrónomo, Pontificia Universidad Católica de Chile. Profesor Adjunto de Educación Profesional UC, Escuela de Ingeniería, Pontificia Universidad Católica de Chile. 

Patricio Cofré, MSc.  

Ingeniero Civil de industrias UC con con Mención en Tecnologías de la Información, Profesor Instructor Adjunto Departamento de Ciencia de la Computación - Escuela de Ingeniería UC, y Master of Engineering Management, Northwestern University. CEO at MetricArts, empresa consultora fundada el año 2007 y especializada en las áreas de Inteligencia de Negocios y Análisis de Negocios. 

Fernando Florenzano

Magíster en Ciencias de la Ingeniería, PUC. Ingeniero Civil Computación PUC. 

Iván Lillo

Doctor en Ciencias de la Ingeniería, Pontificia Universidad Católica de Chile. Magíster en Ciencias de la Ingeniería, Pontificia Universidad Católica de Chile. Ingeniero Civil Electricista, Pontificia Universidad Católica de Chile. Profesor Instructor, Departamento de Ciencia de la Computación, Escuela de Ingeniería, Pontificia Universidad Católica de Chile. 

Jaime Navón Cohen

Ph.D. Computer Science, University of North Carolina at Chapel Hill. Master of Science, Technion-Israel Institute of Technology. Ingeniero Civil Electricista, Pontificia Universidad Católica de Chile. Profesor Asociado del Departamento de Ciencia de la Computación, Pontificia Universidad Católica de Chile. 

Denis Parra

Profesor Asistente UC; Ingeniero Civil en Informática, Universidad Austral de Chile; Doctor of Philosophy in Information Science, University of Pittsburgh, EE.UU.  

Francisco Pérez

Ph.D (c) en Ciencias de la Computación, Pontificia Universidad Católica de Chile. Magíster en Gestión de Operaciones e Ingeniero Civil Industrial, Universidad de Talca. Profesor Adjunto de Educación Profesional UC, Escuela de Ingeniería, Pontificia Universidad Católica de Chile.  

Gabriel Sepúlveda

Ingeniero Civil Electrónico, con Mención en Control Automático, Mención Complementaria Computadores, Universidad Técnica Federico Santa María. Candidato a Doctor en Ciencias de la Ingeniería en el área de Ciencias de la Computación, Pontificia Universidad Católica de Chile. Profesor Instructor, Departamento de Ciencia de la Computación, Escuela de Ingeniería, Pontificia Universidad Católica de Chile.

Hernán Valdivieso

Estudiante de Magíster en el Departamento de Ciencia de la Computación, Escuela de Ingeniería, Pontificia Universidad Católica de Chile. 

* EP (Educación Profesional) de la Escuela de Ingeniería se reserva el derecho de remplazar, en caso de fuerza mayor, a él o los profesores indicados en este programa.

Metodología

Metolodogía de enseñanza y aprendizaje:

La modalidad de capacitación es e-learning asincrónica, por lo que los participantes accederán a una plataforma educativa virtual (LMS). Las actividades se desarrollan en forma remota, lo que permite entregar flexibilidad en los horarios, de manera que cada participante pueda distribuir su tiempo y ser autónomo en su proceso de aprendizaje. No obstante, el proceso de enseñanza-aprendizaje se acompañará con un tutor, quien tendrá un rol de mediador y facilitador, ofreciendo apoyo a los participantes en aspectos técnicos y también administrativos durante la actividad de capacitación.

Respecto a las estrategias de enseñanza - aprendizaje, se utilizarán videoclases, screencast y clases interactivas para la presentación de contenidos y actividades de aplicación que serán desarrolladas a partir de cuestionarios y tareas, dirigidas a que los participantes resuelvan problemas/situaciones aplicando los conocimientos aprendidos y comprobar la comprensión de los contenidos a través de test automáticos.

Los participantes también contarán con foros abiertos de consulta, como apoyo a su proceso de aprendizaje, donde podrán interactuar con sus pares y tutor.

Al inicio de cada curso se contará con una clase sincrónica en formato streaming, en que el jefe de programa o un profesor del programa, introducirán a los alumnos en las materias a abordar.

Requisitos de aprobación

La Nota final del diplomado se calculará de acuerdo a la siguiente ponderación de los cursos:

 

Curso: Técnicas de Big Data para Machine Learning                                  25%

Curso: Python para Machine Learning                                                     25%

Curso: Visualización de Información en la Era de Big Data                        25%

Curso: Aplicaciones de Machine Learning y Ciencia de Datos                    25%

 

Los alumnos deberán ser aprobados de acuerdo a los siguientes criterios:

a)              Calificación mínima de todos los cursos 4,0 en su promedio ponderado y

b)             75% de asistencia o cifra superior a las sesiones presenciales.

 

En el caso de los programas en modalidad en línea, los estudiantes tendrán que cumplir con la calificación mínima de 4.0 y con los requisitos establecidos para cada programa. 

Para aprobar los programas de diplomados se requiere la aprobación de todos los cursos que lo conforman y en el caso que corresponda, de la evaluación final integrativa. 

Los alumnos que aprueben las exigencias del programa recibirán un certificado de aprobación digital otorgado por la Pontificia Universidad Católica de Chile. 

El alumno que no cumpla con una de estas exigencias reprueba automáticamente sin posibilidad de ningún tipo de certificación.

Bibliografía
  • Andreas C. Müller & Sarah Guido,Introduction to Machine Learning with Python, 2016.
  • C. Bishop, Pattern Recognition and Machine Learning. Springer, 2007.
  • Cairo, Alberto, “The Functional Art”, New Riders, 2013.
  • Card, Stuart K., Jock D. Mackinlay, and Ben Shneiderman. Readings in information visualization: using vision to think. Morgan Kaufmann, 1999.
  • Holmes, Alex, Hadoop in Practice 2nd Ed, Manning Pub 2014.
  • J. Leskovec, A. Rajaramanan, and J.D. Ullman, Mining Massive Datasets. Cambridge University Press, 2014.
  • J. R. Owens, B. Femiano, and J. Lentz, Hadoop Real World Solutions Cookbook. Packt Publishing, 2013.
  • Joel Grus, O´Reilly, Data Science from Scratch: First Principles with Python, 2015.
  • Kaldero, Nir, DataScience for Executives:Leveraging Machine Intelligence to Drive Business ROI. Lioncrest Publishing, 2018.
  • Kelleher, John, Mac Namee, Brian, Fundamentals of Machine Learning for Predictive Data Analytics: Algorithms, Worked Examples, and Case Studies. The MIT Press, 2015.
  • Luu, Hien, Beginning Apache Spark 2, Apress 2018.
  • Munzner, Tamara, Visualization and Fawcett, Tom, Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking. O"Reilly Media, 2013.
  • Munzner, Tamara, Visualization Analysis and Design. A K Peters Visualization Series, CRC Press, 2014.
  • NumPy, and IPython, Wes McKinney, O"Reilly, Python for Data Analysis: Data Wrangling with Pandas, 2017.
  • Sayan Mukhopadhyay, Apress, Advanced Data Analytics Using Python, 2018.
  • Tamassia, Roberto, “Handbook of Graph Drawing and Visualization”, CRC Press, 2013.
  • Tufte, Edward, “The Visual Display of Quantitative Information”, Graphics Press, 2001 Few, Stephen, “Now You See It”, Analytics Press, 2009.
  • Ward, Matthew, Grinstein, Georges and Keim, Daniel Interactive Data Visualization: Foundations, Techniques, and Applications, A K Peters Visualization Series, CRC Press, 2010.
  • Ware, Colin, “Information visualization: perception for design”, Elsevier, 2012.
  • Yau, Nathan, ”Visualize This”, Wiley, 2011.
Proceso de Admisión

Las personas interesadas deberán enviar los documentos que se detallan más abajo al correo programas@ing.puc.cl.

  • Copia de carnet de identidad o DNI

-                 El postular no asegura el cupo, una vez aceptado en el programa, se debe cancelar o documentar el valor, para estar matriculado. 

“No se tramitarán postulaciones incompletas”.

El Programa se reserva el derecho de suspender la realización del diplomado si no cuenta con el mínimo de alumnos requeridos. En tal caso se devuelve a los alumnos matriculados la totalidad del dinero en un plazo aproximado de 10 días hábiles. 

A las personas matriculadas que se retiren de la actividad antes de la fecha de inicio, se les devolverá el total pagado menos el 10% del total del arancel.

* El programa se inicia con un quórum mínimo de participantes y se reserva el derecho a modificar las fechas y/o profesores, por razones de fuerza mayor.

SOLICITAR MÁS INFORMACIÓN
POSTULA AQUÍ

Mantente conectado a nuestras redes sociales