Nuevo - Diplomado en Herramientas Computacionales para Big Data y Análisis de Datos

En la era digital, la masiva producción de datos abre infinitas oportunidades para un efectivo análisis de éstos. El diplomado en Big Data apunta a brindar una sólida formación en las principales tecnologías y tendencias que marcan el estado del arte en el procesamiento y análisis de estas fuentes de datos masivas.


Descripción

Grandes repositorios de datos han comenzado a surgir en los más diversos ámbitos de nuestro quehacer social, lo que, acompañado de nuevas capacidades para su procesamiento, están dando vida a un nuevo paradigma conocido como Big Data. Las oportunidades que abre un efectivo análisis de estas fuentes de información masivas son enormes; ello ha motivado un gran interés, y acelerado el desarrollo de nuevas tecnologías dedicadas a procesar y extraer conocimiento de ellas. En este contexto, el diplomado en Big Data apunta a entregar una sólida formación en las principales tecnologías y tendencias que marcan el estado del arte en el ámbito de almacenamiento, procesamiento y extracción de conocimiento de fuentes de datos masivas, tanto estructuradas como no estructuradas.

Como eje central, el diplomado aborda la problemática de Big Data desde la perspectiva de la aplicación de técnicas de aprendizaje de máquina y sistemas computacionales de alto rendimiento. La combinación de estas dos temáticas ha surgido como una de las claves para tomar ventaja del gran potencial, no sólo de datos estructurados, sino también de datos no estructurados, como es el caso de datos textuales, imágenes o interacciones en redes sociales.

Adicionalmente, el diplomado abarca las áreas de visualización y teoría de grafos, que son elementos claves para facilitar la inclusión de analistas humanos en el ciclo de extracción de conocimiento. En términos de aplicaciones, se dedica un capítulo especial a sistemas de recomendación, una de las áreas de mayor uso actual de repositorios del tipo Big Data.

De esta manera, el diplomado entrega competencias para entender la evolución tecnológica que ha dado vida al paradigma Big Data; describir los principales elementos y desafíos de esta área; conocer y entender las principales tecnologías detrás de aplicaciones actuales usadas para enfrentar problemáticas del tipo Big Data; y diseñar y aplicar soluciones a problemáticas del tipo Big Data. 

Dirigido a
  • Ingenieros Civiles Industriales, Civiles Informáticos, Civiles Electrónicos, Civiles Eléctricos.
  • Licenciados en Computación, y otros profesionales licenciados y/o con experiencia en áreas afines, que requieren conocimientos o habilidades en la materia.
Prerrequisitos
  • Licenciatura en Ciencias de la Ingeniería o Título profesional Universitario de Ingeniería Civil.
  • Licenciatura o título profesional universitario en una disciplina afín a la Ingeniería.
  • Experiencia laboral de 2 años en al área de tecnologías de información.
  • Experiencia en el uso y/o manejo de sistemas computacionales. A modo de ejemplo, experiencia con al menos alguna de las siguientes tecnologías: bases de datos, sistemas ERPs, Data Warehouses, sistemas OLAP, lenguajes de programación, infraestructura HPC o tecnologías afines.
  • Se recomienda buen nivel de comprensión lectora de inglés.
Objetivo de aprendizaje
  • Conocer los principales componentes de la tecnología Big Data.
  • Gestionar proyectos orientados a la introducción de tecnologías en Big Data en la organización.
Desglose de cursos

DESGLOSE DE CURSOS

Nombre del curso: Ecosistema Hadoop

Nombre en inglés: Hadoop Ecosystem

Horas cronológicas: 36; Créditos: 5.

 

Resultados del Aprendizaje

  • Describir los principales desafíos del manejo de datos estructurados y no estructurados.
  • Conocer las principales tecnologías para el manejo de masivas cantidades de datos en forma distribuida.
  • Reconocer los principales componentes con que debe contar una solución a una problemática del tipo Big Data.

 

Contenidos

Unidad I: Fundamentos de Hadoop.

  • Introducción a Hadoop.
  • Hadoop sistema distribuido de archivos: HDFS (Hadoop distributed file system)
  • Hadoop distribución de tareas en un cluster: Paradigma Map Reduce.
  • Bases de datos no relacionales (NoSQL-Structured Query Language).
  • Google Gran Tabla y Hadoop Hbase.

Unidad II: Ecosistema Hadoop.

  • Introducción al ecosistema Hadoop de Cloudera.
  • Herramientas del ecosistema: Pig, Hive, Impala y Hue.
  • Movimiento masivo de datos: Sqoop.
  • Datos Secuenciales (Streaming): Flume.
  • Spark.
  • Librería de Aprendizaje de Máquina: Spark MLlib (Spark Machine learning library)

 

Metodología de enseñanza y aprendizaje:

La metodología se presenta más adelante ya que para todos los cursos es la misma.

 

Evaluación de los aprendizajes:

El alumno será evaluado a través de actividades prácticas (ejercicios aplicados) y evaluaciones escritas individuales, donde deberá aplicar los conocimientos adquiridos a lo largo del curso. Específicamente, la evaluación se organizará en torno a las 2 unidades del curso, según la siguiente ponderación:

 

Control escrito unidad I.

15%

Control escrito unidad II.

20%

Laboratorio práctico unidad I.

20%

Laboratorio práctico unidad II.

20%

Actividad práctica final de integración tópicos del curso.

25%

 

Nombre del curso: Aprendizaje de Máquina para Big Data

Nombre en inglés: Machine Learning for Big Data

Horas cronológicas: 36; Créditos: 5.

 

Resultados del Aprendizaje

  • Conocer y aplicar algunas conceptos y técnicas más populares del paradigma tradicional de aprendizaje de máquina.
  • Conocer y aplicar representaciones de datos, y técnicas de optimización capaces de escalar a problemas del tipo Big Data.
  • Entender y aplicar técnicas de aprendizaje profundo para análisis de datos multidimensionales y técnicas para el modelamiento de secuencias y datos temporales.
  • Conocer y aplicar bibliotecas de software existentes para implementar soluciones basadas en modelos de aprendizaje profundo (deep learning).

 

Contenidos

Unidad I: Conceptos Fundamentales de Aprendizaje de Máquina y Big Data

  • Introducción al aprendizaje de máquina.
  • Técnica de vecinos cercanos.
  • Redes neuronales de capa oculta.
  • Modelos de aprendizaje de máximo margen.
  • Optimización y técnicas de descenso de gradiente estocástico.
  • Limitaciones de técnicas tradicionales de aprendizaje de máquina para problemas de Big Data.

 

Unidad II: Técnicas de Aprendizaje de Máquina para Big Data

  • Técnicas de hashing con colisión local.
  • Modelos jerárquicos composicionales y aprendizaje estructural.
  • Representaciones distribuidas.
  • Redes neuronales convolucionales de aprendizaje profundo.
  • Redes neuronales recurrentes.

 

Metodología de enseñanza y aprendizaje:

La metodología se presenta más adelante ya que para todos los cursos es la misma.

 


 

Evaluación de los aprendizajes:

El alumno será evaluado a través de actividades prácticas y evaluaciones escritas individuales, donde deberá aplicar los conocimientos adquiridos a lo largo del curso. Específicamente, la evaluación se organizará en torno a las 2 unidades del curso, según la siguiente ponderación:

 

Control escrito unidad I.

15%

Control escrito unidad II.

20%

Laboratorio práctico unidad I.

20%

Laboratorio práctico unidad II.

20%

Taller y proyecto final grupal.

25%

 

Nombre del curso: Técnicas de Visualización y Sistemas de Recomendación

Nombre en inglés: Visualization Techniques and Recommendation Systems 

Horas cronológicas: 36; Créditos: 5.

 

Resultados del Aprendizaje

  • Conocer conceptos fundamentales de abstracción de datos, percepción y procesamiento humano de la información.
  • Entender y aplicar técnicas de reducción de la dimensionalidad, métricas de distancia, técnicas de visualización de datos espaciales y temporales y técnicas de visualización de grafos y redes.
  • Conocer los principales algoritmos y fuentes de datos usados para generar recomendaciones.
  • Diseñar e implementar los distintos componentes de un sistema recomendador.

 

Contenidos

Unidad I: Técnicas de Visualización

  • Fundamentos: Abstracción de datos, marcas y canales, procesamiento humano de la información.
  • Representaciones estadísticas y algoritmos.
  • Reducción de dimensionalidad.
  • Visualización de datos espaciales, temporales y redes sociales.
  • Evaluación de sistemas de visualización.
  • Herramientas de software y estudio de casos.

 

Unidad II: Sistemas de Recomendación

  • Datos usados para generar recomendaciones.
  • Fuentes de información espacial, temporal y redes sociales.
  • Métricas de distancia.
  • Preferencias basadas en retroalimentación explícita e implícita.
  • Métodos de recomendación: personalizados, colaborativos, basados en contexto o contenido, híbridos.
  • Evaluación de sistemas recomendadores.
  • Estudio de casos.

 

Metodología de enseñanza y aprendizaje:

La metodología se presenta más adelante ya que para todos los cursos es la misma.

 

Evaluación de los aprendizajes:

El alumno será evaluado a través de actividades prácticas y evaluaciones escritas individuales, donde deberá aplicar los conocimientos adquiridos a lo largo del curso. Específicamente, la evaluación se organizará en torno a las 2 unidades del curso, según la siguiente ponderación:

 

 

 

Control escrito unidad I.

20%

Control escrito unidad II.

20%

Laboratorio práctico unidad I.

30%

Laboratorio práctico unidad II.

30%

 

Nombre del curso: Computación de Alto Rendimiento y Teoría de Grafos para Big Data

Nombre en inglés: High Performance Computing and Graph Theory for Big Data 

Horas cronológicas: 36; Créditos: 5.

 

Resultados del Aprendizaje

  • Entender los principales desafíos para el procesamiento paralelo de datos.
  • Conocer y aplicar modalidades de procesamiento de datos basadas en recursos elásticos en la nube, así como las principales tecnologías para el almacenamiento y procesamiento distribuido de grandes cantidades de datos
  • Describir los principales desafíos del uso de grafos en problemas del tipo Big Data.
  • Conocer y aplicar representaciones gráficas para el modelamiento de distintas fuentes de datos, las principales técnicas para el uso de grafos como herramienta analítica y técnicas basadas en grafos para determinar métricas de distancia y redes semánticas.

 

Contenidos

Unidad I: Computación de alto rendimiento para Big Data.

  • Introducción al procesamiento paralelo de datos.
  • Uso de recursos elásticos y procesamiento en la nube.
  • Modelos para almacenamiento distribuido de archivos en clusters.
  • Modelos para manejo distribuido de memoria en clusters.
  • Modelos para ejecución distribuida de proceso en clusters.
  • Procesamiento en unidades gráficas (GPUs-graphics processing unit).

 

Unidad II: Teoría de grafos para Big Data.

  • Conceptos fundamentales de teoría de grafos: grado, isomorfismos, conectividad, centralidad, traversabilidad, búsqueda y ranking, métricas de distancia.
  • Base de datos para grafos.
  • Grafos como herramienta analítica para Big Data.
  • Grafos para modelamiento y análisis de datos espaciales y redes sociales.
  • Grafos para modelamiento y análisis de datos dinámicos.
  • Grafos como herramienta de modelamiento y descubrimiento de patrones semánticos.
  • Estudio de casos.

 

Metodología de enseñanza y aprendizaje:

La metodología se presenta más adelante ya que para todos los cursos es la misma.

 

Evaluación de los aprendizajes:

El alumno será evaluado a través de actividades prácticas y evaluaciones escritas individuales, donde deberá aplicar los conocimientos adquiridos a lo largo del curso. Específicamente, la evaluación se organizará en torno a las 2 unidades del curso, según la siguiente ponderación:

 

Control escrito unidad I.

20%

Control escrito unidad II.

20%

Laboratorio práctico unidad I.

30%

Laboratorio práctico unidad II.

30%

Equipo Docente

JEFE DE PROGRAMA
HANS LÖBEL, ©PHD
Profesor Instructor, Departamento de Ciencia de la Computación, Escuela de Ingeniería, UC; Ingeniero Civil en Ciencia de la Computación, UC; Magíster en Ciencias de la Ingeniería, UC; Candidato a Doctor en Ciencias de la Ingeniería, UC.

EQUIPO DOCENTE
IVANIA DONOSO
Ingeniera Industrial de la Pontificia Universidad Católica de Chile y Magister en Ciencias de la Ingeniería, Especialidad Computación UC. Desarrolladora Full-Stack. Desarrollo de backend y visualizaciones de la plataforma www.decidechile.cl.

SANTIAGO LARRAÍN
Ingeniero Civil de Industria de la Pontificia Universidad Católica de Chile y Magister en Ciencias de la Ingeniería UC. Co-fundador de emprendimiento. Proyecto que busca optimizar la relación comercial de empresas de consumo masivo en el canal tradicional mediante modelos de inteligencia artificial.

ANDRÉS LETELIER
Magíster en Ciencias de la Ingeniería, científico de datos y profesor universitario. Interesado en investigación, fundamentos de la informática, teoría de bases de datos y aprendizaje automático. Director de Investigación Académica, GobLab UAI.

IVAN LILLO., ©PHD
Profesor Instructor, Departamento de Ciencia de la Computación, Escuela de Ingeniería, UC; Ingeniero Civil Electricista UC; Magíster en Ciencias de la Ingeniería, UC; Candidato a Doctor en Ciencias de la Ingeniería, UC.

HANS LÖBEL, ©PHD
Profesor Instructor, Departamento de Ciencia de la Computación, Escuela de Ingeniería, UC; Ingeniero Civil en Ciencia de la Computación, UC; Magíster en Ciencias de la Ingeniería, UC; Candidato a Doctor en Ciencias de la Ingeniería, UC.

DENIS PARRA, PHD
Profesor Asistente UC; Ingeniero Civil en Informática, Universidad Austral de Chile; Doctor of Philosophy in Information Science, University of Pittsburgh, EE.UU.

CRISTIAN RUZ, PHD.
Profesor Asistente, Departamento de Ciencia de la Computación, Escuela de Ingeniería, UC; Ingeniero Civil en Ciencia de la Computación, UC; Magíster en Ciencias de la Ingeniería, UC; Doctor of Philosophy en Informática, Université de Nice Sophia Antipolis, Francia.

ALVARO SOTO, PHD.
Profesor Asociado, Departamento de Ciencia de la Computación, Escuela de Ingeniería, UC; Master of Science, Louisiana State University, EE.UU.; Doctor of Philosophy in Computer Science, Carnegie Mellon University, EE.UU.

* EP (Educación Profesional) de la Escuela de Ingeniería se reserva el derecho de remplazar, en caso de fuerza mayor, a él o los profesores indicados en este programa.

Metodología

Todas las actividades teóricas y prácticas buscan potenciar las habilidades de capacidad de análisis, toma de decisiones y el trabajo en equipo, a través de la presencia y participación del alumno en las sesiones de los cursos.

El marco metodológico combina diferentes métodos de enseñanza, con el propósito de lograr un alto nivel de aprendizaje en los alumnos. Para ello se contemplan: 

  • Exposiciones conceptuales y participativas apoyadas por material audio visual.
  • Clases expositivas e interactivas, donde el profesor realizará un juego de preguntas a los alumnos, con el propósito de aprovechar la historia y experiencia de los participantes.
  • Actividades prácticas de análisis, ajustadas a las necesidades e intereses de los participantes y sus empresas; éstas se realizarán en grupos.
  • Análisis colectivos de casos, al finalizar las actividades prácticas.
  • Revisión y discusión de lecturas, y casos escritos que serán proporcionados por los docentes.
Requisitos de aprobación

La nota final del Diplomado se obtendrá a través del promedio aritmético de las notas de los 4 cursos, donde cada curso tiene una ponderación de 25%.
Para aprobar el diplomado, el alumno debe cumplir con dos requisitos:
A) Un mínimo de asistencia de 85% a todo el diplomado.
B) Requisito académico: Se cumple aprobando todos los cursos con nota mínima 4,0.
Para aprobar los programas de diplomados se requiere la aprobación de todos los cursos que lo conforman y en el caso que corresponda, de la evaluación final integrativa.
Los alumnos que aprueben las exigencias del programa recibirán un certificado de aprobación otorgado por la Pontificia Universidad Católica de Chile.

El alumno que no cumpla con una de estas exigencias reprueba automáticamente sin posibilidad de ningún tipo de certificación.

Bibliografía
  • IAN GOODFELLOW, YOSHUA BENGIO, AARON COURVILLE, “Deep Learning”, MIT Press, 2016.
  • RICHARD BRATH, DAVID JONKER, “Graph Analysis and Visualization: Discovering Business Opportunity in Linked Data”, Wiley, 2015.
  • ADAM GIBSON, JOSH PATTERSON, “Deep Learning: A Practitioner"s Approach”, O"Reilly, 2016.
  • PETER BUHLMANN, PETROS DRINEAS, MICHAEL KANE, MARK VAN DER LAAN, “Handbook of Big Data”, Chapman & Hall/CRC, 2016.
  • ARTHUR BENJAMIN, GARY CHARTRAND, PING ZHANG, “The Fascinating World of Graph Theory”, Princeton University Press, 2015.
  • JURE LESKOVEC, ANAND RAJARAMANAN, JEFFREY ULLMAN, “Mining Massive Datasets”. Cambridge University Press, 2014.
  • IAN ROBINSON, JIM WEBBER, “Graph Databases”, O"Reilly, 2013.
  • IOANNIS PITAS, “Graph-Based Social Media Analysis”, Chapman & Hall/CRC, 2016.
  • TOM WHITE, “Hadoop: The Definitive Guide, 4th edition”. O"Reilly Media, 2015.
  • JONATHAN OWENS, BRIAN FEMIANO, JON LENTZ, “Hadoop Real World Solutions Cookbook”, Packt Publishing, 2013.
  • TIMOTHY MASTERS, “Deep Belief Nets in C++ and CUDA C”, CreateSpace Independent Publishing Platform, 2015.
  • PETER FLACH, “Machine Learning: The Art and Science of Algorithms that Make Sense of Data”, Cambridge University Press, 2012.
  • FRANCESCO RICCI, LIOR ROKACH, BRACHA SHAPIRA, PAUL RANTOR, “Recommender Systems Handbook”, Springer, 2011.
  • DIETMAN JANNACH, MARKUS ZANKER, ALEXANDER FELFERNIG, GERHARD FRIEDRICH, “Recommender Systems: An Introduction”, Cambridge, University Press, 2010.
  • DENIS PARRA, SHAGHAYEGH SAHEB, “Recommender Systems: Sources of Knowledge and Evaluation Metrics”, Springer, 2012.
  • TAMATA MUNZNER, “Visualization Analysis and Design”, CRC Press, 2014.
  • EDWARDS TUFTE, “The Visual Display of Quantitative Information”, Graphics Press, 2001.
  • STEPHEN FEW, “Now You See It”, Analytics Press, 2009.
  • ALBERTO CAIRO, “The Functional Art”, New Riders, 2013.
  • NATHAN YAU, “Visualize This”, Wiley, 2011.
  • ROBERTO TAMASSIA, “Handbook of Graph Drawing and Visualization”, CRC Press, 2013.
  • RALPH KIMBALL, MARGY ROSS, The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling, Wiley, 2nd edition, 2002.
  • T. HASTIE, R. TIBSHIRANI, J. FRIEDMAN. The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer, 2001.
  • TOM MITCHELL, Machine Learning, McGraw Hill, 1997.
  • CHRISTOPHER BISHOP, “Pattern Recognition and Machine Learning”. Springer, 2007.
Proceso de Admisión

Las personas interesadas deberán enviar los documentos que se detallan más abajo al correo programas@ing.puc.cl.

  • Fotocopia Carnet de Identidad.
  • Fotocopia simple del Certificado de Título o del Título.
  • Curriculum Vitae actualizado

-                 El postular no asegura el cupo, una vez aceptado en el programa, se debe cancelar o documentar el valor, para estar matriculado.
VACANTES: 50
“No se tramitarán postulaciones incompletas”
El Programa se reserva el derecho de suspender la realización del diplomado si no cuenta con el mínimo de alumnos requeridos. En tal caso se devuelve a los alumnos matriculados la totalidad del dinero en un plazo aproximado de 10 días hábiles.
A las personas matriculadas que se retiren de la actividad antes de la fecha de inicio, se les devolverá el total pagado menos el 10% del total del arancel.

imagen
SOLICITAR MÁS INFORMACIÓN
POSTULA AQUÍ