Diplomado en Big Data

En la era digital, la masiva producción de datos abre infinitas oportunidades para un efectivo análisis de éstos. El diplomado en Big Data apunta a brindar una sólida formación en las principales tecnologías y tendencias que marcan el estado del arte en el procesamiento y análisis de estas fuentes de datos masivas.


Descripción

Grandes repositorios de datos han comenzado a surgir en los más diversos ámbitos de nuestro quehacer social, lo que acompañado de nuevas capacidades para su procesamiento, están dando vida a un nuevo paradigma conocido como Big Data. Las oportunidades que abre un efectivo análisis de estas fuentes de información masivas son enormes; ello ha motivado un gran interés, y acelerado el desarrollo de nuevas tecnologías dedicadas a procesar y extraer conocimiento de ellas. En este contexto, el diplomado en Big Data apunta a entregar una sólida formación en las principales tecnologías y tendencias que marcan el estado del arte en el ámbito de almacenamiento, procesamiento y extracción de conocimiento de fuentes de datos masivas, tanto estructuradas como no estructuradas.

Como eje central, el diplomado aborda la problemática de Big Data desde la perspectiva de la aplicación de técnicas de aprendizaje de máquina y sistemas computacionales de alto rendimiento. La combinación de estas dos temáticas ha surgido como una de las claves para tomar ventaja del gran potencial, no sólo de datos estructurados, sino también de datos no estructurados, como es el caso de datos textuales, imágenes o interacciones en redes sociales.

De esta manera, el diplomado entrega competencias para entender la evolución tecnológica que ha dado vida al paradigma Big Data; describir los principales elementos y desafíos de esta área; conocer y entender las principales tecnologías detrás de aplicaciones actuales usadas para enfrentar problemáticas del tipo Big Data; y diseñar y aplicar soluciones a problemáticas del tipo Big Data.

Dirigido a
  • Ingenieros Civiles Industriales, Ingenieros Comerciales, Civiles Informáticos, Civiles Electrónicos, Civiles Eléctricos.
  • Licenciados en Computación, y otros profesionales licenciados y/o con experiencia en áreas afines, que requieren conocimientos o habilidades en la materia.
Prerrequisitos
  • Licenciatura en Ciencias de la Ingeniería o Título profesional Universitario de Ingeniería Civil.
  • Licenciatura o título profesional universitario en una disciplina afín a la Ingeniería.
  • Experiencia laboral de 2 años en al área o áreas afines.
Objetivo de aprendizaje
  • Conocer los principales componentes de la tecnología Big Data
  • Gestionar proyectos orientados a la introducción de tecnologías en Big Data en la organización.
Desglose de cursos

CURSO 1: ECOSISTEMA HADOOP

Horas directas: 36 horas.
Créditos: 5 créditos.

Objetivos específicos:

  1. Describir los principales desafíos del manejo de datos estructurados y no estructurados.
  2. Conocer las principales tecnologías para el manejo de masivas cantidades de datos en forma distribuida.
  3. Reconocer los principales componentes con que debe contar una solución a una problemática del tipo Big Data.

Contenidos

Unidad I: Fundamentos de Hadoop.

  • Introducción a Hadoop.
  • Hadoop sistema distribuido de archivos: HDFS (Hadoop distributed file system)
  • Hadoop distribución de tareas en un cluster: Paradigma Map Reduce.
  • Bases de datos no relacionales (NoSQL-Structured Query Language).
  • Google Gran Tabla y Hadoop Hbase.

Unidad II: Ecosistema Hadoop.

  • Introducción al ecosistema Hadoop de Cloudera.
  • Herramientas del ecosistema: Pig, Hive, Impala y Hue.
  • Movimiento masivo de datos: Sqoop.
  • Datos Secuenciales (Streaming): Flume.
  • Spark.
  • Librería de Aprendizaje de Máquina: Spark MLlib (Spark Machine learning library)

Evaluaciones:

El alumno será evaluado a través de actividades prácticas (ejercicios aplicados) y evaluaciones escritas individuales, donde deberá aplicar los conocimientos adquiridos a lo largo del curso. Específicamente, la evaluación se organizará en torno a las 2 unidades del curso, según la siguiente ponderación:

Control escrito unidad I.                   

15%

Control escrito unidad II.                    

20%

Laboratorio práctico unidad I.

20%

Laboratorio práctico unidad II.           

20%

Actividad práctica final de integración tópicos del curso.

25%

CURSO 2: APRENDIZAJE DE MÁQUINA PARA BIG DATA
Horas directas: 36 horas.
Créditos: 5 créditos.

Objetivos específicos:

  1. Conocer y aplicar algunas conceptos y técnicas más populares del paradigma tradicional de aprendizaje de máquina.
  2. Conocer y aplicar representaciones de datos, y técnicas de optimización capaces de escalar a problemas del tipo Big Data.
  3. Entender y aplicar técnicas de aprendizaje profundo para análisis de datos multidimensionales y técnicas para el modelamiento de secuencias y datos temporales.
  4. Conocer y aplicar bibliotecas de software existentes para implementar soluciones basadas en modelos de aprendizaje profundo (deep learning).

Contenidos

Unidad I: Conceptos Fundamentales de Aprendizaje de Máquina y Big Data

  • Introducción al aprendizaje de máquina.
  • Técnica de vecinos cercanos.
  • Redes neuronales de capa oculta.
  • Modelos de aprendizaje de máximo margen.
  • Optimización y técnicas de descenso de gradiente estocástico.
  • Limitaciones de técnicas tradicionales de aprendizaje de máquina para problemas de Big Data.

Unidad II: Técnicas de Aprendizaje de Máquina para Big Data

  • Técnicas de hashing con colisión local.
  • Modelos jerárquicos composicionales y aprendizaje estructural.
  • Representaciones distribuidas.
  • Redes neuronales convolucionales de aprendizaje profundo.
  • Redes neuronales recurrentes.

Evaluaciones:

El alumno será evaluado a través de actividades prácticas y evaluaciones escritas individuales, donde deberá aplicar los conocimientos adquiridos a lo largo del curso. Específicamente, la evaluación se organizará en torno a las 2 unidades del curso, según la siguiente ponderación:

Control escrito unidad I.                   

15%

Control escrito unidad II.                    

20%

Laboratorio práctico unidad I.

20%

Laboratorio práctico unidad II.           

20%

Taller y proyecto final grupal.

25%

 

CURSO 3: TÉCNICAS DE VISUALIZACIÓN Y SISTEMAS DE RECOMEDACIÓN.

Horas directas: 36 horas.
Créditos: 5 créditos.

Objetivos específicos:

  1. Conocer conceptos fundamentales de abstracción de datos, percepción y procesamiento humano de la información.
  2. Entender y aplicar técnicas de reducción de la dimensionalidad, métricas de distancia, técnicas de visualización de datos espaciales y temporales y técnicas de visualización de grafos y redes.
  3. Conocer los principales algoritmos y fuentes de datos usados para generar recomendaciones.
  4. Diseñar e implementar los distintos componentes de un sistema recomendador.

Contenidos

Unidad I: Técnicas de Visualización

  • Fundamentos: Abstracción de datos, marcas y canales, procesamiento humano de la información.
  • Representaciones estadísticas y algoritmos.
  • Reducción de dimensionalidad.
  • Visualización de datos espaciales, temporales y redes sociales.
  • Evaluación de sistemas de visualización.
  • Herramientas de software y estudio de casos.

 

Unidad II: Sistemas de Recomendación

  • Datos usados para generar recomendaciones.
  • Fuentes de información espacial, temporal y redes sociales.
  • Métricas de distancia.
  • Preferencias basadas en retroalimentación explícita e implícita.
  • Métodos de recomendación: personalizados, colaborativos, basados en contexto o contenido, híbridos.
  • Evaluación de sistemas recomendadores.
  • Estudio de casos.

Evaluaciones:

El alumno será evaluado a través de actividades prácticas y evaluaciones escritas individuales, donde deberá aplicar los conocimientos adquiridos a lo largo del curso. Específicamente, la evaluación se organizará en torno a las 2 unidades del curso, según la siguiente ponderación:

Control escrito unidad I.                   

20%

Control escrito unidad II.                    

20%

Laboratorio práctico unidad I.

30%

Laboratorio práctico unidad II.           

30%

CURSO 4: COMPUTACIÓN DE ALTO RENDIMIENTO Y TEORÍA DE GRAFOS PARA BIG DATA

Horas directas: 36 horas.
Créditos: 5 créditos.

Objetivos específicos:

  1. Entender los principales desafíos para el procesamiento paralelo de datos.
  2. Conocer y aplicar modalidades de procesamiento de datos basadas en recursos elásticos en la nube, así como las principales tecnologías para el almacenamiento y procesamiento distribuido de grandes cantidades de datos
  3. Describir los principales desafíos del uso de grafos en problemas del tipo Big Data.
  4. Conocer y aplicar representaciones gráficas para el modelamiento de distintas fuentes de datos, las principales técnicas para el uso de grafos como herramienta analítica y técnicas basadas en grafos para determinar métricas de distancia y redes semánticas.

Contenidos

Unidad I: Computación de alto rendimiento para Big Data.

  • Introducción al procesamiento paralelo de datos.
  • Uso de recursos elásticos y procesamiento en la nube.
  • Modelos para almacenamiento distribuido de archivos en clusters.
  • Modelos para manejo distribuido de memoria en clusters.
  • Modelos para ejecución distribuida de proceso en clusters.
  • Procesamiento en unidades gráficas (GPUs-graphics processing unit).

Unidad II: Teoría de grafos para Big Data.

  • Conceptos fundamentales de teoría de grafos: grado, isomorfismos, conectividad, centralidad, traversabilidad, búsqueda y ranking, métricas de distancia.
  • Base de datos para grafos.
  • Grafos como herramienta analítica para Big Data.
  • Grafos para modelamiento y análisis de datos espaciales y redes sociales.
  • Grafos para modelamiento y análisis de datos dinámicos.
  • Grafos como herramienta de modelamiento y descubrimiento de patrones semánticos.
  • Estudio de casos.
Equipo Docente

JEFE DE PROGRAMA
ALVARO SOTO A., PHD.
Profesor Asociado, Departamento de Ciencia de la Computación, Escuela de Ingeniería, UC; Master of Science, Louisiana State University, EE.UU.; Doctor of Philosophy in Computer Science, Carnegie Mellon University, EE.UU.

EQUIPO DOCENTE
EDUARDO GRAELLS-GARRIDO, PHD.
Investigador del Centro de Investigación y Desarrollo de Telefónica, Chile; Ingeniero Civil en Computación, Universidad de Chile; Doctor of Philosophy en Informática, Universitat Pompeu Fabra, España.

HANS LOBEL D., ©PHD
Profesor Instructor, Departamento de Ciencia de la Computación, Escuela de Ingeniería, UC; Ingeniero Civil en Ciencia de la Computación, UC; Magíster en Ciencias de la Ingeniería, UC; Candidato a Doctor en Ciencias de la Ingeniería, UC.

DENIS PARRA S., PHD
Profesor Asistente UC; Ingeniero Civil en Informática, Universidad Austral de Chile; Doctor of Philosophy in Information Science, University of Pittsburgh, EE.UU.

KARIM PICHARA B., PHD.
Profesor Asistente, Departamento de Ciencia de la Computación, Escuela de Ingeniería, UC; Ingeniero Civil de Industrias con Mención en Computación, UC; Magíster en Ciencias de la Ingeniería, UC; Doctor en Ciencias de la Ingeniería, UC.

JUAN REUTTER D. PHD.
Profesor Asistente, Departamento de Ciencia de la Computación, Escuela de Ingeniería, UC; Ingeniero Civil en Ciencia de la Computación, UC; Magíster en Ciencias de la Ingeniería, UC; Doctor of Philosophy in Computer Science, University of Edinburgh, United Kingdom.

CRISTIAN RUZ R., PHD.
Profesor Asistente, Departamento de Ciencia de la Computación, Escuela de Ingeniería, UC; Ingeniero Civil en Ciencia de la Computación, UC; Magíster en Ciencias de la Ingeniería, UC; Doctor of Philosophy en Informática, Université de Nice Sophia Antipolis, Francia.

ALVARO SOTO A., PHD.
Profesor Asociado, Departamento de Ciencia de la Computación, Escuela de Ingeniería, UC; Master of Science, Louisiana State University, EE.UU.; Doctor of Philosophy in Computer Science, Carnegie Mellon University, EE.UU.

* EP (Educación Profesional) de la Escuela de Ingeniería se reserva el derecho de remplazar, en caso de fuerza mayor, a él o los profesores

Metodología

Todas las actividades teóricas y prácticas buscan potenciar las habilidades de capacidad de análisis, toma de decisiones y el trabajo en equipo, a través de la presencia y participación del alumno en las sesiones de los cursos.

El marco metodológico combina diferentes métodos de enseñanza, con el propósito de lograr un alto nivel de aprendizaje en los alumnos. Para ello se contemplan:

•    Exposiciones conceptuales y participativas apoyadas por material audio visual.
•    Clases expositivas e interactivas, donde el profesor realizará un juego de preguntas a los alumnos, con el propósito de aprovechar la historia y experiencia de los participantes.
•    Actividades prácticas de análisis, ajustadas a las necesidades e intereses de los participantes y sus empresas; éstas se realizarán en grupos conformados por 3 ó 4 personas.
•    Análisis colectivos de casos, al finalizar las actividades prácticas.
•    Revisión y discusión de lecturas, y casos escritos que serán proporcionados por los docentes.

Evaluación

El alumno será evaluado a través de actividades prácticas y evaluaciones escritas individuales, donde deberá aplicar los conocimientos adquiridos a lo largo del curso. Específicamente, la evaluación se organizará en torno a las 2 unidades del curso, según la siguiente ponderación:

Control escrito unidad I.                   

20%

Control escrito unidad II.                    

20%

Laboratorio práctico unidad I.

30%

Laboratorio práctico unidad II.           

30%

Requisitos de aprobación

La nota final del Diplomado se obtendrá a través del promedio aritmético de las notas de los 4 cursos, donde cada curso tiene una ponderación de 25%.

Para aprobar el diplomado, el alumno debe cumplir con dos requisitos:

A) Un mínimo de asistencia de 85% a todo evento.
B) Requisito académico: Se cumple aprobando todos los cursos con nota mínima 4,0.

Los alumnos que aprueben las exigencias del programa recibirán un certificado de aprobación otorgado por la Pontificia Universidad Católica de Chile.

Nota: Las personas que no cumplan con el requisito de aprobación no recibirán ningún tipo de certificación.

Bibliografía
  • IAN GOODFELLOW, YOSHUA BENGIO, AARON COURVILLE, “Deep Learning”, MIT Press, 2016.
  • RICHARD BRATH, DAVID JONKER, “Graph Analysis and Visualization: Discovering Business Opportunity in Linked Data”, Wiley, 2015.
  • ADAM GIBSON, JOSH PATTERSON, “Deep Learning: A Practitioner"s Approach”, O"Reilly, 2016.
  • PETER BUHLMANN, PETROS DRINEAS, MICHAEL KANE, MARK VAN DER LAAN, “Handbook of Big Data”, Chapman & Hall/CRC, 2016.
  • ARTHUR BENJAMIN, GARY CHARTRAND, PING ZHANG, “The Fascinating World of Graph Theory”, Princeton University Press, 2015.
  • JURE LESKOVEC, ANAND RAJARAMANAN, JEFFREY ULLMAN, “Mining Massive Datasets”. Cambridge University Press, 2014.
  • IAN ROBINSON, JIM WEBBER, “Graph Databases”, O"Reilly, 2013.
  • IOANNIS PITAS, “Graph-Based Social Media Analysis”, Chapman & Hall/CRC, 2016.
  • TOM WHITE, “Hadoop: The Definitive Guide, 4th edition”. O"Reilly Media, 2015.
  • JONATHAN OWENS, BRIAN FEMIANO, JON LENTZ, “Hadoop Real World Solutions Cookbook”, Packt Publishing, 2013.
  • TIMOTHY MASTERS, “Deep Belief Nets in C++ and CUDA C”, CreateSpace Independent Publishing Platform, 2015.
  • PETER FLACH, “Machine Learning: The Art and Science of Algorithms that Make Sense of Data”, Cambridge University Press, 2012.
  • FRANCESCO RICCI, LIOR ROKACH, BRACHA SHAPIRA, PAUL RANTOR, “Recommender Systems Handbook”, Springer, 2011.
  • DIETMAN JANNACH, MARKUS ZANKER, ALEXANDER FELFERNIG, GERHARD FRIEDRICH, “Recommender Systems: An Introduction”, Cambridge, University Press, 2010.
  • DENIS PARRA, SHAGHAYEGH SAHEB, “Recommender Systems: Sources of Knowledge and Evaluation Metrics”, Springer, 2012.
  • TAMATA MUNZNER, “Visualization Analysis and Design”, CRC Press, 2014.
  • EDWARDS TUFTE, “The Visual Display of Quantitative Information”, Graphics Press, 2001.
  • STEPHEN FEW, “Now You See It”, Analytics Press, 2009.
  • ALBERTO CAIRO, “The Functional Art”, New Riders, 2013.
  • NATHAN YAU, “Visualize This”, Wiley, 2011.
  • ROBERTO TAMASSIA, “Handbook of Graph Drawing and Visualization”, CRC Press, 2013.
  • RALPH KIMBALL, MARGY ROSS, The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling, Wiley, 2nd edition, 2002.
  • T. HASTIE, R. TIBSHIRANI, J. FRIEDMAN. The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer, 2001.
  • TOM MITCHELL, Machine Learning, McGraw Hill, 1997.
  • CHRISTOPHER BISHOP, “Pattern Recognition and Machine Learning”. Springer, 2007.
Proceso de Admisión

Las personas interesadas deberán completar la ficha de postulación ubicada al lado derecho de esta página web. Un correo de confirmación solicitará enviar los siguientes documentos a la coordinación a cargo de coordinación:

• Fotocopia Carnet de Identidad.
• Fotocopia simple del Certificado de Título o del Título.
• Curriculum Vitae actualizado.

- El postulante será contactado, para asistir a una entrevista personal (si corresponde).con el Jefe de Programa del Diplomado o su Coordinadora Académica.
- Las postulaciones son hasta una semana antes del inicio del Diplomado/Curso o hasta completar las vacantes.
- No se aceptarán postulaciones incompletas.
- El postular no asegura el cupo, una vez aceptado en el programa, se debe cancelar el valor para estar matriculado.

•  El Programa se reserva el derecho de suspender la realización del diplomado/curso si no cuenta con el mínimo de alumnos requeridos. En tal caso se devuelve a los alumnos matriculados la totalidad del dinero en un plazo aproximado de 10 días hábiles con un vale vista que deberá ser retirado en el  Banco Santander.
•  A las personas matriculadas que se retiren de la actividad antes de la fecha de inicio, se les devolverá el total pagado menos el 10% del total del arancel. A las personas que se retiren  una vez iniciado el programa por motivos de fuerza mayor, se les cobrarán las horas cursadas hasta la fecha  de la  entrega de solicitud formal de retiro más el 10% del valor total del programa. En ambos casos la devolución demorará 15 días hábiles y se efectuará a través de un vale vista que deberá ser retirado en el  Banco Santander.

imagen
SOLICITAR MÁS INFORMACIÓN
POSTULA AQUÍ