Diplomado en Big Data y Ciencia de Datos

La disponibilidad de datos masivos (big data) y el desarrollo de técnicas de análisis (data science) y de algoritmos (machine learning) está impactando muchas áreas de la ciencia, la ingeniería, la industria e incluso de la sociedad; desde el análisis de los datos del clima hasta la modelación de patrones de tráfico y el procesamiento de millones de clientes en línea, la enorme cantidad de data genera nuevas oportunidades y desafíos.

Este diplomado permite que profesionales que no necesariamente provienen de disciplinas relacionadas con la Ingeniería o la Informática puedan desarrollar las habilidades necesarias para trabajar y sacar partido de las oportunidades que el escenario de big data genera.  


Descripción

Para enfrentar los nuevos desafíos de datos, es necesario saber almacenar, administrar, procesar y analizar grandes cantidades de datos. Pero los desafíos están más allá de la escala, dado que la complejidad de los datos requiere nuevas y poderosas técnicas analíticas. Finalmente, es crucial tener habilidades para comunicar e interpretar los resultados de este análisis.  El manejo de éstas habilidades cae bajo el dominio de los Data Scientists o Data Engineers profesionales que son altamente demandados por el mercado. El diplomado entrega las competencias básicas para poder comenzar a trabajar con datos rápidamente o iniciarse en el camino hacia convertirse en un especialista en el futuro.

Este diplomado es de tipo presencial, complementado con actividades no presenciales y horas de estudio. Las clases son tanto de tipo expositivo como talleres aplicados con metodología hands on. Todas las actividades teóricas y prácticas buscan potenciar las habilidades de capacidad de análisis, toma de decisiones y el trabajo en equipo, a través de la presencia y participación del alumno en las sesiones de los cursos.

Dirigido a

El diplomado está orientado a profesionales que deseen enfrentarse al desafío de sacar el mejor provecho posible a datos de gran tamaño y complejidad, a través de nuevas e innovadoras técnicas, con el objetivo de impactar la toma de decisiones claves en sus negocios. Está orientado a profesionales como Ingenieros, Economistas, y otros profesionales licenciados y/o con experiencia en áreas afines, que requieren conocimientos y habilidades en la materia.

Prerrequisitos

El alumno debe estar en posesión de un grado académico o de un título profesional Universitario:

  • Licenciatura en Ciencias de la Ingeniería o Título de Ingeniería Civil.
  • Otro Grado Académico o título Profesional Universitario en una disciplina afín, como Ingeniería Comercial, Economía, Agronomía, etc., cuyo nivel sea al menos equivalente al necesario para obtener el Grado de Licenciado.
  • Experiencia laboral de 2 años en al área o áreas afines.
Objetivo de aprendizaje
  • Analizar tecnologías claves referentes a la ciencia de datos y analíticas de negocios: minería de datos, aprendizaje de datos, técnicas de visualización, modelamiento predictivo y estadísticas.
  • Identificar lenguajes de programación estadística y herramientas de Big Data, y aplicarlas en casos prácticos.
  • Aplicar principios de ciencia de datos al análisis de problemas de negocio, utilizando herramientas y tecnologías de punta.
Desglose de cursos

DESGLOSE DE CURSOS
Seminario: Introducción a Big Data, Data Science e Inteligencia Artificial 
Seminar: Introduction to Big Data, Data Science and Artificial Intelligence
Horas cronológicas: 4

Resultados de Aprendizaje

  • Identificar las principales diferencias Big Data, Data Science e Inteligencia Artificial y qué esperar de éstos.
  • Reflexionar sobre el impacto de estas tecnologías y técnicas en los negocios y la vida actual

Contenidos:

  • Tendencias Tecnológicas y la estrategia: Big Data, IoT, Análisis de Datos, Inteligencia Artificial y Machine Learning
  • Big Data: Definiciones, arquitecturas , Map-Reduce, Hadoop, Spark
  • Bases de Datos, Data Warehouses y Data Lakes

Metodología de enseñanza y aprendizaje:

  • Clases expositivas y análisis de situaciones.

Evaluación de los aprendizajes:
No aplica.

Nombre del curso: Arquitectura e Infraestructura para Big Data y Data Science
Nombre en inglés: Architecture and Infrastructure for Big Data and Data Science
Horas cronológicas: 24; Créditos: 5.

Resultados de Aprendizaje

  • Comprender las principales tecnologías asociadas a Big Data y reconocer bajo qué contexto utilizarlas.
  • Diseñar arquitecturas de alto nivel en proyectos relacionados a Business Intelligence y Big Data.
  • Generar ambientes de alta disponibilidad para proyectos de Data Science y Big Data.
  • Entender los conceptos de infraestructura Big Data en servicios de consumo On Demand (servicios en la nube).

Contenidos:

  • Tecnologías y servicios en la nube para BI, Big Data y Data Science.
  • Procesamiento de datos eficiente con tecnologías Big Data
  • Diseño de arquitecturas de alta disponibilidad para BI y Big Data
  • Diseño y uso de infraestructura de alto rendimiento para algoritmos de Data Science.
  • Estrategias y mejores prácticas en el desarrollo de componentes para arquitecturas de procesamiento masivo de datos
  • Diferencias entre soluciones de datos tradicionales y soluciones de Big Data
  • Gestión operativa de la infraestructura en un modelo de servicio continuo

Metodología de enseñanza y aprendizaje:

El aprendizaje en cada etapa del curso se basará en un inicio en la enseñanza de conceptos teóricos asociados a Big Data, Business Intelligence y Data Science, para luego continuar con ejemplos de proyectos y formas de abordar las soluciones a las problemáticas, para finalmente entregar ejercicios de casos que los estudiantes tendrán que desarrollar en clases. 

Evaluación de los aprendizajes:

  • 1 prueba teórica, para evaluar el aprendizaje de los conceptos técnicos y tecnologías           (20%)
  • 2 análisis de casos basados en proyectos, para medir la capacidad de entender los problemas de cada proyecto y generar soluciones de alto nivel para éstos, tanto a nivel arquitectónico como de infraestructura      (40% cada uno) 

Nombre del curso: Programación en R para Ciencia de Datos
Nombre en inglés: Programming for Data Science
Horas cronológicas: 24; Créditos: 5

Resultados de Aprendizaje

  • Revisar conceptos básicos de programación usando el lenguaje R
  • Usar el lenguaje R como una herramienta para analizar datos
  • Utilizar los sistemas gráficos de R para visualización de datos
  • Analizar conjuntos de datos utilizando los principios del análisis exploratorio de datos
  • Explicar la información visual contenida en los gráficos que generan R
  • Explicar y presentas los resultados de un análisis de datos

Contenidos:

  • Conceptos generales de programación en R: variables, estructuras de control, condicionales
  • Funciones y paquetes
  • Vectores y Matrices
  • Listas
  • Data Frames
  • Importación, limpieza y filtrado de datos
  • Dataframes: construcción y mezcla
  • Visualización gráfica
  • Análisis estadístico de datos con R: población y muestreo, tipos de datos, tablas de frecuencias, estadísticos descriptivos, coeficiente de posición y dispersión, errores de los procesos de medición, aplicaciones
  • Distribuciones de probabilidad
  • Regresión lineal con R
  • Regresión logística con R
  • Series de tiempo

Metodología de enseñanza y aprendizaje:
El curso se desarrollará en clases expositivas y talleres prácticos.

Evaluación de los aprendizajes:

  • 2 controles                                                                                                                                               30%
  • 3 talleres                                                                                                                                                   70%

Nombre del curso: Minería de Datos
Nombre en inglés: Data Mining
Horas cronológicas: 24; Créditos: 5

Resultados de Aprendizaje

  • Conocer y comprender las principales teorías y prácticas de la emergente área de Minería de Datos
  • Desarrollar soluciones a problemas reales de Big Data y ciencia de datos que involucren la necesidad de técnicas de Minería de Datos
  • Implementar soluciones usando herramientas de software de Minería de Datos aplicándolas en datos reales.

Contenidos:

  • Introducción: El concepto, el proceso y los problemas en que es relevante.
  • Análisis de la canasta de mercado y reglas de asociación
  • Clasificación: Árboles de Decisión, K-vecinos cercanos.
  • Clustering: K-Means, Mean-Shift y Clustering aglomerativo.
  • Selección de modelos (hold out, cross validation)

Metodología de enseñanza y aprendizaje:

  • Clases expositivas.
  • Actividades prácticas en laboratorios computacionales para aplicar las técnicas aprendidas en datos reales.  Se les entrega a los alumnos una base de datos (dataset) y se trabaja en ella extrayendo patrones, clusters y otras operaciones típicas de minería de datos. Se utiliza el lenguaje de programación aprendida (R) y se buscan conclusiones de utilidad para un determinado objetivo.
  • Lecturas individuales.

Evaluación de los aprendizajes:

  • Control 1                                                                                                                                                   20%
  • Control 2                                                                                                                                                   20%
  • Laboratorio computacional 1                                                                                                                30%
  • Laboratorio computacional 2                                                                                                                30%

Nombre del curso: Visualización de Datos
Nombre en inglés: Data Visualization
Horas cronológicas: 24; Créditos: 5

Resultados de Aprendizaje

  • Conocer y entender la motivación e importancia de la visualización de datos.
  • Entender y aplicar los conceptos fundamentales de las técnicas de visualización, comunicación y diseño efectivo.
  • Manejar técnicamente los principales programas de visualizaciones.
  • Poder explorar datos de manera gráfica.
  • Diseñar e implementar reportes y tableros de manera efectiva.

Contenidos:
Unidad 1: Teoría sobre Visualización de Datos

  • Introducción: breve historia, disciplinas de comunicación gráfica e importancia de visualizar datos
  • La “des-Excelización” y democratización de datos en la empresa
  • Condiciones necesarias para una visualización: datos y caso
  • Objetivos de la visualización: contenido vs usuario, acceso, interacción y actualización
  • Fuentes de información: sistemas transaccionales, sistemas web, datos públicos
  • Preparación de datos: integridad, calidad, homologación
  • Generalidades sobre tipos de datos: medidas, dimensiones
  • Atributos a usar en una visualización
  • Análisis de los tipos de gráficos más comunes para representar datos
  • Exploración visual de datos
  • Indicadores, Reportes y Dashboards
  • Presentación de las herramientas principales del mercado
  • Visualizaciones avanzadas: scripting

Unidad 2:  Visualización de Datos Aplicada

  • Datos de empresa: reportes transversales a industrias y vistas especificas
  • Revisión de casos de uso de Dashboards generales
  • Revisión de casos de uso específicos por industrias
  • Revisión de casos de uso por niveles de usuarios: analistas vs C-level

 

Metodología de enseñanza y aprendizaje:

  • Clases teóricas
  • Análisis interactivos de casos
  • Actividades prácticas

Evaluación de los aprendizajes:

  • Control Unidad 1                                                                                                                                     30%
  • Actividad práctica Unidad 2                                                                                                                   30%
  • Actividad práctica proyecto grupal Unidad 2                                                                                     40%

Nombre del curso: Ciencia de Datos y sus Aplicaciones
Nombre en inglés: Data Science and its Applications
Horas cronológicas: 24; Créditos: 5

Resultados de Aprendizaje

  • Descubrir y evaluar oportunidades de negocio accionables a partir del análisis de datos.
  • Entender y aplicar los conceptos y métodos fundamentales de Data Science a problemas reales de negocio, interpretando adecuadamente los resultados y generando acciones de valor agregado.
  • Desarrollar modelos descriptivos, predictivos y prescriptivos sobre datos de diversas industrias.

Contenidos:

  • La evolución de la ciencia de datos y el análisis predictivo para el apoyo a la toma de decisiones
  • Las características que definen a una organización data-driven
  • Cómo las empresas modernas estás generando productos y servicios analíticos
  • Metodologías de análisis de datos y búsqueda de patrones
  • Generación de modelos descriptivos, análisis de casos reales y trabajo práctico
  • Generación de modelos predictivos y prescriptivos, análisis de casos reales y trabajo práctico.
  • Cómo interpretar modelos analíticos para tomar mejores decisiones de negoci

Metodología de enseñanza y aprendizaje:
El curso se desarrollará en clases expositivas y talleres prácticos. El alumno, para complementar su aprendizaje, deberá participar activamente en clases, revisar material complementario y desarrollar proyectos prácticos.

  • Clases expositivas.
  • Talleres y desarrollo de proyectos prácticos
  • Estudio y discusión de conceptos en clases

Evaluación de los aprendizajes:
La evaluación del curso consistirá en la realización de dos proyectos grupales en los que se aplicarán los contenidos aprendidos en el curso y una nota de participación en clases. La nota final del curso se calculará de la siguiente forma:

  • 30% Nota de Participación
  • 70% Promedio proyectos prácticos

Nombre del curso: Fundamentos y Aplicaciones de Machine Learning y Deep Learning 
Nombre en inglés: Machine Learning and Deep Learning Fundamentals and Applications
Horas cronológicas: 24; Créditos: 5

Resultados de Aprendizaje:

  • Entender en qué consiste el Aprendizaje Automático o Machine Learning (ML) y Aprendizaje Profundo o Deep Learning (DL), identificando potencias y limitaciones para resolver diferentes tipos de problemas en diferentes industrias.
  • Comprender y visualizar situaciones y su contexto en las cuáles ML podrá resolver problemas de gran valor de negocio.
  • Desarrollar un plan de implementación de proyectos y/o capacidades de ML en una empresa, analizando y evaluando infraestructura, servicios, y disponibilidad de datos.
  • Visualizar y proponer un plan estratégico de desarrollo de tecnología basada en ML, alineado con la estrategia corporativa.

Contenidos:

  • Aprendizaje Automático Supervisado

-                 Modelos de ML, capacidades y características, así como ejemplos de aplicación.

-                 Metodología de desarrollo de modelos

-                 Tratamiento y refinamiento de datos

  • Aprendizaje Profundo Supervisado

-                 Conceptos esenciales y diferencias con ML más básico

-                 Redes Neuronales Convolucionales y Redes Neuronales Recurrentes

-                 Análisis dimensional, entrenamiento, y tratamiento de grandes datos.

  • Aprendizaje Automático No-Supervisado

-                 Diferentes modelos como K-Means, HDBSCAN, Restricted Boltzmann Machines, entre otros.

  • Aplicaciones Industriales

-                 Clasificación, predicción, y recomendación, en contextos industriales y retail.

-                 Procesamiento de lenguaje natural, en atención de clientes y ámbito legal.

  • El futuro Inmediato en ML y DL

-                 Hacia el razonamiento artificial

Metodología de enseñanza y aprendizaje:
Las sesiones de clase combinarán las siguientes actividades, según el énfasis adecuado de los contenidos programados:

  • Sesiones expositivas, mostrando aspectos teóricos y aplicaciones industriales de ejemplo.
  • Lista de referencias para lectura individual hasta la siguiente sesión de clases.
  • Discusión grupal de casos presentados, también de las lecturas, y su correlación en contextos industriales locales.
  • Ejercicios prácticos aplicando conceptos vistos en clases.
  • Evaluación de conocimientos en la forma de prueba escrita.

Evaluación de los aprendizajes:

  • Un control de lectura, de duración de 15 min, por cada sesión de clases, a excepción de la primera y última sesiones. Se elimina uno de los controles y el promedio tiene una ponderación del 50% de la nota final.
  • Examen final, de duración de 1 hora aproximadamente, cuya nota pondera un 50% de la nota final.
Equipo Docente

JEFE DE PROGRAMA
Jaime Navón, PhD.
Profesor asociado del Departamento de Ciencia de la Computación, Pontificia Universidad Católica de Chile, Ingeniero Civil Electricista de la Universidad de Chile, Master en Computer Science del, Technion-Israel Institute of Technology, y un Ph.D en Computer Science de la University of North Carolina at Chapel Hill.

EQUIPO DOCENTE
Mauricio Arriagada
PhD(c) Ciencia de la Ingeniería, Pontificia Universidad Católica de Chile – Chile , Ingeniero Civil en Computación e Informática, Universidad de Tarapacá – Chile. Master in Computer Science, University of Northern Iowa – USA. Master en Ingeniería de Software, Universidad de Tarapacá – Chile. Director Magister en Procesamiento y Gestión de Información UC.

Néstor Campos
Gerente de Proyectos Estratégicos y Jefe de Arquitectura de Soluciones en Metric Arts. Con títulos en Ingeniería de Ejecución en Informática (DuocUC) y Máster en Ingeniería Informática (U. Andrés Bello). Cuenta con más de 8 años de experiencia en el desarrollo de software en todas sus etapas (desde el diseño para la puesta en producción), pasando por proyectos de Inteligencia de Negocios y Big Data, específicamente en el diseño de arquitecturas confiables y tolerante a fallos para el procesamiento de datos para su posterior consumo por otras áreas de negocio, tanto en servidores internos de empresas como en servidores disponibles en plataformas en la nube (Azure, Google y Amazon).

Jaime Caiceo
Magíster en Ciencias de la Ingeniería, Pontificia Universidad Católica de Chile. Ingeniero Civil de Industrias, Pontificia Universidad Católica de Chile. Director Ejecutivo Metric Arts. Profesor de Diplomados de Gestión del Conocimiento- Gestión Estratégica con TI para Profesionales- Business Intelligence, Facultad de Economía y Negocios, Universidad de Chile. Profesor de Gestión de Marketing- Arquitectura de Sistemas de Información-Sistemas de Información en la Pontificia Universidad Católica de Chile.

Matías Casassus
Ingeniero Civil Industrial, Pontificia Universidad Católica de Chile, especializado en Business Intelligence y Data Science con un importante aporte de valor en la gestión integral de proyectos de estudios. Gerente de Data Science en Tiaxa desde 2017, previamente consultor de Business Inteligence de diversas empresas e industrias. Experiencia enfocada en el desarrollo de sistemas de punta destinados a mejorar el conocimiento del negocio y potenciar resultados.

Jaime Navón, PhD.
Profesor asociado del Departamento de Ciencia de la Computación, Pontificia Universidad Católica de Chile es Ingeniero Civil Electricista de la Universidad de Chile, tiene un Master en Computer Science del, Technion-Israel Institute of Technology, y un Ph.D en Computer Science de la University of North Carolina at Chapel Hill.

Rodrigo Sandoval
Ingeniero Civil, mención Ciencias de la Computación y Master of Science, Pontificia Universidad Católica de Chile (UC). Profesor del Departamento de Ciencia de la Computación UC en las áreas de Ingeniería de Software e Inteligencia Artificial, en pregrado y postgrado. CEO y fundador de R: Solver.
* EP (Educación Profesional) de la Escuela de Ingeniería se reserva el derecho de remplazar, en caso de fuerza mayor, a él o los profesores indicados en este programa.

Requisitos de aprobación

El diplomado será evaluado con una sola nota de escala de 1,0 (uno coma cero) a 7,0 (siete coma cero). La aprobación será con nota 4,0 (cuatro comas cero) o superior del promedio simple de las notas finales de todos los cursos.
Para la aprobación el diplomado, el alumno debe cumplir con dos requisitos:
A)            Mínimo de asistencia del 75% a todo el diplomado.
B)            Aprobar todos los cursos con nota mínima 4,0.
Para aprobar los programas de diplomados se requiere la aprobación de todos los cursos que lo conforman y en el caso que corresponda, de la evaluación final integrativa.
Los alumnos que aprueben las exigencias del programa recibirán un certificado de aprobación digital otorgado por la Pontificia Universidad Católica de Chile. 

El alumno que no cumpla con una de estas exigencias reprueba automáticamente sin posibilidad de ningún tipo de certificación.

Bibliografía

Bibliografía Mínima

  • Big Data Architect"s Handbook (by Syed Muhammad Fahad Akhtar, Release Date: June 2018)
  • Business Intelligence Tools for Small Companies (by Juan Valladares, Albert Nogués and Publisher: Apress Release Date: May 2017).
  • “Evaluating Machine Learning Models”. Zheng; 2015
  • “The New AI Market”. Naimat; 2016
  • “Practical Artificial Intelligence in the Cloud”. Barlow; 2017
  • Inmon, W.H., “Building the DataWarehouse (3rd Ed.)”, John Wiley & Sons, 2002.
  • Dyche, J., “e-Data: Turning Data into Information with Data Warehousing”, Addisson Wesley, 2000.
  • Bishop, C., “Pattern Recognition and Machine Learning”, Springer, 2006.
  • Jan, H., Kamber, M., “Data Mining”, Morgan Kaufmann, 2001.
  • Foster Provost, Tom Fawcett, Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking. O"Reilly Media, 2013.
  • John W. Foreman, Data Smart: Using Data Science to Transform Information into Insight. Wiley, 2013.
  • Nir Kaldero, Data Science for Executives: Leveraging Machine Intelligence to Drive Business ROI. Lioncrest Publishing, 2018.

 

Bibliografía Complementaria

  • Inteligencia comercial (by Luis Bassat Release Date: May 2011).
  • “Achieving Real Outcomes from AI”. Kureishy, Meley, McKenzie; 2019
  • “The Future of Machine Intelligence”. Beyer; 2016
  • “The Culture of Big Data”. Barlow; 2015
  • “Disruptive Possibilities: How Big Data Changes Everything”. Needham; 2015
  • Scalable Big Data Architecture: A practitioners guide to choosing relevant Big Data architecture. 1st edition – Apress.
  • Making Big Data work for your business – Packt
  • Kimball, R., “The data warehouse toolkit: the complete guide to dimensional modeling”, John Wiley & Sons, 2002.
  • Hastie, T., Tibshirani, R., Friedman, J., “The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2nd Ed.)", Springer, 2009.
  • Berry, M., Linoff, G., “Data Mining Techniques for Marketing, Sales and Customer Support”, Wiley, 1997.
  • Berson, A., Thearling, K., Smith, S., “Building Data Mining Applications for CRM”, McGraw-Hill, 1999.
Proceso de Admisión

Las personas interesadas deberán enviar los documentos que se detallan más abajo al correo programas@ing.puc.cl.

  • Fotocopia Carnet de Identidad.
  • Fotocopia simple del Certificado de Título o del Título.
  • Curriculum Vitae actualizado.


    - El postular no asegura el cupo, una vez aceptado en el programa, se debe cancelar o documentar el valor, para estar matriculado.
    VACANTES: 45

    No se tramitarán postulaciones incompletas.

    El Programa se reserva el derecho de suspender la realización del diplomado si no cuenta con el mínimo de alumnos requeridos. En tal caso se devuelve a los alumnos matriculados la totalidad del dinero en un plazo aproximado de 10 días hábiles.

    A las personas matriculadas que se retiren de la actividad antes de la fecha de inicio, se les devolverá el total pagado menos el 10% del total del arancel.
imagen
SOLICITAR MÁS INFORMACIÓN
POSTULA AQUÍ