Diplomado en Minería de datos

Estudia en la Universidad Nº 1 de Latinoamérica | Pontificia Universidad Católica de Chile

Acerca del programa:

"Domina Data Mining y construye modelos para hacer predicciones. Estos valiosos datos pueden ser usados para tomar mejores decisiones en la organización.

Abierto a todo tipo de profesionales. No se requiere conocimientos previos de programación, ni estadística."

Foto de Diplomado UC Online en Minería de datos

Dirigido a:

  • Todas las personas que necesiten o estén interesadas en adquirir las habilidades para aplicar técnicas de Data Mining a su trabajo.
  • Todas las personas que han aprendido lo esencial de Data Mining pero necesitan profundizar y adquirir algo de fundamentos estadísticos.

Jefe de Programa

Jaime Navón Cohen

Ph.D. Computer Science, University of North Carolina at Chapel Hill. Master of Science, Technion-Israel Institute of Technology. Ingeniero Civil Electricista, Pontificia Universidad Católica de Chile. Profesor Asociado del Departamento de Ciencia de la Computación, Pontificia Universidad Católica de Chile.
linkedin twitter

Equipo Docente

keyboard_arrow_down

Mauricio Arriagada

Doctor en Ciencias de la Ingeniería, Pontificia Universidad Católica de Chile. Master in Computer Science, University of Northern Iowa (USA). Master en Ingeniería de Software e Ingeniero Civil en Computación e Informática, Universidad de Tarapacá (Chile).

Jaime Navón Cohen 

Ph.D. Computer Science, University of North Carolina at Chapel Hill. Master of Science, Technion-Israel Institute of Technology. Ingeniero Civil Electricista, Pontificia Universidad Católica de Chile. Profesor Asociado del Departamento de Ciencia de la Computación, Pontificia Universidad Católica de Chile.

Nicolás Alvarado Monárdez

Licenciado en Matemáticas y Magíster en Matemáticas de la Pontificia Universidad Católica de Chile. Ph.D. (c) en el Departamento de Ciencia de la Computación de la Pontificia Universidad Católica de Chile.

* EP (Educación Profesional) de la Escuela de Ingeniería se reserva el derecho de reemplazar, en caso de fuerza mayor, a él o los profesores indicados en este programa.

Descripción

Se dice que los datos son el nuevo petróleo. Al igual que en la minería tradicional es necesario extraer laboriosamente desde una montaña de áridos el material valioso mediante técnicas sofisticadas y con el uso de herramientas especializadas, los elementos de valor de los datos deben ser también extraídos o minados. La minería de datos o Data Mining es una disciplina que comprende estas técnicas y herramientas, de modo que, aquella montaña de datos que ha sido recopilada en el tiempo pueda ser usada para entender de mejor forma el negocio y construir modelos que permitan hacer predicciones, que pueden ser usadas en las decisiones y las acciones de la empresa.

Este diplomado se diferencia de otros similares, debido a que no requiere conocimientos previos de programación ni tampoco de estadística, ya que incluye un curso para aprender a programar en Python y un curso de fundamentos de estadística. Además, los otros dos cursos de Minería de datos permiten llegar a un nivel de profundidad más alto.

La modalidad del diplomado es 100% en línea y se estructura sobre cuatro cursos que utilizan técnicas metodológicas activas. Gracias a estas últimas, el participante puede interactuar con sus pares y profesor-tutor a través de los recursos tecnológicos que provee la plataforma educativa virtual.

Requisitos de Ingreso

  • Licenciatura, título profesional o técnico de mínimo 4 años.
  • Se recomienda contar con: 
    •  Conocimientos básicos de programación en Phyton.
    •  Conocimientos de minería de datos o aprendizaje de máquina
    •  Manejo de computación a nivel usuario, considerando el uso de planillas Excel a nivel medio
    • Dos años de experiencia laboral.


Objetivos de Aprendizaje

  • Escribir programas simples usando el lenguaje Python.
  • Analizar datos de forma exploratoria para explicar la correlación entre variables, aplicando conceptos estadísticos.
  • Predecir el comportamiento de una organización a través de modelos que incorporan algoritmos de aprendizaje de máquina.

Metodología

Horario: Online

Duración: 300 horas (140 horas directas) *La certificación es por 300 horas.

Créditos: 20

Lugar de realización: Online

Desglose de cursos

CURSO 1

Nombre del curso: Herramientas básicas de programación en Python

Nombre en inglés: Basic Python programming tools

Horas cronológicas: 75 (35 horas directas)

Créditos: 5  

Descripción de curso

En este curso se aprenden técnicas básicas de programación utilizando el lenguaje Python. Los alumnos aprenden a plantear la solución de un problema en forma algorítmica y a expresar esa solución utilizando los elementos del lenguaje Python. 

Resultados del Aprendizaje

  1. Identificar conceptos y operaciones básicas de programación, tales como variables, funciones, operadores lógicos.
  2. Utilizar los comandos de control de flujo y los ciclos para la dirigir y repetir eficientemente un conjunto de operaciones básicas.
  3. Emplear elementos básicos como tipos de archivos (.txt, csv), tipos de datos (texto, entero, decimal, listas), entre otros en el procesamiento de datos.
  4. Aplicar conceptos y herramientas básicas de programación, como lectura, escritura de archivos y edición masiva de datos, resolviendo problemas reales relacionados con el procesamiento de datos.
  5. Desarrollar programas en el lenguaje de programación Python que permitan resolver problemas sencillos.

Contenidos:

Introducción a la programación

  • Motivación
  • Secuencias de comandos en Python
  • Operaciones básicas
  • Creación y asignación de variables
  • Operaciones lógicas

Control de Flujo

  • Control de Flujo
  • Iteración y Ciclos

Tipos de datos y funciones

  • Enteros, decimales, textos y listas.
  • Manejo de strings de caracteres
  • Definición y uso de funciones
  • Listas

Procesamiento de datos

  • Listas de listas
  • Trabajo con archivos
  • Procesamiento de datos

Diccionarios y Tuplas

  • Listas y listas de listas
  • Diccionarios
  • Aplicaciones con listas y diccionarios
  • Tuplas como tipo de dato inmutable
  • Operaciones sobre tuplas
  • Combinando listas, tuplas y diccionarios

Funciones

  • Concepto de función
  • Definición de funciones
  • Parámetros y valores de retorno
  • Importación y llamado de módulos
  • Invocación de funciones y scope
  • Parámetros con nombre y parámetros por defecto
  • Funciones recursivas
  • Aplicación de funciones

Metodología de enseñanza y aprendizaje:

La modalidad de capacitación es online asincrónica, por lo que los participantes accederán a una plataforma educativa virtual (LMS). Las actividades se desarrollan en forma remota, lo que permite entregar flexibilidad en los horarios, de manera que cada participante pueda distribuir su tiempo y ser autónomo en su proceso de aprendizaje. No obstante, el proceso de enseñanza-aprendizaje se acompañará con un tutor, quien tendrá un rol de mediador y facilitador, ofreciendo apoyo a los participantes en aspectos técnicos y también administrativos durante la actividad de capacitación.  

Respecto a las estrategias de enseñanza - aprendizaje, se utilizarán videoclases, screencast y clases interactivas para la presentación de contenidos y actividades de aplicación que serán desarrolladas a partir de cuestionarios y tareas, dirigidas a que los participantes resuelvan problemas/situaciones aplicando los conocimientos aprendidos y comprobar la comprensión de los contenidos a través de test automáticos. 

Los participantes también contarán con foros abiertos de consulta, como apoyo a su proceso de aprendizaje, donde podrán interactuar con sus pares y tutor. 

Al inicio de cada curso se contará con una clase sincrónica en formato streaming, en que el jefe de programa o un profesor del programa, introducirán a los alumnos en las materias a abordar. 

Evaluación de los aprendizajes:

  • Tres pruebas individuales on-line, todas de igual ponderación              (40% en total)
  • Tres actividades individuales de aplicación, la tercera con doble ponderación      (60% en total)

 Bibliografía

Complementaria

  1. González, R. (2011). Python para todos. Creative Commons Reconocimiento 2.5 España. Descargable en http://mundogeek.net/tutorial-python/
  2. M. Lutz, (2013), Learning Python 5th Ed, O´Reilly.

 

CURSO 2

Nombre del curso: Estadística para ciencia de datos

Nombre en inglés: Statistics for data science

Horas cronológicas: 75 (35 horas directas)

Créditos: 5  

Descripción de curso

La mayor parte de las técnicas y algoritmos usados en el área de la ciencia de datos descansan en fundamentos estadísticos. El objetivo de este curso es entregar a los alumnos una base estadística mínima para construir sobre un fundamento robusto los conocimientos de minería de datos de los cursos posteriores. En este curso los alumnos aprenderán entre otros sobre técnicas de análisis exploratorio de datos, validación de hipótesis y regresión.

Resultados del Aprendizaje

  1. Producir desde un dataset histogramas y medidas estadísticas como parte de un análisis exploratorio de los datos.
  2. Mostrar en forma gráfica distribuciones empíricas de los datos.
  3. Modelar un problema en base a distribuciones analíticas conocidas.
  4. Analizar la interrelación entre dos o más variables.
  5. Evaluar la validez de una hipótesis en base a los datos. 

Contenidos:

Análisis exploratorio de datos e introducción a las distribuciones

  • Variables y transformaciones
  • Dataframes
  • Histogramas y su interpretación
  • Distribuciones

Distribuciones y funciones de probabilidad

  • Varianza y efecto del tamaño
  • Funciones de probabilidad
  • PMFs y sus gráficas
  • Distribuciones discretas

Funciones de probabilidad

  • Distribuciones continuas
  • Familia exponencial
  • Familia normal
  • Funciones de distribución acumulada (CDFs)

Modelación de distribuciones e introducción a las relaciones entre variables

  • Distribución exponencial y distribución normal
  • Gráficas y distribución lognormal
  • Diagramas de dispersión
  • Correlación

Relación entre variables, correlación y una introducción al testeo de hipótesis

  • Covarianza
  • Correlación, correlación de Pearson y causalidad
  • Testeo de hipótesis
  • Diferencia de medias

Testeo de hipótesis, regresión e introducción a las series de tiempo

  • Testeo de correlación y testeo de proporciones
  • Mínimos cuadrados lineales
  • Regresión y predicciones
  • Análisis de series de tiempo

Metodología de enseñanza y aprendizaje:

La modalidad de capacitación es online asincrónica, por lo que los participantes accederán a una plataforma educativa virtual (LMS). Las actividades se desarrollan en forma remota, lo que permite entregar flexibilidad en los horarios, de manera que cada participante pueda distribuir su tiempo y ser autónomo en su proceso de aprendizaje. No obstante, el proceso de enseñanza-aprendizaje se acompañará con un tutor, quien tendrá un rol de mediador y facilitador, ofreciendo apoyo a los participantes en aspectos técnicos y también administrativos durante la actividad de capacitación.  

Respecto a las estrategias de enseñanza - aprendizaje, se utilizarán videoclases, screencast y clases interactivas para la presentación de contenidos y actividades de aplicación que serán desarrolladas a partir de cuestionarios y tareas, dirigidas a que los participantes resuelvan problemas/situaciones aplicando los conocimientos aprendidos y comprobar la comprensión de los contenidos a través de test automáticos. 

Los participantes también contarán con foros abiertos de consulta, como apoyo a su proceso de aprendizaje, donde podrán interactuar con sus pares y tutor. 

Al inicio de cada curso se contará con una clase sincrónica en formato streaming, en que el jefe de programa o un profesor del programa, introducirán a los alumnos en las materias a abordar.

Evaluación de los aprendizajes:

  • Tres pruebas individuales on-line, todas de igual ponderación              (40% en total)
  • Tres actividades individuales de aplicación, la tercera con doble ponderación      (60% en total)

Bibliografía

Complementaria

  • Downey, A., (2015), Think Stats, 2nd Ed. O'Reilly.
  • Hastie, T., Tibshirani, R., Friedman, J., (2016), The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2nd Ed.), Springer.


CURSO 3

Nombre del curso: Introducción a Minería de datos y Machine Learning

Nombre en inglés: Introduction to Data Mining and Machine Learning 

Horas cronológicas: 75 (35 horas directas)

Créditos: 5  

Descripción de curso

Este curso introduce al alumno en los fundamentos y técnicas de la Minería de Datos desde la obtención y preparación de los datos hasta la selección y evaluación de modelos que utilizan los algoritmos más conocidos de Minería de Datos y Aprendizaje de Máquina. 

Resultados del Aprendizaje

  1. Identificar las principales teorías y prácticas de la emergente área de Minería de Datos.
  2. Aplicar reglas de asociación para encontrar relaciones en un set de transacciones.
  3. Diseñar soluciones a problemas reales de Big Data y ciencia de datos que involucren la necesidad de técnicas de Minería de Datos como árboles de decisión y clustering.
  4. Implementar soluciones usando herramientas de software de Minería de Datos aplicándolas en datos reales.

Contenidos:

  • Conceptos fundamentales de Minería de Datos.
  • Preparación de datos y reducción de información.
  • Reglas de Asociación.
  • Algoritmos de Clasificación.
  • Algoritmos de Clustering y medidas de similaridad.
  • Selección de modelos e Introducción a Machine Learning.

Metodología de enseñanza y aprendizaje:

La modalidad de capacitación es online asincrónica, por lo que los participantes accederán a una plataforma educativa virtual (LMS). Las actividades se desarrollan en forma remota, lo que permite entregar flexibilidad en los horarios, de manera que cada participante pueda distribuir su tiempo y ser autónomo en su proceso de aprendizaje. No obstante, el proceso de enseñanza-aprendizaje se acompañará con un tutor, quien tendrá un rol de mediador y facilitador, ofreciendo apoyo a los participantes en aspectos técnicos y también administrativos durante la actividad de capacitación.  

Respecto a las estrategias de enseñanza - aprendizaje, se utilizarán videoclases, screencast y clases interactivas para la presentación de contenidos y actividades de aplicación que serán desarrolladas a partir de cuestionarios y tareas, dirigidas a que los participantes resuelvan problemas/situaciones aplicando los conocimientos aprendidos y comprobar la comprensión de los contenidos a través de test automáticos. 

Los participantes también contarán con foros abiertos de consulta, como apoyo a su proceso de aprendizaje, donde podrán interactuar con sus pares y tutor. 

Al inicio de cada curso se contará con una clase sincrónica en formato streaming, en que el jefe de programa o un profesor del programa, introducirán a los alumnos en las materias a abordar. 

Evaluación de los aprendizajes:

Tres pruebas individuales on-line, todas de igual ponderación              (40% en total)

Tres actividades individuales de aplicación, la tercera con doble ponderación      (60% en total)

 Bibliografía

Complementaria

  • Giudici, P. and Figini, S. (2009), Applied Data Mining, 2nd Ed, Wiley.
  • Tan Pang-Ning, Steinbach, M., Karpatne, A., Kumar, V. Introduction to Data Mining, (2019), 2nd Ed, Pearson.

 

CURSO 4

Nombre del curso: Técnicas avanzadas de minería de datos

Nombre en inglés: Advanced data mining techniques

Horas cronológicas: 75 (35 horas cronológicas)

Créditos: 5

Descripción de curso

Este curso profundiza en las técnicas y algoritmos más utilizados en Minería de Datos. En particular se incluyen las técnicas de aprendizaje reforzado que han ido captando el interés en forma rápida por la amplia gama de aplicaciones donde puede usarse. Adicionalmente en este curso se estudian técnicas de Web Mining y análisis de texto.

Resultados del Aprendizaje

  1. Modelar problemas reales mediante técnicas avanzadas de minería de texto, para apoyar procesos de gestión del conocimiento en las organizaciones.
  2. Aplicar técnicas de aprendizaje reforzado como alternativa de entrenar modelos de aprendizaje.
  3. Utilizar herramientas de procesamiento de datos, para apoyar el proceso de modelado e interpretación de los resultados obtenidos.
  4. Aplicar series de tiempo para predecir modelos de negocios, basados en datos históricos.

Contenidos:

  • Introducción General
    • Modelos alternativos de minería de datos
    • Extensión de los modelos de machine learning
  • Introducción a Web Mining
    • Web Scraping
    • Text análisis
  • Series de tiempo
    • Aprendizaje Reforzado
    • Introducción
    • Diferencias con otros modelos de aprendizaje
    • Agentes
    • Funcionamiento en base a premios, castigos y fuerza bruta
    • Q-Learning
      • Introducción
      • Ecuación de Bellman
      • Explorar vs Explotar
  • Tendencias de Machine Learning 

Metodología de enseñanza y aprendizaje:

La modalidad de capacitación es online asincrónica, por lo que los participantes accederán a una plataforma educativa virtual (LMS). Las actividades se desarrollan en forma remota, lo que permite entregar flexibilidad en los horarios, de manera que cada participante pueda distribuir su tiempo y ser autónomo en su proceso de aprendizaje. No obstante, el proceso de enseñanza-aprendizaje se acompañará con un tutor, quien tendrá un rol de mediador y facilitador, ofreciendo apoyo a los participantes en aspectos técnicos y también administrativos durante la actividad de capacitación.  

Respecto a las estrategias de enseñanza - aprendizaje, se utilizarán videoclases, screencast y clases interactivas para la presentación de contenidos y actividades de aplicación que serán desarrolladas a partir de cuestionarios y tareas, dirigidas a que los participantes resuelvan problemas/situaciones aplicando los conocimientos aprendidos y comprobar la comprensión de los contenidos a través de test automáticos. 

Los participantes también contarán con foros abiertos de consulta, como apoyo a su proceso de aprendizaje, donde podrán interactuar con sus pares y tutor. 

Al inicio de cada curso se contará con una clase sincrónica en formato streaming, en que el jefe de programa o un profesor del programa, introducirán a los alumnos en las materias a abordar. 

Evaluación de los aprendizajes:

  • Tres pruebas individuales on-line, todas de igual ponderación              (40% en total)
  • Tres actividades individuales de aplicación, la tercera con doble ponderación      (60% en total)

Bibliografía

Complementaria

  • Sutton, R., Barto, A. (2018), Reinforced Learning: An Introduction, 2nd Ed, Bradford Books.
  • Tan Pang-Ning, Steinbach, M., Karpatne, A., Kumar, V. (2019), Introduction to Data Mining, 2nd Ed, Pearson.

Requisitos Aprobación

La nota final del diplomado se calculará de acuerdo con la siguiente ponderación de los cursos:

  • Curso: Herramientas básicas de programación en Python – 25%
  • Curso: Estadística para Ciencia de Datos – 25%      
  • Curso: Introducción a minería de datos y Machine Learning – 25%  
  • Curso: Técnicas avanzadas de minería de datos – 25%

Los alumnos deberán ser aprobados de acuerdo con el siguiente criterio:

Calificación mínima de 4.0 en cada uno de los cursos.

Para aprobar los programas de diplomados se requiere la aprobación de todos los cursos que lo conforman.

Los alumnos que aprueben las exigencias del programa recibirán un certificado de aprobación digital otorgado por la Pontificia Universidad Católica de Chile.

El alumno que no cumpla con una de estas exigencias reprueba automáticamente sin posibilidad de ningún tipo de certificación.

En caso de que, por cualquier motivo, el alumno repruebe un curso perteneciente a un diplomado, en Educación Profesional Ingeniería UC ofrecemos la oportunidad de realizar un nuevo intento. Para ejercer este derecho, el alumno deberá pagar un valor de 3 UF por curso, e indicar la fecha de la versión en la que desea matricularse. Esta gestión debe realizarse dentro de un máximo de 2 años, a contar de la fecha de inicio del Diplomado cursado originalmente.

Proceso de Admisión

Las personas interesadas deberán completar la ficha de postulación que se encuentra al costado derecho de esta página web y enviar los siguientes documentos al momento de la postulación o de manera posterior a la coordinación a cargo: 

  • Fotocopia Carnet de Identidad.
  • Fotocopia simple del Certificado de Título 
  • Curriculum Vitae actualizado.

El postulante será contactado, para asistir a una entrevista personal (si corresponde) con el Jefe de Programa del Diplomado o su Coordinadora Académica. Cualquier información adicional o inquietud podrás escribir al correo programas@ing.puc.cl.

VACANTES: 40

INFORMACIONES RELEVANTES

Con el objetivo de brindar las condiciones de infraestructura necesaria y la asistencia adecuada al inicio y durante las clases para personas con discapacidad: Física o motriz, Sensorial (Visual o auditiva) u otra, los invitamos a informarlo. 

  • El postular no asegura el cupo, una vez inscrito o aceptado en el programa se debe pagar el valor completo de la actividad para estar matriculado.
  • No se tramitarán postulaciones incompletas.

Puedes revisar aquí más información importante sobre el proceso de admisión y matrícula.


Fechas disponibles

Los detalles del programa pueden variar en cada fecha de edición

Fecha Horario Lugar Valor
25 julio 2023 - 21 mayo 2024 Asincronico $2.190.000 Ver más
28 noviembre 2023 - 17 septiembre 2024 Asincronico $2.190.000 Ver más

¿Te parece interesante este programa?

No