Diplomado en Minería de datos

Estudia en la Universidad N°1 de habla hispana en Latinoamérica por QS Latam University Rankings 2024

Acerca del programa:

El Diplomado en Minería de datos  está orientado a entregar un amplio conjunto de competencias en el ámbito del Data Mining, partiendo con los fundamentos estadísticos y las competencias de programación necesarias, para pasar a los fundamentos, técnicas y aplicaciones. Al no requerir conocimientos previos de programación ni tampoco de estadística, el diplomado está abierto no solo a personas con un background más técnico sino a todo tipo de profesionales. 

Diplomado UC Online en Minería de datos

Dirigido a:

  • Todas las personas que necesiten o estén interesadas en adquirir las habilidades para aplicar técnicas de Data Mining a su trabajo.
  • Todas las personas que han aprendido lo esencial de Data Mining pero necesitan profundizar y adquirir algo de fundamentos estadísticos.

Jefe de Programa

Jaime Navón Cohen

Ph.D. Computer Science, University of North Carolina at Chapel Hill. Master of Science, Technion-Israel Institute of Technology. Ingeniero Civil Electricista, Pontificia Universidad Católica de Chile. Profesor Asociado del Departamento de Ciencia de la Computación, Pontificia Universidad Católica de Chile.
linkedin

Equipo Docente

keyboard_arrow_down

Mauricio Arriagada

Doctor en Ciencias de la Ingeniería, Pontificia Universidad Católica de Chile. Master in Computer Science, University of Northern Iowa (USA). Master en Ingeniería de Software e Ingeniero Civil en Computación e Informática, Universidad de Tarapacá (Chile).

Jaime Navón Cohen 

Ph.D. Computer Science, University of North Carolina at Chapel Hill. Master of Science, Technion-Israel Institute of Technology. Ingeniero Civil Electricista, Pontificia Universidad Católica de Chile. Profesor Asociado del Departamento de Ciencia de la Computación, Pontificia Universidad Católica de Chile.

Nicolás Alvarado Monárdez

Licenciado en Matemáticas y Magíster en Matemáticas de la Pontificia Universidad Católica de Chile. Ph.D. (c) en el Departamento de Ciencia de la Computación de la Pontificia Universidad Católica de Chile.

Sebastián Raveau

Profesor Asistente del Departamento de Ingeniería de Transporte y Logística de la UC e investigador asociado del departamento de Ingeniería Civil y Ambiental del Massachusetts Institute of Technology. Asimismo, participa como investigador del Centro de Excelencia BRT, y del Centro de Desarrollo Urbano Sustentable CEDEUS. Anteriormente se ha desempeñado como académico de la Escuela de Ingeniería Industrial de la Universidad Diego Portales y como investigador postdoctoral del Singapore-MIT Alliance for Research and Technology (SMART). Ha sido también supervisor de estudios de transporte en DICTUC y en consultora CIS Transporte.

* EP (Educación Profesional) de la Escuela de Ingeniería se reserva el derecho de reemplazar, en caso de fuerza mayor, a él o los profesores indicados en este programa.

Descripción

Se dice que los datos son el nuevo petróleo. Al igual que en la minería tradicional es necesario extraer laboriosamente desde una montaña de áridos el material valioso mediante técnicas sofisticadas y con el uso de herramientas especializadas, los elementos de valor de los datos deben ser también extraídos o minados. La minería de datos o Data Mining es una disciplina que comprende estas técnicas y herramientas, de modo que, aquella montaña de datos que ha sido recopilada en el tiempo pueda ser usada para entender de mejor forma el negocio y construir modelos que permitan hacer predicciones, que pueden ser usadas en las decisiones y las acciones de la empresa.

Este diplomado se diferencia de otros similares, debido a que no requiere conocimientos previos de programación ni tampoco de estadística, ya que incluye un curso para aprender a programar en Python y un curso de fundamentos de estadística. Además, los otros dos cursos de Minería de datos permiten llegar a un nivel de profundidad más alto.

La modalidad del diplomado es 100% en línea y se estructura sobre cuatro cursos que utilizan técnicas metodológicas activas. Gracias a estas últimas, el participante puede interactuar con sus pares y profesor-tutor a través de los recursos tecnológicos que provee la plataforma educativa virtual.

Requisitos de Ingreso

Se recomienda contar con: 

  • Licenciatura, título profesional o técnico de mínimo 4 años.
  • Conocimientos básicos de programación en Phyton.
  • Conocimientos de minería de datos o aprendizaje de máquina
  • Manejo de computación a nivel usuario, considerando el uso de planillas Excel a nivel medio

Objetivos de Aprendizaje

  • Escribir programas simples usando el lenguaje Python.
  • Analizar datos de forma exploratoria para explicar la correlación entre variables, aplicando conceptos estadísticos.
  • Predecir el comportamiento de una organización a través de modelos que incorporan algoritmos de aprendizaje de máquina.

Metodología

Horario: Online

Duración: 300 horas (140 horas directas) *La certificación es por 300 horas.

Créditos: 20

Lugar de realización: Online

Desglose de cursos

CURSO 1: Herramientas básicas de programación en Python

Nombre en inglés: Basic Python programming tools

Horas Totales: 75 (35 horas directas)

Descripción de curso

En este curso se aprenden técnicas básicas de programación utilizando el lenguaje Python. Los alumnos aprenden a plantear la solución de un problema en forma algorítmica y a expresar esa solución utilizando los elementos del lenguaje Python.

Resultados del Aprendizaje

Identificar conceptos y operaciones básicas de programación, tales como variables, funciones, operadores lógicos.

Utilizar los comandos de control de flujo y los ciclos para la dirigir y repetir eficientemente un conjunto de operaciones básicas.

Emplear elementos básicos como tipos de archivos (.txt, csv), tipos de datos (texto, entero, decimal, listas), entre otros en el procesamiento de datos.

Aplicar conceptos y herramientas básicas de programación, como lectura, escritura de archivos y edición masiva de datos, resolviendo problemas reales relacionados con el procesamiento de datos.

Desarrollar programas en el lenguaje de programación Python que permitan resolver problemas sencillos.

Contenidos: 

  • Introducción a la programación 
    • Motivación
    • Secuencias de comandos en Python
    • Operaciones básicas
    • Creación y asignación de variables
    • Operaciones lógicas
  • Control de Flujo
    • Control de Flujo
    • Iteración y Ciclos
  • Tipos de datos y funciones
    • Enteros, decimales, textos y listas.
    • Manejo de strings de caracteres
    • Definición y uso de funciones
    • Listas
  • Procesamiento de datos
    • Listas de listas
    • Trabajo con archivos
    • Procesamiento de datos
  • Diccionarios y Tuplas
    • Listas y listas de listas
    • Diccionarios
    • Aplicaciones con listas y diccionarios
    • Tuplas como tipo de dato inmutable
    • Operaciones sobre tuplas
    • Combinando listas, tuplas y diccionarios
  • Funciones
    • Concepto de función
    • Definición de funciones
    • Parámetros y valores de retorno
    • Importación y llamado de módulos
    • Invocación de funciones y scope
    • Parámetros con nombre y parámetros por defecto
    • Funciones recursivas
    • Aplicación de funciones

Metodología de enseñanza y aprendizaje: 

La modalidad de capacitación es online asincrónica, por lo que los participantes accederán a una plataforma educativa virtual (LMS). Las actividades se desarrollan en forma remota, lo que permite entregar flexibilidad en los horarios, de manera que cada participante pueda distribuir su tiempo y ser autónomo en su proceso de aprendizaje. No obstante, el proceso de enseñanza-aprendizaje se acompañará con un tutor, quien tendrá un rol de mediador y facilitador, ofreciendo apoyo a los participantes en aspectos técnicos y también administrativos durante la actividad de capacitación. 

Respecto a las estrategias de enseñanza - aprendizaje, se utilizarán videoclases, screencast y clases interactivas para la presentación de contenidos y actividades de aplicación que serán desarrolladas a partir de cuestionarios y tareas, dirigidas a que los participantes resuelvan problemas/situaciones aplicando los conocimientos aprendidos y comprobar la comprensión de los contenidos a través de test automáticos.

Los participantes también contarán con foros abiertos de consulta, como apoyo a su proceso de aprendizaje, donde podrán interactuar con sus pares y tutor.

Al inicio de cada curso se contará con una clase sincrónica en formato streaming, en que el jefe de programa o un profesor del programa, introducirán a los alumnos en las materias a abordar.

Evaluación de los aprendizajes: 

  • Tres pruebas individuales on-line, todas de igual ponderación (40% en total)
  • Tres actividades individuales de aplicación, la tercera con doble ponderación (60% en total)


CURSO 2: Estadística para ciencia de datos

Nombre en inglés: Statistics for data science

Horas Totales: 75 (35 horas directas)

Descripción de curso

La mayor parte de las técnicas y algoritmos usados en el área de la ciencia de datos descansan en fundamentos estadísticos. El objetivo de este curso es entregar a los alumnos una base estadística mínima para construir sobre un fundamento robusto los conocimientos de minería de datos de los cursos posteriores. En este curso los alumnos aprenderán entre otros sobre técnicas de análisis exploratorio de datos, validación de hipótesis y regresión.

Resultados del Aprendizaje

  1. Producir desde un dataset histogramas y medidas estadísticas como parte de un análisis exploratorio de los datos.
  2. Mostrar en forma gráfica distribuciones empíricas de los datos.
  3. Modelar un problema en base a distribuciones analíticas conocidas.
  4. Analizar la interrelación entre dos o más variables.
  5. Evaluar la validez de una hipótesis en base a los datos.

Contenidos:

  • Análisis exploratorio de datos e introducción a las distribuciones
    • Variables y transformaciones
  • Distribuciones y funciones de probabilidad
    • Variables y efecto del tamaño
    • Funciones de probabilidad (PMFs)
  • Funciones de probabilidad
    • Distribuciones continuas
    • Familia exponencial
    • Funciones de distribución acumulada (CDFs)
  • Modelación de distribuciones e introducción a las relaciones entre variables
    • Distribuciones continuas
    • Gráficas distribución lognormal
    • Diagramas de dispersión
    • Correlación
  • Relación entre variables, correlación y una introducción al testeo de hipótesis
    • Covarianza
    • Testeo de hipótesis
    • Diferencia de medias
    • Formalización
  • Testeo de hipótesis, regresión e introducción a las series de tiempo
    • Testeo de correlación y testeo de proporciones
    • Mínimos cuadrados lineales
    • Introducción a las series de tiempo

Metodología de enseñanza y aprendizaje:

La modalidad de capacitación es online asincrónica, por lo que los participantes accederán a una plataforma educativa virtual (LMS). Las actividades se desarrollan en forma remota, lo que permite entregar flexibilidad en los horarios, de manera que cada participante pueda distribuir su tiempo y ser autónomo en su proceso de aprendizaje. No obstante, el proceso de enseñanza-aprendizaje se acompañará con un tutor, quien tendrá un rol de mediador y facilitador, ofreciendo apoyo a los participantes en aspectos técnicos y también administrativos durante la actividad de capacitación.

Respecto a las estrategias de enseñanza - aprendizaje, se utilizarán videoclases, screencast y clases interactivas para la presentación de contenidos y actividades de aplicación que serán desarrolladas a partir de cuestionarios y tareas, dirigidas a que los participantes resuelvan problemas/situaciones aplicando los conocimientos aprendidos y comprobar la comprensión de los contenidos a través de test automáticos.

Los participantes también contarán con foros abiertos de consulta, como apoyo a su proceso de aprendizaje, donde podrán interactuar con sus pares y tutor.

Al inicio de cada curso se contará con una clase sincrónica en formato streaming, en que el jefe de programa o un profesor del programa, introducirán a los alumnos en las materias a abordar.

Evaluación de los aprendizajes:

  • Tres pruebas individuales on-line, todas de igual ponderación       (40% en total)
  • Tres actividades individuales de aplicación, la tercera con doble ponderación (60% en total)

 

CURSO 3: Introducción a Minería de datos y Machine Learning

Nombre en inglés: Introduction to Data Mining and Machine Learning 

Horas Totales: 75 (35 horas directas)

Descripción de curso

Este curso introduce al alumno en los fundamentos y técnicas de la Minería de Datos desde la obtención y preparación de los datos hasta la selección y evaluación de modelos que utilizan los algoritmos más conocidos de Minería de Datos y Aprendizaje de Máquina.

Resultados del Aprendizaje

  1. Identificar las principales teorías y prácticas de la emergente área de Minería de Datos.
  2. Aplicar reglas de asociación para encontrar relaciones en un set de transacciones.
  3. Diseñar soluciones a problemas reales de Big Data y ciencia de datos que involucren la necesidad de técnicas de Minería de Datos como árboles de decisión y clustering.
  4.  Implementar soluciones usando herramientas de software de Minería de Datos aplicándolas en datos reales.

Contenidos:

  • Conceptos fundamentales de Minería de Datos.
  • Preparación de datos y reducción de información.
  • Reglas de Asociación.
  • Algoritmos de Clasificación.
  • Algoritmos de Clustering y medidas de similaridad.
  • Selección de modelos e Introducción a Machine Learning.

Metodología de enseñanza y aprendizaje:

La modalidad de capacitación es online asincrónica, por lo que los participantes accederán a una plataforma educativa virtual (LMS). Las actividades se desarrollan en forma remota, lo que permite entregar flexibilidad en los horarios, de manera que cada participante pueda distribuir su tiempo y ser autónomo en su proceso de aprendizaje. No obstante, el proceso de enseñanza-aprendizaje se acompañará con un tutor, quien tendrá un rol de mediador y facilitador, ofreciendo apoyo a los participantes en aspectos técnicos y también administrativos durante la actividad de capacitación.

Respecto a las estrategias de enseñanza - aprendizaje, se utilizarán videoclases, screencast y clases interactivas para la presentación de contenidos y actividades de aplicación que serán desarrolladas a partir de cuestionarios y tareas, dirigidas a que los participantes resuelvan problemas/situaciones aplicando los conocimientos aprendidos y comprobar la comprensión de los contenidos a través de test automáticos.

Los participantes también contarán con foros abiertos de consulta, como apoyo a su proceso de aprendizaje, donde podrán interactuar con sus pares y tutor.

Al inicio de cada curso se contará con una clase sincrónica en formato streaming, en que el jefe de programa o un profesor del programa, introducirán a los alumnos en las materias a abordar.

Evaluación de los aprendizajes:

  • Tres pruebas individuales on-line, todas de igual ponderación       (40% en total)
  • Tres actividades individuales de aplicación, la tercera con doble ponderación (60% en total)

 

CURSO 4: Técnicas avanzadas de minería de datos

Nombre en inglés: Advanced data mining techniques

Horas Totales: 75 (35 horas cronológicas)

 

Descripción de curso

Este curso profundiza en las técnicas y algoritmos más utilizados en Minería de Datos. En particular se incluyen las técnicas de aprendizaje reforzado que han ido captando el interés en forma rápida por la amplia gama de aplicaciones donde puede usarse. Adicionalmente en este curso se estudian técnicas de Web Mining y análisis de texto.

Resultados del Aprendizaje

  1. Modelar problemas reales mediante técnicas avanzadas de minería de texto, para apoyar procesos de gestión del conocimiento en las organizaciones.
  2. Aplicar técnicas de aprendizaje reforzado como alternativa de entrenar modelos de aprendizaje.
  3. Utilizar herramientas de procesamiento de datos, para apoyar el proceso de modelado e interpretación de los resultados obtenidos.
  4. Aplicar series de tiempo para predecir modelos de negocios, basados en datos históricos.

Contenidos:

  • Series de tiempo
    • Análisis visual de series de tiempo
    • Componentes de una serie de tiempo
    • Estacionariedad de una serie de tiempo
    • Tratamiento de una serie de tiempo no estacionaria
    • Tipos de modelos de series de tiempo
    • Modelos MA
  • Minería de texto y web scraping
    • Minería de texto
    • Web scraping
  • Aprendizaje por refuerzo
    • Aprendizaje por refuerzo
    •  Métodos de Monte Carlo
    • Q-Learning
    • Funciones de valor
    • Q-Learning
  • Redes neuronales artificiales
    • Estructura de una red neuronal artificial
    •  Entrenamiento de redes neuronales artificiales
    • Otros tipos de redes neuronales
  • Nuevas tendencias de machine learning
    • Modelos fundacionales
    • Inteligencia artificial generativa

Metodología de enseñanza y aprendizaje:

La modalidad de capacitación es online asincrónica, por lo que los participantes accederán a una plataforma educativa virtual (LMS). Las actividades se desarrollan en forma remota, lo que permite entregar flexibilidad en los horarios, de manera que cada participante pueda distribuir su tiempo y ser autónomo en su proceso de aprendizaje. No obstante, el proceso de enseñanza-aprendizaje se acompañará con un tutor, quien tendrá un rol de mediador y facilitador, ofreciendo apoyo a los participantes en aspectos técnicos y también administrativos durante la actividad de capacitación.

Respecto a las estrategias de enseñanza - aprendizaje, se utilizarán videoclases, screencast y clases interactivas para la presentación de contenidos y actividades de aplicación que serán desarrolladas a partir de cuestionarios y tareas, dirigidas a que los participantes resuelvan problemas/situaciones aplicando los conocimientos aprendidos y comprobar la comprensión de los contenidos a través de test automáticos.

Los participantes también contarán con foros abiertos de consulta, como apoyo a su proceso de aprendizaje, donde podrán interactuar con sus pares y tutor.

Al inicio de cada curso se contará con una clase sincrónica en formato streaming, en que el jefe de programa o un profesor del programa, introducirán a los alumnos en las materias a abordar.

Evaluación de los aprendizajes:

  • Tres pruebas individuales on-line, todas de igual ponderación (40% en total)
  • Tres actividades individuales de aplicación, la tercera con doble ponderación (60% en total)

Requisitos Aprobación

La nota final del diplomado se calculará de acuerdo con la siguiente ponderación de los cursos:

  • Curso: Herramientas básicas de programación en Python – 25%
  • Curso: Estadística para Ciencia de Datos – 25%      
  • Curso: Introducción a minería de datos y Machine Learning – 25%  
  • Curso: Técnicas avanzadas de minería de datos – 25%

Los alumnos deberán ser aprobados de acuerdo con el siguiente criterio:

  • Calificación mínima de 4.0 en cada uno de los cursos.

Para aprobar los programas de diplomados se requiere la aprobación de todos los cursos que lo conforman.

Los alumnos que aprueben las exigencias del programa recibirán un certificado de aprobación digital otorgado por la Pontificia Universidad Católica de Chile.

El alumno que no cumpla con una de estas exigencias reprueba automáticamente sin posibilidad de ningún tipo de certificación.

*En caso de que, por cualquier motivo, el alumno repruebe un curso perteneciente a un diplomado, en Educación Profesional Ingeniería UC ofrecemos la oportunidad de realizar un nuevo intento. Para ejercer este derecho, el alumno deberá pagar un valor de 3 UF por curso, e indicar la fecha de la versión en la que desea matricularse. Esta gestión debe realizarse dentro de un máximo de 2 años, a contar de la fecha de inicio del Diplomado cursado originalmente.

Proceso de Admisión

Las personas interesadas deberán completar la ficha de postulación que se encuentra al costado derecho de esta página web y enviar los siguientes documentos al momento de la postulación o de manera posterior a la coordinación a cargo: 

  • Fotocopia Carnet de Identidad.
  • Fotocopia simple del Certificado de Título 
  • Curriculum Vitae actualizado.

El postulante será contactado, para asistir a una entrevista personal (si corresponde) con el Jefe de Programa del Diplomado o su Coordinadora Académica. Cualquier información adicional o inquietud podrás escribir al correo programas@ing.puc.cl.

VACANTES: 40

Con el objetivo de brindar las condiciones de infraestructura necesaria y la asistencia adecuada al inicio y durante las clases para personas con discapacidad: Física o motriz, Sensorial (Visual o auditiva) u otra, los invitamos a informarlo. 

El postular no asegura el cupo, una vez inscrito o aceptado en el programa se debe pagar el valor completo de la actividad para estar matriculado.

No se tramitarán postulaciones incompletas.

Puedes revisar aquí más información importante sobre el proceso de admisión y matrícula.


¿Te parece interesante este programa?

No