Nuevo - Técnicas de Big Data para Machine Learning - Online*

Grandes repositorios de datos han comenzado a surgir en diversos ámbitos de nuestra sociedad. Éstos corresponden a fuentes de información masiva, diversa y distribuida, cuyo efectivo análisis ofrece la oportunidad de obtener valiosa información en distintos ámbitos del quehacer social. Sin embargo, esta gran oportunidad presenta también grandes desafíos debido a la incapacidad de las aplicaciones tradicionales para el manejo de grandes volúmenes de datos. Este curso es una vitrina a las principales técnicas que marcan el estado del arte y agenda de investigación en el análisis de fuentes masivas de información, conocidas como paradigma Big Data.


Descripción

El presente curso está diseñado para abordar la problemática de Big Data desde la perspectiva de uso de herramientas de manipulación de grandes cantidades de datos, y en la aplicación de técnicas de Machine Learning y sistemas computacionales de alto rendimiento sobre grandes fuentes de datos distribuidos.

La metodología de enseñanza y aprendizaje para este curso online consiste en técnicas metodológicas activas, donde el participante puede interactuar con sus pares y profesor-tutor a través de los recursos tecnológicos que provee la plataforma educativa virtual provista para el curso.

Dirigido a
  • Profesionales que necesiten adquirir las competencias necesarias para construir aplicaciones de Big Data y Machine Learning usando las herramientas del ecosistema Hadoop y Apache Spark.
  • Interesados en el área de Ciencia de Datos que deseen adquirir habilidades para recolectar y analizar grandes volúmenes de datos.
Prerrequisitos

Es necesario contar con conocimientos básicos de programación y de comodidad en manejo de terminal (consola). Para Apache Spark, se enfocará el curso específicamente en lenguaje Python. En particular, debe ser capaz de utilizar controles de flujo, distintos tipos de datos y funciones, y diccionarios con Python. 

Si desea evaluar su nivel de Python, puede realizar una prueba opcional gratuita en este link: https://www.hackerrank.com/prueba-python.

Se recomienda iniciar los test en orden, ya que van creciendo en dificultad. Los dos últimos tienen un nivel superior al requerido para ingresar al diplomado, y han sido instalados allí sólo como desafío. Si uno de los test falló, se recomienda revisar y ejercitar esos contenidos antes del inicio del programa.

A continuación, ponemos a su disposición algunos cursos optativos por si desea prepararse previamente al inicio del programa:

Objetivo de aprendizaje
  • Conocer herramientas de manipulación de fuentes de Big Data.
  • Examinar las problemáticas y desafíos más relevantes que conlleva la extracción de conocimiento desde grandes fuentes de datos multimodales y no estructurados.
  • Aplicar técnicas de Machine Learning que puedan escalar al caso de grandes fuentes de datos distribuidos.
Desglose de cursos

Horas cronológicas: 35; Créditos: 5
Resultados del Aprendizaje
Al finalizar el curso el alumno será capaz de:

-                 Entender la problemática y particularidades del manejo de Big Data.

-                 Conocer los principios, bases técnicas y herramientas del ecosistema Hadoop.

-                 Utilizar las herramientas del ecosistema Hadoop para el manejo de volúmenes gigantescos de datos.

-                 Conocer Apache Spark, un framework de procesamiento de datos de propósito general.

-                 Utilizar las principales herramientas del framework Spark para análisis de datos y aplicación de técnicas de Machine Learning.

-                 Aplicar herramientas de visualización para facilitar la interpretación de resultados.

Contenidos:

-                 Introducción a Big data.

-                 El ecosistema Hadoop.

-                 HDFS, YARN.

-                 Hadoop MapReduce.

-                 Herramientas del ecosistema Hadoop.

-                 Fundamentos de Apache Spark.

-                 Implementación de aplicaciones sobre Spark.

-                 Spark SQL.

-                 Spark MLlib.

-                 Técnicas de visualización.

Metodología de enseñanza y aprendizaje:
La modalidad de capacitación es e-learning asincrónica, por lo que los participantes accederán a una plataforma educativa virtual (LMS). Las actividades se desarrollan en forma remota, lo que permite entregar flexibilidad en los horarios, de manera que cada participante pueda distribuir su tiempo y ser autónomo en su proceso de aprendizaje. No obstante, el proceso de enseñanza-aprendizaje se acompañará con un tutor, quien tendrá un rol de mediador y facilitador, ofreciendo apoyo a los participantes en aspectos técnicos y también administrativos durante la actividad de capacitación.

Respecto a las estrategias de enseñanza - aprendizaje, se utilizarán videoclases, screencast y clases interactivas para la presentación de contenidos y actividades de aplicación que serán desarrolladas a partir de cuestionarios y tareas, dirigidas a que los participantes resuelvan problemas/situaciones aplicando los conocimientos aprendidos y comprobar la comprensión de los contenidos a través de test automáticos.

Los participantes también contarán con foros abiertos de consulta, como apoyo a su proceso de aprendizaje, donde podrán interactuar con sus pares y tutor.

Evaluación de los aprendizajes:

  • Tres pruebas on-line, todas de igual ponderación                                      (40% en total)
  • Tres actividades de aplicación, la tercera con doble ponderación          (60% en total) 

BIBLIOGRAFÍA

-                 J. Leskovec, A. Rajaramanan, and J.D. Ullman, Mining Massive Datasets. Cambridge University Press, 2014.

-                 J. R. Owens, B. Femiano, and J. Lentz, Hadoop Real World Solutions Cookbook. Packt Publishing, 2013.

-                 C. Bishop, Pattern Recognition and Machine Learning. Springer, 2007.

Equipo Docente

JEFE DE PROGRAMA
Jaime Navón Cohen
Ph.D. Computer Science, University of North Carolina at Chapel Hill. Master of Science, Technion-Israel Institute of Technology. Ingeniero Civil Electricista, Pontificia Universidad Católica de Chile. Profesor Asociado del Departamento de Ciencia de la Computación, Pontificia Universidad Católica de Chile.

EQUIPO DOCENTE
Gabriel Sepúlveda
Ingeniero Civil Electrónico, con Mención en Control Automático, Mención Complementaria Computadores, Universidad Técnica Federico Santa María. Candidato a Doctor en Ciencias de la Ingeniería en el área de Ciencias de la Computación, Pontificia Universidad Católica de Chile. Profesor Instructor, Departamento de Ciencia de la Computación, Escuela de Ingeniería, Pontificia Universidad Católica de Chile.

Iván Lillo
Doctor en Ciencias de la Ingeniería, Pontificia Universidad Católica de Chile. Magíster en Ciencias de la Ingeniería, Pontificia Universidad Católica de Chile. Ingeniero Civil Electricista, Pontificia Universidad Católica de Chile. Profesor Instructor, Departamento de Ciencia de la Computación, Escuela de Ingeniería, Pontificia Universidad Católica de Chile.

* Educación Profesional (EP) de la Escuela de Ingeniería se reserva el derecho de remplazar, en caso de fuerza mayor, a él o los profesores indicados en este programa.

Requisitos de aprobación
  • Calificación mínima del curso 4.0 en su promedio ponderado.

En el caso de los programas en modalidad en línea, los estudiantes tendrán que cumplir con la calificación mínima de 4.0 y con los requisitos establecidos para cada programa.
Los participantes que aprueben las exigencias del programa recibirán un certificado de aprobación digital otorgado por la Pontificia Universidad Católica de Chile.
El participante que no cumpla con la exigencia reprueba automáticamente sin posibilidad de ningún tipo de certificación.

Proceso de Admisión

Las personas interesadas deberán enviar los documentos que se detallan más abajo al correo programas@ing.puc.cl.

  • Fotocopia Carnet de Identidad.

El postular no asegura el cupo, una vez aceptado en el programa, se debe cancelar o documentar el valor, para estar matriculado.
VACANTES: 50
“No se tramitarán postulaciones incompletas”.
El Programa se reserva el derecho de suspender la realización del curso si no cuenta con el mínimo de alumnos requeridos. En tal caso se devuelve a los alumnos matriculados la totalidad del dinero en un plazo aproximado de 10 días hábiles.
A las personas matriculadas que se retiren de la actividad antes de la fecha de inicio, se les devolverá el total pagado menos el 10% del total del arancel.

imagen
SOLICITAR MÁS INFORMACIÓN
POSTULA AQUÍ