Tratamiento Estadístico Computacional de la Información (conjunto con UPM)

Máster. Curso 2023/2024.

HERRAMIENTAS INFORMÁTICAS PARA BIG-DATA - 608857

Curso Académico 2023-24

Datos Generales

SINOPSIS

COMPETENCIAS

Generales
CG1 – Aprender a aplicar los conocimientos adquiridos y a explotar su potencial para la resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) en el tratamiento estadístico computacional de la información.

CG2 – Elaborar adecuadamente y con originalidad argumentos motivados y proyectos de trabajo, redactar planes, así como formular hipótesis y conjeturas razonables en su área de especialización.

CG3 – Integrar los conocimientos adecuados y enfrentarse a la complejidad de emitir juicios en función de criterios, de normas externas o de reflexiones personales justificadas.

CG5 – Comprender y utilizar el lenguaje y las herramientas matemáticas para modelizar y resolver problemas complejos, reconociendo y valorando las situaciones y problemas susceptibles de ser tratados matemáticamente.

CG6 – Conocer los modelos, métodos y técnicas relevantes en distintas áreas de aplicación de la Estadística matemática participando en la creación de nuevas tecnologías que contribuyan al desarrollo de la Sociedad de la Información.
Transversales
CT1 – Saber aplicar sus conocimientos a su trabajo o vocación de una forma profesional y poseer las competencias que suelen demostrarse por medio de la elaboración y defensa de argumentos y en la resolución de problemas y estudio de casos. Esto implica, más concretamente: Integrar creativamente conocimientos y aplicarlos a la resolución de problemas complejos, perseguir objetivos de calidad en el desarrollo de su actividad profesional, adquirir capacidad para la toma de decisiones y de dirección de recursos humanos, ser capaz de mostrar creatividad, iniciativa y espíritu emprendedor para afrontar los retos de su actividad, valorar la importancia de los métodos estadístico-computacionales en el contexto industrial, económico, administrativo, medio ambiental y social.

CT2 – Tener la capacidad de reunir e interpretar datos relevantes para emitir juicios que incluyan una reflexión sobre temas relevantes de índole científica, tecnológica y empresarial. Demostrar razonamiento crítico y gestionar información científica y técnica de calidad, bibliografía, bases de datos especializadas y recursos accesibles a través de Internet.
Específicas
CE1 – Adquisición de una formación sólida y rigurosa en temas avanzados de Estadística Matemática y Tecnologías de la Decisión aplicadas al tratamiento de la Información.

CE2 – Capacidad para planificar la resolución de un problema en función de las herramientas de que se disponga y, en su caso, de las restricciones de tiempo y recursos.

CE3 – Capacidad para utilizar aplicaciones informáticas estadísticas, de cálculo numérico y simbólico, visualización gráfica, optimización u otras para resolver problemas con un elevado grado de complejidad.

CE4 – Desarrollar habilidades de aprendizaje en Estadística Computacional y Matemáticas, así como en sus respectivas aplicaciones, que permitan al alumno continuar estudiando y profundizando en la materia de modo autónomo, así como el desarrollo profesional con un alto grado de independencia.

CE5 – Resolver problemas y casos reales planteados en el tratamiento estadístico computacional de la información generada en los ámbitos de la ciencia, la tecnología y la sociedad mediante habilidades de modelización matemática, estimación y computación.

CE6 – Desarrollar programas que resuelvan problemas matemáticos utilizando para cada caso el entorno computacional adecuado.

CE7 – Capacidad de utilización de herramientas de búsqueda de recursos bibliográficos así como manejo, gestión y análisis de grandes bases de datos.

ACTIVIDADES DOCENTES

Clases teóricas
En las que se expondrán los conceptos y técnicas esenciales de cada tema.
Clases prácticas
En las que se resolverán ejercicios y prácticas relacionadas con los conceptos y técnicas de cada tema.
Laboratorios
En las que se utilizarán herramientas actualmente utilizadas tanto en el ámbito académico como profesional para la resolución de ejercicios y prácticas de programación

Presenciales

3

Semestre

2

Breve descriptor:

La asignatura plantea una introducción de las técnicas más utilizadas para el Análisis de Datos en ámbitos de Big Data.
Se introducen los conceptos que se utilizan para permitir el almacenamiento masivo y el procesamiento paralelo.
Especial atención se dedica a las técnicas de programación para clústers. En particular la metodología Map-Reduce y al entorno Spark. A lo largo de toda la asignatura se utilizará el lenguaje de programación Python y entornos interactivos de programación, análisis y prueba.

Requisitos

Haber cursado, al menos, un primer curso de programación.
Es también muy conveniente tener nociones de programación funcional.

Objetivos

  • Entender la distintas fases del Análisis de datos
  • Conocer herramientas informáticas para aplicar en cada una de las fases
  • Comprender el marco conceptual del BigData
  • Entender y manejar básicamente un sistema HDFS Hadoop
  • Diseñar soluciones paralelizables utilizando el esquema Map Reduce
  • Escribir programas en Spark
  • Conocer y programar la abstracción de datos RDD
  • Conocer y programar la abstracción de datos DataFrame
  • Conocer los módulos avanzados de Spark: Streaming, SQL, ML...

Contenido

  • Introducción a Big Data.
  • Almacenamiento de datos en ambientes Big Data
    • Sistemas de Ficheros distribuidos Hadoop HDFS
  • Técnicas de procesamiento paralelo:
    • Map Reduce
    • Apache Spark
    • Módulos avanzados

 

Evaluación

Para la convocatoria ordinaria, la evaluación de la asignatura es continua.
Los factores que se valoran para la calificación final son:
* Asistencia y participación. 20% (Se recuerda que el máster es presencial y la asistencia es obligatoria)
* Entrega de prácticas: 40% (a medida que avanza el curso)
* Examen teórico-práctico: 40%

Para la convocatoria extraordinaria, se valorarán los siguientes factores
* Asistencia y participación. 20% (Se recuerda que el máster es presencial y la asistencia es obligatoria)
* Entrega de prácticas: 40%
* Examen teórico-práctico: 40% (A realizar el día de la fecha fijada en la convocatoria extraordinaria)

Bibliografía

L. Massaron; A. Boschetti, Python Data Science Essentials, Packt. 2015
J. VanderPlas, Python Data Science Handbook, O'Reilly. 2016
Documentación Hadoop: http://hadoop.apache.org/docs/current/
Documentación MrJob: https://pythonhosted.org/mrjob/
Documentación Spark: http://spark.apache.org/docs/latest/
Karau H., Konwinski A., Wendell P., and Zaharia M. Learning Spark. O'Reilly. 2015

Estructura

MódulosMaterias
No existen datos de módulos o materias para esta asignatura.

Grupos

Clases teóricas y/o prácticas
GrupoPeriodosHorariosAulaProfesor
Grupo único02/10/2023 - 22/11/2023LUNES 16:30 - 18:00-CARLOS GREGORIO RODRIGUEZ
MIÉRCOLES 16:30 - 18:00-CARLOS GREGORIO RODRIGUEZ
24/11/2023 - 29/11/2023LUNES 16:30 - 18:00-CARLOS GREGORIO RODRIGUEZ
MIÉRCOLES 16:30 - 18:00-CARLOS GREGORIO RODRIGUEZ
SÁBADO 16:30 - 18:00-CARLOS GREGORIO RODRIGUEZ