Tratamiento Estadístico Computacional de la Información (conjunto con UPM)
Máster. Curso 2023/2024.
HERRAMIENTAS INFORMÁTICAS PARA BIG-DATA - 608857
Curso Académico 2023-24
Datos Generales
- Plan de estudios: 063U - MÁSTER UNIVERSITARIO EN TRATAMIENTO ESTADÍSTICO COMPUTACIONAL DE LA INFORMA (2013-14)
- Carácter: OPTATIVA
- ECTS: 3.0
SINOPSIS
COMPETENCIAS
Generales
CG1 Aprender a aplicar los conocimientos adquiridos y a explotar su potencial para la resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) en el tratamiento estadístico computacional de la información.
CG2 Elaborar adecuadamente y con originalidad argumentos motivados y proyectos de trabajo, redactar planes, así como formular hipótesis y conjeturas razonables en su área de especialización.
CG3 Integrar los conocimientos adecuados y enfrentarse a la complejidad de emitir juicios en función de criterios, de normas externas o de reflexiones personales justificadas.
CG5 Comprender y utilizar el lenguaje y las herramientas matemáticas para modelizar y resolver problemas complejos, reconociendo y valorando las situaciones y problemas susceptibles de ser tratados matemáticamente.
CG6 Conocer los modelos, métodos y técnicas relevantes en distintas áreas de aplicación de la Estadística matemática participando en la creación de nuevas tecnologías que contribuyan al desarrollo de la Sociedad de la Información.
CG2 Elaborar adecuadamente y con originalidad argumentos motivados y proyectos de trabajo, redactar planes, así como formular hipótesis y conjeturas razonables en su área de especialización.
CG3 Integrar los conocimientos adecuados y enfrentarse a la complejidad de emitir juicios en función de criterios, de normas externas o de reflexiones personales justificadas.
CG5 Comprender y utilizar el lenguaje y las herramientas matemáticas para modelizar y resolver problemas complejos, reconociendo y valorando las situaciones y problemas susceptibles de ser tratados matemáticamente.
CG6 Conocer los modelos, métodos y técnicas relevantes en distintas áreas de aplicación de la Estadística matemática participando en la creación de nuevas tecnologías que contribuyan al desarrollo de la Sociedad de la Información.
Transversales
CT1 Saber aplicar sus conocimientos a su trabajo o vocación de una forma profesional y poseer las competencias que suelen demostrarse por medio de la elaboración y defensa de argumentos y en la resolución de problemas y estudio de casos. Esto implica, más concretamente: Integrar creativamente conocimientos y aplicarlos a la resolución de problemas complejos, perseguir objetivos de calidad en el desarrollo de su actividad profesional, adquirir capacidad para la toma de decisiones y de dirección de recursos humanos, ser capaz de mostrar creatividad, iniciativa y espíritu emprendedor para afrontar los retos de su actividad, valorar la importancia de los métodos estadístico-computacionales en el contexto industrial, económico, administrativo, medio ambiental y social.
CT2 Tener la capacidad de reunir e interpretar datos relevantes para emitir juicios que incluyan una reflexión sobre temas relevantes de índole científica, tecnológica y empresarial. Demostrar razonamiento crítico y gestionar información científica y técnica de calidad, bibliografía, bases de datos especializadas y recursos accesibles a través de Internet.
CT2 Tener la capacidad de reunir e interpretar datos relevantes para emitir juicios que incluyan una reflexión sobre temas relevantes de índole científica, tecnológica y empresarial. Demostrar razonamiento crítico y gestionar información científica y técnica de calidad, bibliografía, bases de datos especializadas y recursos accesibles a través de Internet.
Específicas
CE1 Adquisición de una formación sólida y rigurosa en temas avanzados de Estadística Matemática y Tecnologías de la Decisión aplicadas al tratamiento de la Información.
CE2 Capacidad para planificar la resolución de un problema en función de las herramientas de que se disponga y, en su caso, de las restricciones de tiempo y recursos.
CE3 Capacidad para utilizar aplicaciones informáticas estadísticas, de cálculo numérico y simbólico, visualización gráfica, optimización u otras para resolver problemas con un elevado grado de complejidad.
CE4 Desarrollar habilidades de aprendizaje en Estadística Computacional y Matemáticas, así como en sus respectivas aplicaciones, que permitan al alumno continuar estudiando y profundizando en la materia de modo autónomo, así como el desarrollo profesional con un alto grado de independencia.
CE5 Resolver problemas y casos reales planteados en el tratamiento estadístico computacional de la información generada en los ámbitos de la ciencia, la tecnología y la sociedad mediante habilidades de modelización matemática, estimación y computación.
CE6 Desarrollar programas que resuelvan problemas matemáticos utilizando para cada caso el entorno computacional adecuado.
CE7 Capacidad de utilización de herramientas de búsqueda de recursos bibliográficos así como manejo, gestión y análisis de grandes bases de datos.
CE2 Capacidad para planificar la resolución de un problema en función de las herramientas de que se disponga y, en su caso, de las restricciones de tiempo y recursos.
CE3 Capacidad para utilizar aplicaciones informáticas estadísticas, de cálculo numérico y simbólico, visualización gráfica, optimización u otras para resolver problemas con un elevado grado de complejidad.
CE4 Desarrollar habilidades de aprendizaje en Estadística Computacional y Matemáticas, así como en sus respectivas aplicaciones, que permitan al alumno continuar estudiando y profundizando en la materia de modo autónomo, así como el desarrollo profesional con un alto grado de independencia.
CE5 Resolver problemas y casos reales planteados en el tratamiento estadístico computacional de la información generada en los ámbitos de la ciencia, la tecnología y la sociedad mediante habilidades de modelización matemática, estimación y computación.
CE6 Desarrollar programas que resuelvan problemas matemáticos utilizando para cada caso el entorno computacional adecuado.
CE7 Capacidad de utilización de herramientas de búsqueda de recursos bibliográficos así como manejo, gestión y análisis de grandes bases de datos.
ACTIVIDADES DOCENTES
Clases teóricas
En las que se expondrán los conceptos y técnicas esenciales de cada tema.
Clases prácticas
En las que se resolverán ejercicios y prácticas relacionadas con los conceptos y técnicas de cada tema.
Laboratorios
En las que se utilizarán herramientas actualmente utilizadas tanto en el ámbito académico como profesional para la resolución de ejercicios y prácticas de programación
Presenciales
3
Semestre
2
Breve descriptor:
La asignatura plantea una introducción de las técnicas más utilizadas para el Análisis de Datos en ámbitos de Big Data.
Se introducen los conceptos que se utilizan para permitir el almacenamiento masivo y el procesamiento paralelo.
Especial atención se dedica a las técnicas de programación para clústers. En particular la metodología Map-Reduce y al entorno Spark. A lo largo de toda la asignatura se utilizará el lenguaje de programación Python y entornos interactivos de programación, análisis y prueba.
Se introducen los conceptos que se utilizan para permitir el almacenamiento masivo y el procesamiento paralelo.
Especial atención se dedica a las técnicas de programación para clústers. En particular la metodología Map-Reduce y al entorno Spark. A lo largo de toda la asignatura se utilizará el lenguaje de programación Python y entornos interactivos de programación, análisis y prueba.
Requisitos
Haber cursado, al menos, un primer curso de programación.
Es también muy conveniente tener nociones de programación funcional.
Es también muy conveniente tener nociones de programación funcional.
Objetivos
- Entender la distintas fases del Análisis de datos
- Conocer herramientas informáticas para aplicar en cada una de las fases
- Comprender el marco conceptual del BigData
- Entender y manejar básicamente un sistema HDFS Hadoop
- Diseñar soluciones paralelizables utilizando el esquema Map Reduce
- Escribir programas en Spark
- Conocer y programar la abstracción de datos RDD
- Conocer y programar la abstracción de datos DataFrame
- Conocer los módulos avanzados de Spark: Streaming, SQL, ML...
Contenido
- Introducción a Big Data.
- Almacenamiento de datos en ambientes Big Data
- Sistemas de Ficheros distribuidos Hadoop HDFS
- Técnicas de procesamiento paralelo:
- Map Reduce
- Apache Spark
- Módulos avanzados
Evaluación
Para la convocatoria ordinaria, la evaluación de la asignatura es continua.
Los factores que se valoran para la calificación final son:
* Asistencia y participación. 20% (Se recuerda que el máster es presencial y la asistencia es obligatoria)
* Entrega de prácticas: 40% (a medida que avanza el curso)
* Examen teórico-práctico: 40%
Para la convocatoria extraordinaria, se valorarán los siguientes factores
* Asistencia y participación. 20% (Se recuerda que el máster es presencial y la asistencia es obligatoria)
* Entrega de prácticas: 40%
* Examen teórico-práctico: 40% (A realizar el día de la fecha fijada en la convocatoria extraordinaria)
Los factores que se valoran para la calificación final son:
* Asistencia y participación. 20% (Se recuerda que el máster es presencial y la asistencia es obligatoria)
* Entrega de prácticas: 40% (a medida que avanza el curso)
* Examen teórico-práctico: 40%
Para la convocatoria extraordinaria, se valorarán los siguientes factores
* Asistencia y participación. 20% (Se recuerda que el máster es presencial y la asistencia es obligatoria)
* Entrega de prácticas: 40%
* Examen teórico-práctico: 40% (A realizar el día de la fecha fijada en la convocatoria extraordinaria)
Bibliografía
L. Massaron; A. Boschetti, Python Data Science Essentials, Packt. 2015
J. VanderPlas, Python Data Science Handbook, O'Reilly. 2016
Documentación Hadoop: http://hadoop.apache.org/docs/current/
Documentación MrJob: https://pythonhosted.org/mrjob/
Documentación Spark: http://spark.apache.org/docs/latest/
Karau H., Konwinski A., Wendell P., and Zaharia M. Learning Spark. O'Reilly. 2015
J. VanderPlas, Python Data Science Handbook, O'Reilly. 2016
Documentación Hadoop: http://hadoop.apache.org/docs/current/
Documentación MrJob: https://pythonhosted.org/mrjob/
Documentación Spark: http://spark.apache.org/docs/latest/
Karau H., Konwinski A., Wendell P., and Zaharia M. Learning Spark. O'Reilly. 2015
Estructura
Módulos | Materias |
---|---|
No existen datos de módulos o materias para esta asignatura. |
Grupos
Clases teóricas y/o prácticas | ||||
---|---|---|---|---|
Grupo | Periodos | Horarios | Aula | Profesor |
Grupo único | 02/10/2023 - 22/11/2023 | LUNES 16:30 - 18:00 | - | CARLOS GREGORIO RODRIGUEZ |
MIÉRCOLES 16:30 - 18:00 | - | CARLOS GREGORIO RODRIGUEZ | ||
24/11/2023 - 29/11/2023 | LUNES 16:30 - 18:00 | - | CARLOS GREGORIO RODRIGUEZ | |
MIÉRCOLES 16:30 - 18:00 | - | CARLOS GREGORIO RODRIGUEZ | ||
SÁBADO 16:30 - 18:00 | - | CARLOS GREGORIO RODRIGUEZ |