diff options
| author | Mitsuo Tokumori <[email protected]> | 2023-06-08 05:40:36 -0500 |
|---|---|---|
| committer | Mitsuo Tokumori <[email protected]> | 2023-06-08 05:40:36 -0500 |
| commit | 9c6ccb9f4cef6cc362743822dc98494a76b561b3 (patch) | |
| tree | 0c3572523be4e77c755bec22b73ac50b669e91f1 /chapter/10-generalidades.tex | |
| parent | 796609fde3238e632d3bc08fcb186134b661fe49 (diff) | |
| download | thesis-9c6ccb9f4cef6cc362743822dc98494a76b561b3.tar.gz thesis-9c6ccb9f4cef6cc362743822dc98494a76b561b3.tar.bz2 thesis-9c6ccb9f4cef6cc362743822dc98494a76b561b3.zip | |
E3 advisor feedback corrections
All observations resolved:
- problema central lo habiamos cambiado, modificarlo a la nueva version
- colocar Aprendizaje automatico y no solo ML
- Tabla 1.3 nombre de herramientas deben ir en mayusculas
- Falta definición de Metodos y Procedimientos como KDD
Diffstat (limited to 'chapter/10-generalidades.tex')
| -rw-r--r-- | chapter/10-generalidades.tex | 290 |
1 files changed, 174 insertions, 116 deletions
diff --git a/chapter/10-generalidades.tex b/chapter/10-generalidades.tex index 73f1a37..66681cd 100644 --- a/chapter/10-generalidades.tex +++ b/chapter/10-generalidades.tex @@ -270,13 +270,16 @@ cada estudiante a lo largo del tiempo puede ser dificultoso} \subsection{Problema seleccionado} \label{problematica-problema-seleccionado} -El problema central es que la deserción estudiantil universitaria es detectada -tardíamente debido a la falta de un enfoque más proactivo en la detección, -desaprovechando toda la data disponible en las instituciones educativas, la -escasez de capacidad para tomar decisiones oportunas y efectivas sobre el estado -de los estudiantes, y el seguimiento costoso y complejo de los estudiantes en -riesgo. Todo esto contribuye a que los estudiantes abandonen sus estudios antes -de que se puedan implementar medidas de apoyo eficaces. +El problema central la ineficiente detección de la deserción estudiantil +universitaria, y la subutilización de los datos disponibles de los estudiantes +para la detección temprana de la deserción.La deserción estudiantil +universitaria es detectada tardíamente debido a la falta de un enfoque más +proactivo en la detección, desaprovechando toda la data disponible en las +instituciones educativas, la escasez de capacidad para tomar decisiones +oportunas y efectivas sobre el estado de los estudiantes, y el seguimiento +costoso y complejo de los estudiantes en riesgo. Todo esto contribuye a que los +estudiantes abandonen sus estudios antes de que se puedan implementar medidas de +apoyo eficaces. \section{Objetivos} \label{sec:objetivos} @@ -291,6 +294,7 @@ permita predecir la deserción estudiantil en el ámbito universitario, mejorando así la retención de estudiantes. %y el rendimiento académico general del estudiantado. + % Basados en tecnicas de aprendizaje automatico. \subsection{Objetivos específicos} @@ -340,10 +344,10 @@ predicciones sobre la deserción estudiantil \item \textbf{R2.1} Identificación de los algoritmos aprendizaje automático de predicción con ayuda de la literatura. - \item \textbf{R2.2} Implementación de los algoritmos de ML seleccionados que - mejor se ajusten a la problemática. + \item \textbf{R2.2} Implementación de los algoritmos de aprendizaje + automático seleccionados que mejor se ajusten a la problemática. - \item \textbf{R2.3} Comparación de los algoritmos de ML implementados y + \item \textbf{R2.3} Comparación de los algoritmos de aprendizaje automático implementados y selección del mejor modelo según su precisión en la predicción. \end{itemize} @@ -374,10 +378,11 @@ los modelos de Aprendizaje Automático, mencionados anteriormente. \item \textbf{R3.6} Implementación del sistema. Incluye la programación del sistema siguiendo las especificaciones definidas anteriormente. - \item \textbf{R3.7} Integración del sistema con los modelos de ML. - Integración de los modelos de aprendizaje automático desarrollados en el - Objetivo 2 con el sistema implementado. Permitiendo al sistema realizar - predicciones de deserción estudiantil basadas en los datos disponibles. + \item \textbf{R3.7} Integración del sistema con los modelos de + aprendizaje automático. Integración de los modelos de aprendizaje + automático desarrollados en el Objetivo 2 con el sistema implementado. + Permitiendo al sistema realizar predicciones de deserción estudiantil + basadas en los datos disponibles. \item \textbf{R3.8} Instalación y configuración del software. Incluye el empaquetamiento del software y pruebas de instalación @@ -480,13 +485,13 @@ verificación de cada resultado. - Aprobación del documento al 100\% por un especialista en Ciencia de Datos. \\ \hline - \textbf{R2.2} Implementación de los algoritmos de ML seleccionados que mejor se ajusten a la problemática. & - - Repositorio con el código fuente de la implementación de los modelos de ML. & + \textbf{R2.2} Implementación de los algoritmos de aprendizaje automático seleccionados que mejor se ajusten a la problemática. & + - Repositorio con el código fuente de la implementación de los modelos de aprendizaje automático. & - Aprobación del documento al 100\% por un especialista en Ciencia de Datos. \\ \hline - \textbf{R2.3} Comparación de los algoritmos de ML implementados y selección del mejor modelo según su precisión en la predicción & - - Documento con el análisis comparativo entre los modelos de ML, basado en su precisión. & + \textbf{R2.3} Comparación de los algoritmos de aprendizaje automático implementados y selección del mejor modelo según su precisión en la predicción & + - Documento con el análisis comparativo entre los modelos de aprendizaje automático, basado en su precisión. & - Aprobación del documento al 100\% por un especialista en Ciencia de Datos. \\ \hline @@ -533,7 +538,7 @@ verificación de cada resultado. - Aprobación del documento al 100\% por un especialista en Sistemas de Información. \\ \hline - \textbf{R3.7} Integración del sistema con los modelos de ML. & + \textbf{R3.7} Integración del sistema con los modelos de aprendizaje automático. & - Repositorio con el código fuente de la implementación del sistema. & - Aprobación del documento al 100\% por un especialista en Sistemas de Información. \\ \hline @@ -638,22 +643,22 @@ los estudiantes disponible para las universidades. \textbf{R1.2} Análisis descriptivo y limpieza de datos. & Estadística descriptiva, histogramas & - Python, matplotlib \\ + Python, Matplotlib \\ \hline \textbf{R1.3} Transformación de datos. & - Metolodogía KDD & - Python, pandas \\ + Metodología KDD & + Python, Pandas \\ \hline \textbf{R1.4} Análisis de relación. & Regresión logística & - Python, matplotlib \\ + Python, Matplotlib \\ \hline \textbf{R1.5} Análisis de correlación. & Mapas de calor & - Python, matplotlib \\ + Python, Matplotlib \\ \hline \textbf{R2.1} Identificación de los algoritmos aprendizaje automático de predicción con ayuda de la literatura & @@ -661,18 +666,18 @@ los estudiantes disponible para las universidades. Base de datos bibliográficos \\ \hline - \textbf{R2.2} Implementación de los algoritmos de ML seleccionados que mejor se ajusten a la problemática. & - Modelo incremental, KDD & - Python, poetry-python, scikit-learn, jupyter notebooks \\ + \textbf{R2.2} Implementación de los algoritmos de aprendizaje automático seleccionados que mejor se ajusten a la problemática. & + Modelo incremental, metodología KDD & + Python, Poetry-python, Scikit-learn, Jupyter notebooks \\ \hline - \textbf{R2.3} Comparación de los algoritmos de ML implementados y selección del mejor modelo según su presición en la predicción & - Modelo incremental, KDD & - Python, matplotlib \\ + \textbf{R2.3} Comparación de los algoritmos de aprendizaje automático implementados y selección del mejor modelo según su precisión en la predicción & + Modelo incremental, metodología KDD & + Python, Matplotlib \\ \hline \textbf{R3.1} Catálogo de requisitos. & - Metolodogía ágil, User Story Mapping & + Metodología Ágil, User Story Mapping & Google Sheets, draw.io \\ \hline @@ -682,7 +687,7 @@ los estudiantes disponible para las universidades. \hline \textbf{R3.3} Especificación de requisitos. & - Metolodogía ágil, User Stories & + Metodología ágil, User Stories & Google Sheets \\ \hline @@ -698,10 +703,10 @@ los estudiantes disponible para las universidades. \textbf{R3.6} Implementación del sistema. & Modelo incremental & - Git, Github, AWS, Visual Studio Code, PostgreSQL. Backend y Frontend tech stack \\ + Git, Github, AWS, Visual Studio Code, PostgreSQL. Backend y Frontend \textit{tech stack}. \\ \hline - \textbf{R3.7} Integración del sistema con los modelos de ML. & + \textbf{R3.7} Integración del sistema con los modelos de aprendizaje automático. & Modelo incremental & Git, Github, AWS \\ \hline @@ -713,84 +718,84 @@ los estudiantes disponible para las universidades. \end{tabular} \end{table} -\subsection{Aprendizaje Automático} - -El Aprendizaje Automático o \textit{Machine Learning} (también conocido como -\enquote{aprendizaje de máquina}) se refiere al campo de estudio que analiza y -desarrolla métodos que \textit{aprenden}. Donde aprender se refiere a encontrar -patrones, tendencias, y entender \enquote{qué es lo que dice la data} -\autocite{hastie2009elements, mitchell1997machine}. - -En la actualidad, se utilizan \textbf{técnicas de Aprendizaje Automático} en -aplicaciones de diversas disciplinas, entre ellas se encuentran: la detección de -correo electrónico basura, el reconocimiento óptico de carácteres (OCR), visión -computacional, y bioinformática \autocite{hastie2009elements}. - -Los algoritmos de Aprendizaje Automático se pueden dividir en dos grandes -categorías, Aprendizaje Supervisado y Aprendizaje No Supervisado. En el -Aprendizaje Supervisado se cuenta con información previamente etiquetada, y el -objetivo es extraer patrones entre la data y su etiqueta asociada -\autocite{hastie2009elements}. Por ejemplo, en el ámbito de la deserción -estudiantil, la etiqueta es si el alumno desertó o no, y en qué ciclo lo hizo; -mientras que la data son todas las demás variables, como el promedio de notas en -cada ciclo. Por otro lado, los algoritmos de Aprendizaje No Supervisado deben -trabajar con datos que no han sido previamente etiquetados. Es decir, no se le -proporciona instrucciones específicas para lo que debe encontrar en la data. -Algunas aplicaciones de Aprendizaje No Supervisado incluyen procesamiento de -lenguaje natural y análisis de audio e imágenes -\autocite{russell_artificial_2010}. - -Una de las técnicas más utilizadas son los algoritmos de clasificación, los -cuales buscan dividir a los individuos de una muestra en varias clases según el -valor de sus factores (\textit{features}). Por ejemplo, en la -\autoref{fig:classification-flowers} se puede ver el resultado de clasificar una -muestra de diversas flores, según el largo y ancho de sus pétalos, con el fin de -identificar si se trata de flores de la misma especie o no. - -\begin{figure}[htbp] - \centering - \includegraphics[width=.4\columnwidth]{img/classification-flowers.png} - \caption{Clasificación de flores \autocite{mitchell1997machine}} - \label{fig:classification-flowers} -\end{figure} - -\subsubsection{Ejemplos} - -% Los modelos predictivos de Aprendizaje Automático son utilizados en la actualidad para -% analizar data historica compleja, con muchas variables, y realizar predicciones de -% futuros eventos. En relación a la deserción estudiantil universitaria, las universidades -% cuentan con grandes cantidades de datos historica de los estudiantes, que incluyen muchas -% variables académicas, socio-económicas, y personales de cada estudiantes. Dado el -% objetivo de predecir la deserción estudiantil universitaria, las técnicas modernas -% de Aprendizaje Automático pueden - -En la actualidad, los modelos predictivos basados en Aprendizaje Automático (AA) -son ampliamente utilizados para analizar grandes conjuntos de datos históricos -complejos, caracterizados por un gran número de variables, con el fin de -predecir eventos futuros. En particular, en el ámbito universitario, las -instituciones cuentan con grandes cantidades de datos históricos de los -estudiantes, que incluyen diversas variables académicas, socioeconómicas y -personales \autocite{Balaji2021}. El objetivo de analizar estos datos es -predecir la deserción estudiantil universitaria, lo cual se ha convertido en una -preocupación creciente para las universidades en todo el mundo -\autocite{Shilbayeh2021562}. - -Para predecir la deserción estudiantil, se han utilizado diversas técnicas de -AA, tales como árboles de decisión, redes neuronales y modelos de regresión -\autocite{Balaji2021}. Estos modelos se entrenan utilizando datos históricos de -estudiantes que han abandonado sus estudios universitarios en el pasado, con el -fin de identificar patrones y relaciones entre las diversas variables que puedan -indicar una mayor probabilidad de deserción en el futuro. Una vez que se ha -entrenado el modelo, este puede ser utilizado para predecir la deserción -estudiantil de los estudiantes actuales en función de las variables relevantes -\autocite{Shilbayeh2021562}. - -Es importante destacar que, aunque los modelos predictivos de AA pueden ser -extremadamente precisos, no son infalibles y siempre existe un margen de error -\autocite{Latif20221051}. Por lo tanto, la interpretación cuidadosa de los -resultados del modelo es fundamental para tomar decisiones informadas y diseñar -estrategias efectivas para prevenir la deserción estudiantil -\autocite{Alwarthan2022107649, Latif20221051}. +% \subsection{Aprendizaje Automático} + +% El Aprendizaje Automático o \textit{Machine Learning} (también conocido como +% \enquote{aprendizaje de máquina}) se refiere al campo de estudio que analiza y +% desarrolla métodos que \textit{aprenden}. Donde aprender se refiere a encontrar +% patrones, tendencias, y entender \enquote{qué es lo que dice la data} +% \autocite{hastie2009elements, mitchell1997machine}. + +% En la actualidad, se utilizan \textbf{técnicas de Aprendizaje Automático} en +% aplicaciones de diversas disciplinas, entre ellas se encuentran: la detección de +% correo electrónico basura, el reconocimiento óptico de carácteres (OCR), visión +% computacional, y bioinformática \autocite{hastie2009elements}. + +% Los algoritmos de Aprendizaje Automático se pueden dividir en dos grandes +% categorías, Aprendizaje Supervisado y Aprendizaje No Supervisado. En el +% Aprendizaje Supervisado se cuenta con información previamente etiquetada, y el +% objetivo es extraer patrones entre la data y su etiqueta asociada +% \autocite{hastie2009elements}. Por ejemplo, en el ámbito de la deserción +% estudiantil, la etiqueta es si el alumno desertó o no, y en qué ciclo lo hizo; +% mientras que la data son todas las demás variables, como el promedio de notas en +% cada ciclo. Por otro lado, los algoritmos de Aprendizaje No Supervisado deben +% trabajar con datos que no han sido previamente etiquetados. Es decir, no se le +% proporciona instrucciones específicas para lo que debe encontrar en la data. +% Algunas aplicaciones de Aprendizaje No Supervisado incluyen procesamiento de +% lenguaje natural y análisis de audio e imágenes +% \autocite{russell_artificial_2010}. + +% Una de las técnicas más utilizadas son los algoritmos de clasificación, los +% cuales buscan dividir a los individuos de una muestra en varias clases según el +% valor de sus factores (\textit{features}). Por ejemplo, en la +% \autoref{fig:classification-flowers} se puede ver el resultado de clasificar una +% muestra de diversas flores, según el largo y ancho de sus pétalos, con el fin de +% identificar si se trata de flores de la misma especie o no. + +% \begin{figure}[htbp] +% \centering +% \includegraphics[width=.4\columnwidth]{img/classification-flowers.png} +% \caption{Clasificación de flores \autocite{mitchell1997machine}} +% \label{fig:classification-flowers} +% \end{figure} + +% \subsubsection{Ejemplos} + +% % Los modelos predictivos de Aprendizaje Automático son utilizados en la actualidad para +% % analizar data historica compleja, con muchas variables, y realizar predicciones de +% % futuros eventos. En relación a la deserción estudiantil universitaria, las universidades +% % cuentan con grandes cantidades de datos historica de los estudiantes, que incluyen muchas +% % variables académicas, socio-económicas, y personales de cada estudiantes. Dado el +% % objetivo de predecir la deserción estudiantil universitaria, las técnicas modernas +% % de Aprendizaje Automático pueden + +% En la actualidad, los modelos predictivos basados en Aprendizaje Automático (AA) +% son ampliamente utilizados para analizar grandes conjuntos de datos históricos +% complejos, caracterizados por un gran número de variables, con el fin de +% predecir eventos futuros. En particular, en el ámbito universitario, las +% instituciones cuentan con grandes cantidades de datos históricos de los +% estudiantes, que incluyen diversas variables académicas, socioeconómicas y +% personales \autocite{Balaji2021}. El objetivo de analizar estos datos es +% predecir la deserción estudiantil universitaria, lo cual se ha convertido en una +% preocupación creciente para las universidades en todo el mundo +% \autocite{Shilbayeh2021562}. + +% Para predecir la deserción estudiantil, se han utilizado diversas técnicas de +% AA, tales como árboles de decisión, redes neuronales y modelos de regresión +% \autocite{Balaji2021}. Estos modelos se entrenan utilizando datos históricos de +% estudiantes que han abandonado sus estudios universitarios en el pasado, con el +% fin de identificar patrones y relaciones entre las diversas variables que puedan +% indicar una mayor probabilidad de deserción en el futuro. Una vez que se ha +% entrenado el modelo, este puede ser utilizado para predecir la deserción +% estudiantil de los estudiantes actuales en función de las variables relevantes +% \autocite{Shilbayeh2021562}. + +% Es importante destacar que, aunque los modelos predictivos de AA pueden ser +% extremadamente precisos, no son infalibles y siempre existe un margen de error +% \autocite{Latif20221051}. Por lo tanto, la interpretación cuidadosa de los +% resultados del modelo es fundamental para tomar decisiones informadas y diseñar +% estrategias efectivas para prevenir la deserción estudiantil +% \autocite{Alwarthan2022107649, Latif20221051}. \subsection{Bases de datos bibliográficas} @@ -811,12 +816,12 @@ de software, análisis de datos, inteligencia artificial, entre otras áreas La utilidad de Python se le puede atribuir en gran medida gracias a la diversidad de paquetes \textit{open source} disponibles. Para desarrollar los resultados esperados relacionados al objetivo \textit{O2}, -se utilizarán las librerías Pandas, NumPy, Matplotlib, y scikit-learn. Es un +se utilizarán las librerías Pandas, NumPy, Matplotlib, y Scikit-learn. Es un problema común que un proyecto grande, que utiliza muchas librerías, se encuentre con conflictos de dependencias. Es decir, que una librería necesita una versión más antigua de otra, pero una tercera librería necesita la versión más nueva. Para resolver este tipo de conflictos, se utilizará -el gestor de librerias Poetry. +el gestor de librerías Poetry. % citation needed \subsection{Matplotlib} @@ -844,7 +849,7 @@ Scikit-learn es una biblioteca de aprendizaje automático (machine learning) en Python. Proporciona una amplia gama de algoritmos y herramientas para la construcción y evaluación de modelos de aprendizaje automático \autocite{scikit-learn}. -Existen muchas librarías que facilitan el uso de algorítmos de aprendizaje +Existen muchas librerías que facilitan el uso de algoritmos de aprendizaje automático. Sin embargo, se eligió scikit-learn por su popularidad, diversidad de algoritmos disponibles, y muy buena documentación que facilitan el aprendizaje de la librería. @@ -921,4 +926,57 @@ documentación, páginas web y notas de forma rápida y sencilla Mermaid es una herramienta que permite crear diagramas de flujo, diagramas de secuencia y otros tipos de diagramas utilizando una sintaxis de texto sencilla. Estos diagramas pueden ser incorporados en documentos o presentaciones para una -mejor visualización de la información \autocite{mermaid-diagrams}.
\ No newline at end of file +mejor visualización de la información \autocite{mermaid-diagrams}. + +\subsection{Metodología KDD (Knowledge Discovery in Databases)} + +La metodología KDD es un enfoque sistemático para descubrir conocimiento útil y +comprensible a partir de grandes conjuntos de datos. Involucra varias etapas, +como selección de datos, preprocesamiento, transformación, minería de datos, +y evaluación e interpretación de resultados \autocite{metodologia-kdd}. + +Cabe destacar que existen otras metodologías igualmente válidas. Por ejemplo El +estándar CRISP-DM, el cual es una variación a la metodología KDD más orientado +a negocios. + +\subsection{Estadística descriptiva} + +La estadística descriptiva es una rama de la estadística que se centra en la +recopilación, organización y resumen de datos para describir características y +patrones. Incluye técnicas como la media, mediana, moda, desviación estándar, +gráficos y tablas, que proporcionan una comprensión básica de los datos +\autocite{casella_statistical_2002}. + +\subsection{Modelo incremental} + +Un modelo incremental es aquel que se construye de manera gradual, agregando +funcionalidades o características en etapas sucesivas. En lugar de desarrollar +un modelo completo de una sola vez, se va mejorando y ampliando progresivamente, +permitiendo una mayor flexibilidad y adaptabilidad durante el proceso de +desarrollo \autocite{larman_iterative_2003}. + +\subsection{Metodología Ágil} + +La metodología ágil es un enfoque de gestión de proyectos que se basa en la +flexibilidad, la colaboración y la adaptación continua. Se centra en la entrega +incremental y frecuente de software funcional, promoviendo la participación del +cliente, la rápida respuesta a los cambios, y retroalimentación durante el +desarrollo \autocite{metodologia-agil}. + +\subsection{Modelo 4+1} + +El modelo 4+1 es una metodología utilizada en el diseño de arquitecturas de +software. Consiste en cuatro vistas principales del sistema: vista lógica, +vista de procesos, vista de implementación y vista de casos de uso; agregando un +escenario de uso o vista de casos de uso que integra las otras vistas +\autocite{kruchten_41_1995}. + +\subsection{Modelo relacional, tercera forma normal} + +El modelo relacional es un modelo de datos que organiza la información en tablas +estructuradas compuestas por filas y columnas. Propuesto por primera vez en 1969 +por Edgar Codd mientras trabajaba en IBM. La tercera forma normal (3NF) es una +regla de diseño en el modelo relacional que busca eliminar redundancias y +anomalías en los datos al asegurar que cada atributo dependa solo de la llave +primaria (\textit{primary key}) y no de otros atributos que no formen parte +de la llave primaria \autocite{codd_relational_1970}.
\ No newline at end of file |
