\chapter{Estado del Arte} \section{Introducción} %[La revisión de la literatura establece lo que se sabe sobre el tema para %construir sobre la sabiduría de trabajos anteriores. Lo que ya se ha establecido %sobre un tema le ayuda a acotar un marco teórico específico. Esto significa que %generalmente es necesario revisar la literatura antes de elegir un marco teórico %específico. % %La revisión de la literatura puede dividirse por temas, por autores o %cronológicamente. La división más común es por tema, ya que muestra una %comprensión más compleja de la literatura. Una revisión de la literatura de los %autores es una compilación de informes breves de libros. Esto significa que las %revisiones de la literatura divididas por autores normalmente carecen de la %comprensión global proporcionada por una descripción general de temas y, por lo %tanto, no se consideran tan sofisticadas como las revisiones de temas. Las %revisiones cronológicas suelen ser más útiles cuando el enfoque del artículo es %de naturaleza histórica. La elección de la organización depende del objetivo del %trabajo.] % Reference Needed % La deserción estudiantil universitaria es un fenómeno que afecta tanto a los % estudiantes que abandonan su carrera profesional, como a la universidad de la % cual desertan. Se ven perjudicadas la economía del estudiante y la universidad, % la calidad de la enseñanza, y la diversidad estudiantil en la universidad. La % identificación temprana de los estudiantes más propensos a abandonar sus % estudios, aquellos que presentan los principales indicadores de deserción, % podría ayudar a los centros de estudios en proporcionar apoyo a estudiantes % propoensos a desertar de forma más oportuna. % From 05-intro.tex La deserción estudiantil universitaria es un fenómeno complejo que afecta a los estudiantes desertores y a su universidad. La deserción estudiantil universitaria afecta significativamente en la economía del estudiante y en su bienestar psicológico, así como también en la reputación de la universidad y de sus recursos que contará en el futuro \autocite{Fernandez2019}. Para el año 2013, en Estados Unidos, el ratio de deserción fue de 40\% por año para estudiantes que persiguen un pregrado, de los cuales el 30\% deserta en el primer año de estudios \autocite{Doll2013}. Actualmente, las universidades cuentan con diversos programas de apoyo al estudiante; por ejemplo la PUCP, cuenta con la Oficina de Orientación y Apoyo al Estudiante (OOIA) y la Dirección de Asuntos Estudiantiles (DAES) las cuales proporcionan programas de tutorías, refuerzo académico en los cursos más demandantes de 1er y 2do año, mentoría, atención psicológica, y eventos informativos \autocite{PUCP2019SaludMental}. Con el fin de investigar el estado del arte en el análisis de factores que predicen la deserción estudiantil universitaria se realiza una revisión sistemática de la literatura siguiendo principalmente los lineamientos propuestos por \autocite{Kitchenham2007}. De esta manera, se emplean los criterios PICOC \autocite{Petticrew2006} para enmarcar las preguntas de investigación, y subsecuentemente generar la cadena de búsqueda apropiada para los motores de búsqueda a utilizar. Las siguientes secciones del capítulo documentan el proceso de revisión de literatura realizado. % "debe indicar tipo de revision" % -> El tipo de revision es "sistematica" (en contraste con "narrativa", % "conceptual", "rapida", "realistica", "tradicional", etc.) % % Also, what does this mean? % Además, el tipo esquema provisorio elegido será por temas, y no por autor. \section{Objetivos de Revisión} \label{objetivos} El primer paso para llevar a cabo una revisión sistemática del estado del arte consiste en establecer claramente los objetivos que se persiguen con dicha revisión. Estos objetivos serán abordados a través de las preguntas de investigación que se planteen. Para el presente estudio, se definen los siguientes objetivos de revisión: \begin{itemize} \item Identificar los principales factores y métricas que predicen la deserción estudiantil universitaria, en la literatura. \item Conocer las herramientas y metodologías que se emplean actualmente para analizar la deserción estudiantil, desde el punto de vista del análisis de datos y Aprendizaje Automático. \item Conocer las metodologías algorítmicas basadas en Aprendizaje Automático (\textit{Machine Learning}) más usadas para predecir la deserción estudiantil universitaria. \item Comparar las debilidades y oportunidades de mejora en las metodologías y técnicas algorítmicas de análisis usadas actualmente para predecir la deserción estudiantil universitaria \end{itemize} \section{Preguntas de Revisión} Con la intención de estructurar las preguntas de revisión y considerar varios puntos de vista, se utilizan los criterios PICOC (\textit{population, intervention, comparison, outcomes, context}) \autocite{Petticrew2006} para elaborar las preguntas de revisión. Estos criterios son mayormente utilizados en el campo de investigación clínica y salud. Sin embargo, estos también se pueden aplicar al campos relacionados a la informática \autocite{Kitchenham2007}. Para la presente revisión, no se utiliza el criterio de comparación, puesto que no es un objetivo comparar la aplicación de la intervención (predicción de la deserción estudiantil universitaria) sobre un grupo de la población y un grupo de control. % En el presente estudio no se utiliza el % criterio de comparación, puesto que no se tiene como objetivo comparar el % criterio de intervención a investigar con algún otro método de intervención en % concreto. Como recalca \autocite{Kitchenham2007}: es inadecuado comparar a los % estudios que utilizan una técnica en específico contra los que no la utilizan. Ver \autoref{tab:picoc}. \begin{table} [htbp] \centering \caption{Criterios PICOC} \label{tab:picoc} \begin{tabular} {|p{0.19\linewidth}|p{0.79\linewidth}|} \hline Población & % Estudiantes universitarios de pregrado en instituciones tanto nacionales como extranjeras \\ Sistemas para la predicción de deserción estudiantil universitaria \\ \hline Intervención & Técnicas modernas de Aprendizaje Automático para la predicción de deserción estudiantil universitaria \\ \hline Comparación & % Soluciones y metodologías. Técnicas de Aprendizaje Automático. \\ (No aplica) \\ \hline Consecuencia & Predicciones de deserción estudiantil universitaria \\ \hline Contexto & Estudiantes de pregrado, instituciones de educacion superior, nacional o internacional, tipo de grado académico perseguido, estatus socioeconómico del estudiante. \\ % El contexto de la intervención es amplio. Se espera % recolectar información de las técnicas de Aprendizaje Automático % más efectivas, así como las metodologías utilizadas para la captura % de información, procesamiento, y aplicación del modelo. \\ \hline \end{tabular} \end{table} A continuación, se listan las preguntas de revisión formuladas. \begin{itemize} \item P1. ¿Qué factores o métricas predicen de mejor manera la deserción estudiantil universitaria? \item P2. ¿Qué herramientas y metodologías se emplean actualmente para analizar la deserción de los estudiantes, desde el punto de vista del análisis de datos y Aprendizaje Automático? \item P3. ¿Qué soluciones algorítmicas basadas en Aprendizaje Automático son utilizadas actualmente para predecir la deserción estudiantil universitaria? \item P4. ¿Qué debilidades y oportunidades de mejora existen en las metodologías y técnicas algorítmicas de análisis usadas actualmente para predecir la deserción estudiantil universitaria? \end{itemize} \section{Estratégia de Búsqueda} En esta sección se describe el procedimiento utilizado para identificar la bibliografía relevante para responder a las preguntas de revisión formuladas. Los criterios de inclusión y exclusión servirán para filtrar aún más la lista de documentos encontrados. Para luego catalogarlos con fichas bibliográficas utilizando el formulario de extracción de datos definido en la sección \ref{formulario-extraccion}. \subsection{Motores de búsqueda a usar.} Para el levantamiento de información se utilizarán los siguientes motores de búsqueda: \begin{itemize} \item Scopus \item IEEE Xplore \end{itemize} \subsection{Cadenas de búsqueda a usar.} % - cita a Kitchenham necesaria? % - cita al paper de WordNet necesaria? O mejor solo a la URL % https://wordnet.princeton.edu/ Se sigue el enfoque general de descomponer los criterios PICOC (\autoref{tab:picoc}) en términos de búsqueda (\autoref{tab:picoc-terms}). Seguido de encontrar sinónimos para cada término, construir la cadena de búsqueda utilizando operadores booleanos, y finalmente adaptar la cadena a la sintaxis de los motores de búsqueda elegidos. Para la búsqueda de sinónimos en inglés se utilizó el diccionario WordNet, el cual es distribuido pública y libremente por Princeton \autocite{Fellbaum2010}. \begin{table} [htbp] \centering \caption{Términos de búsqueda derivados de los criterios PICOC} \label{tab:picoc-terms} \begin{tabular} {|p{0.19\linewidth}|p{0.79\linewidth}|} \hline \textit{Criterio} & \emph{Términos de búsqueda} \\ \hline \hline Población & system, tool, student dropout, student desertion, student attrition \\ % undergraduate students, college students, higher education students \\ \hline Intervención & machine learning, data mining, predictive modeling, supervised learning, classification, feature selection \\ \hline Comparación & (No aplica) \\ \hline Consecuencia & forecast models, prediction models \\ \hline Contexto & undergraduate, higher education institutions, university, college, degree types, socioeconomic status \\ \hline \end{tabular} \end{table} Se utiliza el operador booleano $OR$ para concatenar los términos de búsqueda pertenecientes al mismo criterio, y luego se concatena las cadenas de cada criterio con el operador booleano $AND$ para obtener una única cadena de búsqueda. Para delimitar aún más la búsqueda, se restringe más el primer criterio para que solo muestre herramientas o sistemas relacionadas al análisis de la deserción estudiantil universitaria: \begin{verbatim} ( ( "system" OR "tool" ) AND ( "student dropout" OR "student desertion" OR "student attrition" ) ) AND ( "machine learning" OR "data mining" OR "predictive modeling" OR "supervised learning" OR "classification" OR "feature selection" ) AND ( "forecast models" OR "prediction models" ) AND ( "undergraduate" OR "higher education institutions" OR "university" OR "college" OR "degree types" OR "socioeconomic status" ) \end{verbatim} % https://dl-acm-org.ezproxybib.pucp.edu.pe/action/doSearch?AllField=%28+%22university%22++AND++%22dropout+rate%22++AND++%22machine+learning%22+%29+ % simple one (57 scopus): https://www-scopus-com.ezproxybib.pucp.edu.pe/results/results.uri?sort=plf-f&src=s&st1=%22university%22+AND+%22dropout+rate%22+AND+%22machine+learning%22&sid=5b2e61989f4528bdfb0f8402c4327812&sot=b&sdt=b&sl=69&s=TITLE-ABS-KEY%28%22university%22+AND+%22dropout+rate%22+AND+%22machine+learning%22%29&origin=searchbasic&editSaveSearch=&yearFrom=Before+1960&yearTo=Present % v4: asesora: 61 SCOPUS, 1 IEEE Xplore % https://www-scopus-com.ezproxybib.pucp.edu.pe/results/results.uri?sort=r-f&src=s&nlo=&nlr=&nls=&sid=618985a1c0139a3919c2f00d7f4cce1f&sot=a&sdt=cl&cluster=scofreetoread%2c%22all%22%2ct%2bscopubyr%2c%222023%22%2ct%2c%222022%22%2ct%2c%222021%22%2ct%2c%222020%22%2ct%2c%222019%22%2ct%2bscosubtype%2c%22ar%22%2ct%2bscosubjabbr%2c%22COMP%22%2ct%2bscolang%2c%22English%22%2ct&sl=430&s=ALL+%28%28+%28%22system%22+OR+%22tool%22%29+AND+%28%22student+dropout%22+OR+%22student+desertion%22+OR+%22student+attrition%22%29+%29+AND+%28+%22machine+learning%22+OR+%22data+mining%22+OR+%22predictive+modeling%22+OR+%22supervised+learning%22+OR+%22classification%22+OR+%22feature+selection%22+%29+AND+%28+%22forecast+models%22+OR+%22prediction+models%22+%29+AND+%28+%22undergraduate%22+OR+%22higher+education+institutions%22+OR+%22university%22+OR+%22college%22+%29+%29+AND+PUBYEAR+%3e+2017+AND+PUBYEAR+%3c+2024+AND+NOT+%28%22MOOC%22%29&origin=resultslist&zone=leftSideBar&editSaveSearch=&txGid=6faae11c585e71bcb05039753ceb381c % IEEE Xplore: (( ( "student dropout" OR "student desertion" OR "student attrition" ) ) AND ( "machine learning" OR "data mining" OR "predictive modeling" OR "supervised learning" OR "classification" OR "feature selection" ) AND ( "forecast models" OR "prediction models" ) AND ( "undergraduate" OR "higher education institutions" OR "university" OR "college" OR "degree types" OR "socioeconomic status" )) % ALL ( ( ( "system" OR "tool" ) AND ( "student dropout" OR "student desertion" OR "student attrition" ) ) AND ( "machine learning" OR "data mining" OR "predictive modeling" OR "supervised learning" OR "classification" OR "feature selection" ) AND ( "forecast models" OR "prediction models" ) AND ( "undergraduate" OR "higher education institutions" OR "university" OR "college" ) ) AND PUBYEAR > 2017 AND PUBYEAR < 2024 AND NOT ( "MOOC" ) AND ( LIMIT-TO ( OA , "all" ) ) AND ( LIMIT-TO ( PUBYEAR , 2023 ) OR LIMIT-TO ( PUBYEAR , 2022 ) OR LIMIT-TO ( PUBYEAR , 2021 ) OR LIMIT-TO ( PUBYEAR , 2020 ) OR LIMIT-TO ( PUBYEAR , 2019 ) ) AND ( LIMIT-TO ( DOCTYPE , "ar" ) ) AND ( LIMIT-TO ( SUBJAREA , "COMP" ) ) AND ( LIMIT-TO ( LANGUAGE , "English" ) ) % v2: 1,374 SCOPUS, 6 IEEE Xplore % v1: > 1,000,000 results SCOPUS, 27,397 results IEEE Xplore % ("system" OR "solution" OR "forecast" OR "student dropout" OR "student % desertion" OR "student attrition") AND ("machine learning" OR "data mining" OR % "predictive modeling" OR "supervised learning" OR "classification" OR "feature % selection") AND ("factors" OR "attributes" OR "metrics" OR "predict" OR "models" % OR "academic success") AND ("undergraduate" OR "higher education institutions" % OR "university" OR "college" OR "degree types" OR "socioeconomic status") % v0: % ("student desertion" OR student attrition OR "student dropout" OR "academic % risk") AND ("machine learning" OR "data mining" OR techniques OR tools OR % algorithms OR "classification algorithms") AND (model OR framework OR factors OR % attributes OR metrics OR predict OR "predict student droput") AND (university OR % academia OR peru OR latam OR "latin america" OR undergraduate OR "undergraduate % studies" OR methodology OR review OR comparison OR "educational data mining") Finalmente, se adapta la cadena a la sintaxis de cada uno de los motores de búsqueda bibliográficos. Para Scopus, se genera la siguiente cadena. A la cual también se le ha incorporado un criterio de exclusión, limitando la antigüedad del artículo (la lista completa de estos criterios se encuentra en la sección \ref{criterios-inclusion-exclusion}). \begin{verbatim} ALL ( ( "forecast system" OR "student dropout" OR "student desertion" OR "student attrition" ) AND ( "machine learning" OR "data mining" OR "predictive modeling" OR "supervised learning" OR "classification" OR "feature selection" ) AND ( "forecast models" OR "prediction models" ) AND ( "undergraduate" OR "higher education institutions" OR "university" OR "college" OR "degree types" OR "socioeconomic status" ) ) AND PUBYEAR > 2017 AND PUBYEAR < 2024 \end{verbatim} % El motor de búsqueda IEEE Xplore limita la búsqueda a un máximo de 25 términos. Para IEEE Xplore, se utiliza la interfaz gráfica para limitar la antigüedad del artículo a los últimos 6 años. La cadena no requiere modificaciones adicionales de sintaxis. \subsection{Documentos encontrados.} La cantidad de documentos encontrados luego de utilizar las cadenas de búsqueda en los motores bibliograficos se sumariza en la \autoref{tab:documentos-encontrados}. El número de documentos encontrados es especialmente elevado para Scopus; pero aplicando los criterios de inclusión y exclusión listados en la siguiente sección, se buscará reducirlo a un número más manejable para los documentos primarios para la investigación. \begin{table} [htbp] \centering \caption{Documentos encontrados por motor de búsqueda} \label{tab:documentos-encontrados} \begin{tabular} {|p{0.2\linewidth}|p{0.2\linewidth}|} \hline Scopus & 1,374 \\ \hline IEEE Xplore & 4 \\ \hline \end{tabular} \end{table} \subsection{Criterios de inclusión/exclusión.} \label{criterios-inclusion-exclusion} Se cuentan con los siguientes criterios de inclusión: \begin{itemize} \item El artículo incluye métricas o factores que ayudan a predecir la deserción estudiantil universitaria \item El artículo explora y compara herramientas y metodologías para analizar la deserción estudiantil universitaria \item El artículo incluye soluciones algorítmicas de Machine Learning para el análisis de deserción estudiantil universitaria. \end{itemize} Y los siguientes criterios de exclusión: \begin{itemize} \item El artículo no tiene una antigüedad mayor a 6 años. A excepción de si se trata de una referencia de conceptos o teoría. \item El artículo no está relacionado con el contexto de deserción estudiantil universitaria. \item Las técnicas para el análisis de factores que influyen en la deserción estudiantil no están relacionadas con Aprendizaje Automático. \item El artículo se encuentra en un idioma distinto al inglés o español. \item El artículo no se encuentra disponible para su uso libre o licenciado con la biblioteca de la Pontificia Universidad Católica del Perú (PUCP) y no se considera que su aporte sería indispensable para el estudio. \end{itemize} \section{Formulario de Extracción de Datos} \label{formulario-extraccion} Luego de aplicar los criterios de inclusión y exclusión a los documentos encontrados, se categorizan los documentos utilizando el formulario de extracción de datos. Ver \autoref{tab:formulario-extraccion}. \begin{table}[H] \centering \caption{Estructura del formulario de extracción} \label{tab:formulario-extraccion} \begin{tabular} {|p{0.24\linewidth}|p{0.5\linewidth}|p{0.25\linewidth}|} \hline \emph{Ítem} & \emph{Descripción} & \emph{Pregunta} \\ \hline \hline Id & Identificador & Información General \\ \hline Título & Título del artículo & Información General \\ \hline Autores & Autores & Información General \\ \hline Año & Año de publicación & Información General \\ \hline Motor de búsqueda & Motor de búsqueda donde se encontró el artículo & Información General \\ \hline Tipo de Fuente & Medio en que se publicó el documento. Puede ser artículo, revista, libro, congreso. & Información General \\ \hline Métricas & Métricas o factores que influyen en la deserción estudiantil universitaria & P1 \\ \hline Herramientas & Herramientas o metodologías empleadas para analizar la deserción estudiantil universitaria & P2 \\ \hline Algoritmos de ML & Algoritmos actuales de Machine Learninng utilizados para analizar la deserción estudiantil universitaria & P3 \\ \hline Carencias & Carencias, falencias, y posibles mejoras en las técnicas actuales de análisis de deserción estudiantil universitaria & P4 \\ \hline \end{tabular} \end{table} \section{Resultados de la Revisión} Luego de aplicar los criterios de inclusión y exclusión, se obtienen 16 estudios primarios con los que se responderán las preguntas de investigación. Para ver la lista completa de las fichas bibliográficas de los estudios primarios ver el Anexo 1. % Añadir referencia Anexo1: Formulario de Extracción En la \autoref{tab:p1papers} se sumarizan los estudios primarios y las preguntas de investigación a las que ayudan a responder. % - Tabla % - Resumen % - Opcionalmente graficos y tablas \begin{table} [H] \centering \caption{Artículos primarios y las preguntas de investigación que ayudan a responder} \label{tab:p1papers} \begin{tabular} {|p{0.22\linewidth}|p{0.50\linewidth}| *{4}{p{0.02\linewidth}|} } \hline \textit{Autor} & \textit{Título} & \textit{P1} & \textit{P2} & \textit{P3} & \textit{P4} \\ \hline \hline \autocite{Shilbayeh2021562} & Predicting student enrolments and attrition patterns in higher educational institutions using machine learning & & % P1 x & % P2 x & % P3 % P4 \\ \hline \autocite{Perez202157} & Predicting Student Program Completion Using Naïve Bayes Classification Algorithm & x & % P1 & % P2 x & % P3 % P4 \\ \hline \autocite{Alwarthan2022107649} & An Explainable Model for Identifying At-Risk Student at Higher Education & x & % P1 & % P2 & % P3 % P4 \\\hline \autocite{Khan2021} & An artificial intelligence approach to monitor student performance and devise preventive measures & & % P1 & % P2 x & % P3 x % P4 \\ \hline \autocite{Sahlaoui2021152688} & Predicting and Interpreting Student Performance Using Ensemble Models and Shapley Additive Explanations & x & % P1 & % P2 x & % P3 % P4 \\ \hline \autocite{Segura2022} & Machine Learning Prediction of University Student Dropout: Does Preference Play a Key Role? & x & % P1 & % P2 x & % P3 % P4 \\ \hline \autocite{Latif20221051} & Identifying At-Risk Students: An AI-based Prediction Approach & & % P1 x & % P2 x & % P3 % P4 \\ \hline \autocite{Balaji2021} & Contributions of machine learning models towards student academic performance prediction: A systematic review & & % P1 x & % P2 x & % P3 % P4 \\ \hline \autocite{Suhaimi20191} & Review on Predicting Students’ Graduation Time Using Machine Learning Algorithms & x & % P1 & % P2 x & % P3 x % P4 \\ \hline \autocite{Yağcı2022} & Educational data mining: prediction of students' academic performance using machine learning algorithms & & % P1 x & % P2 x & % P3 % P4 \\ \hline \autocite{Fernandez-Garcia2021133076} & A real-life machine learning experience for predicting university dropout at different stages using academic data & x & % P1 & % P2 x & % P3 x % P4 \\ \hline \autocite{Guzmán2022} & Comparative Analysis of Dropout and Student Permanence in Rural Higher Education & x & % P1 & % P2 x & % P3 % P4 \\ \hline \autocite{8820813} & Supervised Learning in the Context of Educational Data Mining to Avoid University Students Dropout & x & % P1 x & % P2 & % P3 % P4 \\ \hline \autocite{8484847} & Applying Data Mining Techniques to Predict Student Dropout: A Case Study & x & % P1 & % P2 x & % P3 % P4 \\ \hline \autocite{Kemper2020} & Predicting student dropout: A machine learning approach & x & % P1 x & % P2 x & % P3 x % P4 \\ \hline \end{tabular} \end{table} \subsection{Respuestas a la pregunta P1.} Los factores con los que se predice la deserción estudiantil universitaria varían considerablemente para cada estudio, esto es debido a que cada uno cuenta con data distinta, contextos distintos, y con medios de recolección de datos distintos. Por ejemplo, en \autocite{Shilbayeh2021562} se recolectó data real, de 1600 estudiantes de la Abu Dhabi School of Management en los años 2019-2022 Universidad Pública de Ecuador. Y se obtuvo 11 principales factores, siendo los más importantes la edad del alumno y su rendimiento académico. Por otro lado, \autocite{Kemper2020} encuentra que el promedio de notas y la cantidad de exámenes aprobados son los principales factores. Las variables utilizadas en \autocite{Kemper2020} se listan en \autoref{tab:Kemper2020-var}, con las cuales lograron obtener un 95\% de precisión con data limitada hasta el tercer semestre de estudios de cada estudiante, y más de 85\% de precisión luego del primer semestre. En el estudio por \autocite{Perez202157} se menciona que tanto variables personales (género, estatus socio-económico) y variables educativas (rendimiento académico, dificultad percibida en los cursos que lleva) pueden ser buenos predictores de deserción estudiantil. En \autocite{Alwarthan2022107649} se identifica que variables pre-admisión (e.g., puntaje SAT, GPA, información demográfica) también son muy relevantes al predecir deserción estudiantil universitaria. Estas variables podrían ser de especial ayuda para las universidades para poder elegir y apoyar a estudiantes prospectivos que tienen alto riesgo de desertar, identificándolos de forma temprana. % \begin{table} [htbp]\centering % \caption{Variables independientes utilizadas en \autocite{Alban2019}} % \label{tab:Alban2019-var} % \begin{tabular} {|p{0.80\linewidth}|} % \hline % % \textit{Descripción} % % \\ \hline % Conocimiento limitado en el uso de software especializado de la carrera % \\ \hline % Embarazo deseado o no deseado % \\ \hline % El compromizo de los profesores con el estudiante % \\ \hline % Compromiso económico con la familia del alumno por ser hijo mayor % \\ \hline % Bullying % \\ \hline % Sexismo % \\ \hline % Adicciones del estudiante % \\ \hline % Número de hijos del estudiante % \\ \hline % Adaptabilidad del estudiante al nivel de rapidéz de aprendizaje % requerido por la universidad % \\ \hline % Carrera elegida % \\ \hline % Perspectiva del estudiante en cuando su integración en el mercado % laboral % \\ \hline % \end{tabular} % \end{table} \begin{table} [H] \centering \caption{Variables independientes utilizadas en \autocite{Kemper2020}} \label{tab:Kemper2020-var} \begin{tabular} {|p{0.80\linewidth}|} \hline % \textit{Descripción} % \\ \hline Fecha de ingreso a la universidad \\ \hline Género \\ \hline Origen (Nacional o Extranjero) \\ \hline Edad en el momento de ingreso a la universidad \\ \hline Promedio de notas en todos los exámenes \\ \hline Promedio de notas en todos los exámenes aprobados \\ \hline Promedio de notas en todos los exámenes desaprobados \\ \hline Cantidad de exámenes tomados \\ \hline Cantidad de exámenes aprobados \\ \hline Cantidad de exámenes desaprobados \\ \hline \end{tabular} \end{table} \subsection{Respuestas a la pregunta P2.} De los artículos primarios revisados, \autocite{Khan2021} y \autocite{Sahlaoui2021152688} utilizan la metodología \textit{Knowledge Discovery in Databases} (KDD). Por otro lado, en \autocite{Latif20221051} se utilizó la metodología CRIPS-DM. Además, \autocite{Kemper2020} propone una nueva metodología para poner en práctica en otras instituciones y comparar resultados. En cuanto a las herramientas utilizadas, \autocite{Agrusti2019} menciona que, dentro de los estudios que analizaron, las más usadas son WEKA, SPSS, y R. Como parte de otras técnicas utilizadas, tanto \autocite{Segura2022} como \autocite{Balaji2021} utilizaron técnicas como SMOTE para el balanceo de datos, parte de la etapa de pre-procesamiento de datos. Y SHAP para el análisis de importancia y explicación de las variables en los modelos de Aprendizaje Automático obtenidos. En el estudio realizado por \autocite{Alwarthan2022107649} y \autocite{Kemper2020} se comparó el desempeño de múltiples algoritmos basados en Aprendizaje Automático. Entre ellos: Random Forest (RF), Artificial Neural Network (ANN), y Support Vector Machine (SVM). \subsection{Respuestas a la pregunta P3.} En la literatura revisada se utilizan diversas técnicas de \textit{Machine Learning}, como lo son \textit{Decision Tree}, clasificación bayesiana, redes neuronales, y regresión logística. Para cada técnica, se cuenta con varios algorítmos, por ejemplo, C4.5, \textit{Random Forest}, \textit{Naïve Bayes}, y \textit{Multilayer perceptron} \autocite{Alwarthan2022107649}. En la \autoref{tab:alg-comp} se sumariza el desempeño del mejor algorítmo para cada artículo primario revisado. \begin{table} [htbp]\centering \caption{Desempeño de algoritmos de Aprendizaje Automático utilizados en los artículos primarios} \label{tab:alg-comp} \begin{tabular} {|p{0.20\linewidth}|p{0.30\linewidth}|p{0.15\linewidth}|p{0.25\linewidth}|} \hline \textit{Técnica} & \textit{Algoritmo} & \textit{Precisión} & \textit{Cita} \\ \hline \hline Red neuronal & Multilayer perceptron & 96.3\% & \autocite{Alwarthan2022107649} \\ \hline % revisar Decision Tree & Random Forest & 96.7\% & \autocite{Alwarthan2022107649} \\ \hline Decision Tree & C4.5 & 87\% & \autocite{Alwarthan2022107649} \\ \hline Red neuronal & Artificial Neural Network & 83\% & \autocite{Kemper2020} \\ \hline % revisar Decision Tree & Random Forest & 95\% & \autocite{Kemper2020} \\ \hline % revisar Decision Tree & Support Vector Machine & 81\% & \autocite{Kemper2020} \\ \hline \end{tabular} \end{table} \subsection{Respuestas a la pregunta P4.} % Tabla con los diferentes algoritmo usados. Notar cual es el mejor segun los % estudios citados. Comparacion % Extension: ~ 1 pagina % revisar eso de notas no estandarizadas, Kemper es crack Se identifica la falencia de la confiabilidad de los datos trabajados, por ejemplo en \autocite{Alban2019} se utilizó data de encuestas a alumnos, que por su naturaleza, están sujetas al enfoque subjetivo de cada encuestado. La segunda falencia identificada es el trabajar con notas no estandarizadas cuando se procesan datos de varias carreras \autocite{Kemper2020}. Distintos estándares de calificación en cada carrera pueden afectar al modelo. Finalmente, se identifica que algunos estudios no se cuenta con un \textit{dataset} grande, \autocite{Alvarez2020} cuenta con data de solo 456 estudiantes, y \autocite{Moreira2022} con 331 estudiantes. Debilidades: \begin{itemize} \item Limitada capacidad para generalización. Los modelos trabajados no pueden ser directamente aplicados a todas las instituciones y contextos educativos, ni a todas las poblaciones estudiantiles \autocite{Alwarthan2022107649}. \item Calidad de la data y disponibilidad. La precisión de los modelos de predicción dependen altamente de la calidad e integridad de la data disponible \autocite{Kemper2020, Alwarthan2022107649, Perez202157}. \item Limitada capacidad de explicación de los modelos. Entender la lógica detrás de cada predicción realizadas por algunos modelos de Aprendizaje Automático, como una ANN, puede ser difícil \autocite{Alwarthan2022107649} \end{itemize} Oportunidades de mejora: \begin{itemize} \item Incorporar fuentes de datos más diversas podría mejorar las predicciones \autocite{Alwarthan2022107649}. \item Utilizar modelos explicables de Aprendizaje Automático para mejorar la interpretación y confianza de las predicciones \autocite{Kemper2020, Alwarthan2022107649, Perez202157}. \item Desarrollar modelos que puedan ser adaptables a diferentes contextos educativos y poblaciones estudiantiles \autocite{Alwarthan2022107649}. \end{itemize} \section{Conclusiones} % En base a los documentos revisados... (8 lineas, juntar en 2 parrafos) En conclusión, la predicción de la deserción estudiantil universitaria es un tema de investigación complejo, ya que los factores que influyen en la deserción pueden variar considerablemente entre diferentes contextos y poblaciones estudiantiles. Los estudios analizados en esta revisión han identificado diversas variables relevantes, como la edad del alumno, el rendimiento académico, el género, el estatus socioeconómico y las variables pre-admisión, como el puntaje SAT o el GPA. En la literatura, se han empleado varias técnicas y algoritmos de aprendizaje automático para predecir la deserción estudiantil, incluyendo árboles de decisión, clasificación bayesiana, redes neuronales y regresión logística. Obteniendo resultados bastante prometedores, con coeficientes de determinación de hasta 97 \% (como los mencionados en \autocite{Kemper2020}). Sin embargo, estos modelos tienen limitaciones en cuanto a su capacidad de generalización y explicación (\textit{explainability}) y dependen en gran medida de la calidad e integridad de los datos disponibles. Las debilidades identificadas en los estudios incluyen la limitada capacidad para la generalización de los modelos, la calidad y disponibilidad de los datos y la limitada capacidad de explicación de algunos modelos de aprendizaje automático. Para abordar estas debilidades, se sugiere incorporar fuentes de datos más diversas, utilizar modelos explicables de aprendizaje automático y desarrollar modelos adaptables a diferentes contextos educativos y poblaciones estudiantiles. Al abordar estas áreas de mejora, los investigadores y las instituciones educativas podrán desarrollar modelos de predicción más precisos y útiles para prevenir y abordar la deserción estudiantil universitaria. % \begin{itemize} % \item % Los factores que mejor predicen la deserción estudiantil universitaria % son muy variados, y van a depender de la manera en la que se recolecten % los datos a analizar. % \item % Las precisiones alcanzadas en la literatura se encuentran alrededor del % 90\%. Se remarca que es posible llegar a una precisión de más del 85\% % tan pronto como finalizado el primer semestre del estudiante % \autocite{Kemper2020}. % \item % Las metodologías más utilizadas son KDD y CRISP-DM. Sin embargo, varios % estudios describen la metodología que siguieron, pero no mencionan un % nombre en específico de su metodología. % \item % Los algorítmos más utilizados y con mejores resultados son % \textit{Random Forest}, \textit{C4.5}, y \textit{Multilayer perceptron}. % Siendo los dos primeros técnicas de clasificación utilizando % \textit{Decision Trees} y el tercero utilizando redes neuronales. % \item % Dentro de las falencias identificadas se recalca la importancia de la % confiabilidad y objetividad de los datos a analizar, y el tamaño del % \textit{dataset}. % \end{itemize}