From 51added26880538944ef2ee4fcea062950f8ee44 Mon Sep 17 00:00:00 2001 From: Mitsuo Tokumori Date: Thu, 25 May 2023 18:55:55 -0500 Subject: Initial commit. I'm working on Entregable 2. tab:objetivos-resultados-verificacion is too long. I'm trying to convert it to longtable object. --- chapter/30-estado_del_arte.tex | 825 +++++++++++++++++++++++++++++++++++++++++ 1 file changed, 825 insertions(+) create mode 100644 chapter/30-estado_del_arte.tex (limited to 'chapter/30-estado_del_arte.tex') diff --git a/chapter/30-estado_del_arte.tex b/chapter/30-estado_del_arte.tex new file mode 100644 index 0000000..28999bb --- /dev/null +++ b/chapter/30-estado_del_arte.tex @@ -0,0 +1,825 @@ +\chapter{Estado del Arte} + + + +\section{Introducción} + +%[La revisión de la literatura establece lo que se sabe sobre el tema para +%construir sobre la sabiduría de trabajos anteriores. Lo que ya se ha establecido +%sobre un tema le ayuda a acotar un marco teórico específico. Esto significa que +%generalmente es necesario revisar la literatura antes de elegir un marco teórico +%específico. +% +%La revisión de la literatura puede dividirse por temas, por autores o +%cronológicamente. La división más común es por tema, ya que muestra una +%comprensión más compleja de la literatura. Una revisión de la literatura de los +%autores es una compilación de informes breves de libros. Esto significa que las +%revisiones de la literatura divididas por autores normalmente carecen de la +%comprensión global proporcionada por una descripción general de temas y, por lo +%tanto, no se consideran tan sofisticadas como las revisiones de temas. Las +%revisiones cronológicas suelen ser más útiles cuando el enfoque del artículo es +%de naturaleza histórica. La elección de la organización depende del objetivo del +%trabajo.] + +% Reference Needed +% La deserción estudiantil universitaria es un fenómeno que afecta tanto a los +% estudiantes que abandonan su carrera profesional, como a la universidad de la +% cual desertan. Se ven perjudicadas la economía del estudiante y la universidad, +% la calidad de la enseñanza, y la diversidad estudiantil en la universidad. La +% identificación temprana de los estudiantes más propensos a abandonar sus +% estudios, aquellos que presentan los principales indicadores de deserción, +% podría ayudar a los centros de estudios en proporcionar apoyo a estudiantes +% propoensos a desertar de forma más oportuna. + +% From 05-intro.tex +La deserción estudiantil universitaria es un fenómeno complejo que afecta a los estudiantes desertores y a su universidad. La deserción estudiantil universitaria afecta significativamente en la economía del estudiante y en su bienestar psicológico, así como también en la reputación de la univerdad y de sus recursos que contará en el futuro \autocite{Fernandez2019}. Para el año 2013, en Estados Unidos, el ratio de deserción fue de 40\% por año para estudiantes que persíguen un pregrado, de los cuales el 30\% deserta en el primer año de estudios \autocite{Doll2013}. Actualmente, las universidades cuentan con diversos programas de apoyo al estudiante; por ejemplo la PUCP, cuenta con la Oficina de Orientación y Apoyo al Estudiante (OOIA) y la Dirección de Asuntos Estudiantiles (DAES) las cuales proporcionan programas de tutorías, refuerzo académico en los cursos más demandantes de 1er y 2do año, mentoría, atención psicológica, y eventos informativos \autocite{PUCP2019SaludMental}. + +Con el fin de investigar el estado del arte en el análisis de factores que +predicen la deserción estudiantil universitaria se realiza una revisión +sistemática de la literatura siguiendo principalmente los lineamientos +propuestos por \autocite{Kitchenham2007}. De esta manera, se emplean los +criterios PICOC \autocite{Petticrew2006} para enmarcar las preguntas de +investigación, y subsecuentemente generar la cadéna de búsqueda apropiada para +los motores de búsqueda a utilizar. Las siguientes secciones del capítulo +documentan el proceso de revisión de literatura realizado. + +% "debe indicar tipo de revision" +% -> El tipo de revision es "sistematica" (en contraste con "narrativa", +% "conceptual", "rapida", "realistica", "tradicional", etc.) +% +% Also, what does this mean? +% Además, el tipo esquema provisorio elegido será por temas, y no por autor. + + + +\section{Objetivos de Revisión} \label{objetivos} + +El primer paso para llevar a cabo una revisión sistemática del estado del arte +consiste en establecer claramente los objetivos que se persiguen con dicha +revisión. Estos objetivos serán abordados a través de las preguntas de +investigación que se planteen. Para el presente estudio, se definen +los siguientes objetivos de revisión: + +\begin{itemize} + \item + Identificar los principales factores y métricas que predicen la + deserción estudiantil universitaria, en la literatura. + \item + Conocer las herramientas y metodologías que se emplean actualmente para + analizar la deserción estudiantil, desde el punto de vista del análisis de datos + y Aprendizaje Automático. + \item + Conocer las metodologías algorítmicas basadas en + de Aprendizaje Automático (\textit{Machine Learning}) más usadas + para predecir la deserción estudiantil universitaria. + \item + Comparar las debilidades y oportunidades de mejora + en las metodologías y técnicas algorítmicas de análisis usadas actualmente + para predecir la deserción estudiantil universitaria +\end{itemize} + + + +\section{Preguntas de Revisión} + +Con la intención de estructurar las preguntas de revisión y considerar varios puntos de vista, +se utilizan los criterios PICOC (\textit{population, intervention, comparison, outcomes, +context}) \autocite{Petticrew2006} para elaborar las preguntas de revisión. Estos criterios +son mayormente utilizados en el campo de investigación clínica y salud. Sin embargo, +estos también se pueden aplicar al campos relacionados a la informática \autocite{Kitchenham2007}. +Para la presente revisión, no se utiliza el criterio de comparación, puesto que no es un objetivo +comparar la aplicación de la intervención (predicción de la deserción estudiantil universitaria) +sobre un grupo de la población y un grupo de control. +% En el presente estudio no se utiliza el +% criterio de comparación, puesto que no se tiene como objetivo comparar el +% criterio de intervención a investigar con algún otro método de intervención en +% concreto. Como recalca \autocite{Kitchenham2007}: es inadecuado comparar a los +% estudios que utilizan una técnica en específico contra los que no la utilizan. +Ver \autoref{tab:picoc}. + +\begin{table} [htbp] + \centering + \caption{Criterios PICOC} + \label{tab:picoc} + \begin{tabular} {|p{0.19\linewidth}|p{0.79\linewidth}|} + + \hline + Población & + % Estudiantes universitarios de pregrado en instituciones tanto nacionales como extranjeras \\ + Sistemas para la predicción de deserción estudiantil universitaria \\ + \hline + Intervención & + Técnicas modernas de Aprendizaje Automático para la predicción de deserción estudiantil universitaria \\ + \hline + Comparación & + % Soluciones y metodologías. Técnicas de Aprendizaje Automático. \\ + (No aplica) \\ + \hline + Consecuencia & + Predicciones de deserción estudiantil universitaria \\ + \hline + Contexto & + Estudiantes de pregrado, instituciones de educacion superior, nacional o internacional, + tipo de grado académico perseguido, estatus socioeconómico del estudiante. \\ + % El contexto de la intervención es amplio. Se espera + % recolectar información de las técnicas de Aprendizaje Automático + % más efectivas, así como las metodologías utilizadas para la captura + % de información, procesamiento, y aplicación del modelo. \\ + \hline + + \end{tabular} +\end{table} + +A continuación, se listan las preguntas de revisión formuladas. + +\begin{itemize} + \item + P1. ¿Qué factores o métricas predicen de mejor manera la deserción + estudiantil universitaria? + \item + P2. ¿Qué herramientas y metodologías se emplean actualmente para + analizar la deserción de los estudiantes, desde el punto de vista del análisis de datos + y Aprendizaje Automático? + \item + P3. ¿Qué soluciones algorítmicas basadas en Aprendizaje Automático son + utilizadas actualmente para predecir la deserción estudiantil + universitaria? + \item + P4. ¿Qué debilidades y oportunidades de mejora existen en las + metodologías y técnicas algorítimicas de análisis usadas actualmente + para predecir la deserción estudiantil universitaria? +\end{itemize} + + + +\section{Estratégia de Búsqueda} + +En esta sección se describe el procedimiento utilizado para identificar la bibliografía relevante para responder a las preguntas de revisión formuladas. Los criterios de inclusión y exclusión servirán para filtrar aún más la lista de documentos encontrados. Para luego catalogarlos con fichas bibliográficas utilizando el formulario de extracción de datos definido en la sección \ref{formulario-extraccion}. + +\subsection{Motores de búsqueda a usar.} + +Para el levantamiento de información se utilizarán los siguientes motores de +búsqueda: + +\begin{itemize} + \item Scopus + \item IEEE Xplore +\end{itemize} + + +\subsection{Cadenas de búsqueda a usar.} + + +% - cita a Kitchenham necesaria? +% - cita al paper de WordNet necesaria? O mejor solo a la URL +% https://wordnet.princeton.edu/ +Se sigue el enfoque general de descomponer los criterios PICOC (\autoref{tab:picoc}) en términos de +búsqueda (\autoref{tab:picoc-terms}). Seguido de encontrar sinónimos para cada término, +construir la cadena de búsqueda utilizando operadores booleanos, y finalmente +adaptar la cadena a la sintaxis de los motores de búsqueda elegidos. Para la +búsqueda de sinónimos en inglés se utilizó el +diccionario WordNet, el cual es distribuido pública y libremente por Princeton +\autocite{Fellbaum2010}. + +\begin{table} [htbp] \centering + \caption{Términos de búsqueda derivados de los criterios PICOC} + \label{tab:picoc-terms} + \begin{tabular} {|p{0.19\linewidth}|p{0.79\linewidth}|} + + \toprule + % \hline + \textit{Criterio} & \emph{Términos de búsqueda} \\ + \midrule + % \hline + Población & + system, tool, student dropout, student desertion, student attrition \\ + % undergraduate students, college students, higher education students \\ + \hline + Intervención & + machine learning, data mining, predictive modeling, supervised learning, classification, feature selection \\ + \hline + Comparación & + (No aplica) \\ + \hline + Consecuencia & + forecast models, prediction models \\ + \hline + Contexto & + undergraduate, higher education institutions, university, college, + degree types, socioeconomic status \\ + \hline + + \end{tabular} +\end{table} + +Se utilizan el operador booleano $OR$ para concatenar los términos de +búsqueda pertenecientes al mismo criterio, y luego se concatenan las cadenas de +cada criterio con el operador booleano $AND$ para obtener una única cadena de +búsqueda. Para delimitar aún más la búsqueda, se restringe más el primer criterio +para que solo muestre herramientas o sistemas relacionadas al análisis de la deserción +estudiantil universitaria: + +\begin{verbatim} +( ( "system" OR "tool" ) AND ( "student dropout" OR "student desertion" OR +"student attrition" ) ) AND ( "machine learning" OR "data mining" OR "predictive +modeling" OR "supervised learning" OR "classification" OR "feature selection" ) +AND ( "forecast models" OR "prediction models" ) AND ( "undergraduate" OR +"higher education institutions" OR "university" OR "college" OR "degree types" +OR "socioeconomic status" ) +\end{verbatim} +% https://dl-acm-org.ezproxybib.pucp.edu.pe/action/doSearch?AllField=%28+%22university%22++AND++%22dropout+rate%22++AND++%22machine+learning%22+%29+ +% simple one (57 scopus): https://www-scopus-com.ezproxybib.pucp.edu.pe/results/results.uri?sort=plf-f&src=s&st1=%22university%22+AND+%22dropout+rate%22+AND+%22machine+learning%22&sid=5b2e61989f4528bdfb0f8402c4327812&sot=b&sdt=b&sl=69&s=TITLE-ABS-KEY%28%22university%22+AND+%22dropout+rate%22+AND+%22machine+learning%22%29&origin=searchbasic&editSaveSearch=&yearFrom=Before+1960&yearTo=Present +% v4: asesora: 61 SCOPUS, 1 IEEE Xplore +% https://www-scopus-com.ezproxybib.pucp.edu.pe/results/results.uri?sort=r-f&src=s&nlo=&nlr=&nls=&sid=618985a1c0139a3919c2f00d7f4cce1f&sot=a&sdt=cl&cluster=scofreetoread%2c%22all%22%2ct%2bscopubyr%2c%222023%22%2ct%2c%222022%22%2ct%2c%222021%22%2ct%2c%222020%22%2ct%2c%222019%22%2ct%2bscosubtype%2c%22ar%22%2ct%2bscosubjabbr%2c%22COMP%22%2ct%2bscolang%2c%22English%22%2ct&sl=430&s=ALL+%28%28+%28%22system%22+OR+%22tool%22%29+AND+%28%22student+dropout%22+OR+%22student+desertion%22+OR+%22student+attrition%22%29+%29+AND+%28+%22machine+learning%22+OR+%22data+mining%22+OR+%22predictive+modeling%22+OR+%22supervised+learning%22+OR+%22classification%22+OR+%22feature+selection%22+%29+AND+%28+%22forecast+models%22+OR+%22prediction+models%22+%29+AND+%28+%22undergraduate%22+OR+%22higher+education+institutions%22+OR+%22university%22+OR+%22college%22+%29+%29+AND+PUBYEAR+%3e+2017+AND+PUBYEAR+%3c+2024+AND+NOT+%28%22MOOC%22%29&origin=resultslist&zone=leftSideBar&editSaveSearch=&txGid=6faae11c585e71bcb05039753ceb381c +% IEEE Xplore: (( ( "student dropout" OR "student desertion" OR "student attrition" ) ) AND ( "machine learning" OR "data mining" OR "predictive modeling" OR "supervised learning" OR "classification" OR "feature selection" ) AND ( "forecast models" OR "prediction models" ) AND ( "undergraduate" OR "higher education institutions" OR "university" OR "college" OR "degree types" OR "socioeconomic status" )) +% ALL ( ( ( "system" OR "tool" ) AND ( "student dropout" OR "student desertion" OR "student attrition" ) ) AND ( "machine learning" OR "data mining" OR "predictive modeling" OR "supervised learning" OR "classification" OR "feature selection" ) AND ( "forecast models" OR "prediction models" ) AND ( "undergraduate" OR "higher education institutions" OR "university" OR "college" ) ) AND PUBYEAR > 2017 AND PUBYEAR < 2024 AND NOT ( "MOOC" ) AND ( LIMIT-TO ( OA , "all" ) ) AND ( LIMIT-TO ( PUBYEAR , 2023 ) OR LIMIT-TO ( PUBYEAR , 2022 ) OR LIMIT-TO ( PUBYEAR , 2021 ) OR LIMIT-TO ( PUBYEAR , 2020 ) OR LIMIT-TO ( PUBYEAR , 2019 ) ) AND ( LIMIT-TO ( DOCTYPE , "ar" ) ) AND ( LIMIT-TO ( SUBJAREA , "COMP" ) ) AND ( LIMIT-TO ( LANGUAGE , "English" ) ) +% v2: 1,374 SCOPUS, 6 IEEE Xplore +% v1: > 1,000,000 results SCOPUS, 27,397 results IEEE Xplore +% ("system" OR "solution" OR "forecast" OR "student dropout" OR "student +% desertion" OR "student attrition") AND ("machine learning" OR "data mining" OR +% "predictive modeling" OR "supervised learning" OR "classification" OR "feature +% selection") AND ("factors" OR "attributes" OR "metrics" OR "predict" OR "models" +% OR "academic success") AND ("undergraduate" OR "higher education institutions" +% OR "university" OR "college" OR "degree types" OR "socioeconomic status") +% v0: +% ("student desertion" OR student attrition OR "student dropout" OR "academic +% risk") AND ("machine learning" OR "data mining" OR techniques OR tools OR +% algorithms OR "classification algorithms") AND (model OR framework OR factors OR +% attributes OR metrics OR predict OR "predict student droput") AND (university OR +% academia OR peru OR latam OR "latin america" OR undergraduate OR "undergraduate +% studies" OR methodology OR review OR comparison OR "educational data mining") + +Finalmente, se adapta la cadena a la sintaxis +de cada uno de los motores de búsqueda bibliográficos. +Para Scopus, se genera la siguiente cadena. A la cual también +se le ha incorporado un criterio de exclución, limitando la antigüedad del +artículo (la lista completa de estos criterios se encuentra +en la sección \ref{criterios-inclusion-exclusion}). + +\begin{verbatim} +ALL ( ( "forecast system" OR "student dropout" OR "student desertion" OR +"student attrition" ) AND ( "machine learning" OR "data mining" OR "predictive +modeling" OR "supervised learning" OR "classification" OR "feature selection" ) +AND ( "forecast models" OR "prediction models" ) AND ( "undergraduate" OR +"higher education institutions" OR "university" OR "college" OR "degree types" +OR "socioeconomic status" ) ) AND PUBYEAR > 2017 AND PUBYEAR < 2024 +\end{verbatim} + +% El motor de búsqueda IEEE Xplore limita la búsqueda a un máximo de 25 términos. +Para IEEE Xplore, se utiliza la interfáz gráfica para limitar la antigüedad del artículo +a los últimos 6 años. La cadena no requiere modficaciones adicionales de sintaxis. + + +\subsection{Documentos encontrados.} + +La cantidad de documentos encontrados luego de utilizar las cadenas de búsqueda en los motores bibliograficos se sumariza en la \autoref{tab:documentos-encontrados}. El número de documentos encontrados es especialmente elevado para Scopus; pero aplicando los criterios de inclusión y exclusión listados en la siguiente sección, se buscará reducirlo a un número más manejable para los documentos primarios para la investigación. + +\begin{table} [htbp] \centering + \caption{Documentos encontrados por motor de búsqueda} + \label{tab:documentos-encontrados} + \begin{tabular} {|p{0.2\linewidth}|p{0.2\linewidth}|} + + \hline + Scopus & + 1,374 \\ + \hline + IEEE Xplore & + 4 \\ + \hline + + \end{tabular} +\end{table} + + +\subsection{Criterios de inclusión/exclusión.} \label{criterios-inclusion-exclusion} + +Se cuentan con los siguientes criterios de inclusión: + +\begin{itemize} + \item + El artículo incluye métricas o factores que ayudan a predecir la + deserción estudiantil universitaria + \item + El artículo explora y compara herramientas y metodologías para analizar + la deserción estudiantil universitaria + \item + El artículo incluye soluciónes algorítmicas de Machine Learning para el + análisis de deserción estudiantil universitaria. +\end{itemize} + +Y los siguientes criterios de exclusión: + +\begin{itemize} + \item + El artículo no tiene una antigüedad mayor a 6 años. A excepción de si + se trata a una referencia de conceptos o teoría. + \item + El artículo no está relacionado al contexto de deserción estudiantil + universitaria. + \item + Las técnicas para el análisis de factores que influyen en la deserción + estudiantil no están relacionadas con Aprendizaje Automático. + \item + El artículo se encuentra en un idioma distinto al inglés o español. + \item + El artículo no se encuentra disponible pasa su uso libre o licenciado + con la biblioteca de la Pontificia Universidad Católica del Perú (PUCP) + y no se considera que su aporte sería indispensable para el estudio. +\end{itemize} + + +\section{Formulario de Extracción de Datos} \label{formulario-extraccion} + +Luego de aplicar los criterios de inclusión y exclusión a los documentos +encontrados, se categorizan los documentos utilizando el formulario de +extracción de datos. Ver \autoref{tab:formulario-extraccion}. + +\begin{table}[H] + \centering + \caption{Estructura del formulario de extracción} + \label{tab:formulario-extraccion} + \begin{tabular} {p{0.24\linewidth}|p{0.5\linewidth}|p{0.25\linewidth}} + + \toprule + \emph{Ítem} & + \emph{Descripción} & + \emph{Pregunta} \\ + \midrule + + Id & + Identificador & + Información General \\ + + Título & + Título del artículo & + Información General \\ + + Autores & + Autores & + Información General \\ + + Año & + Año de publicación & + Información General \\ + + Motor de búsqueda & + Motor de búsqueda donde se encontró el artículo & + Información General \\ + + Tipo de Fuente & + Medio en que se publicó el documento. Puede ser artículo, revista, libro, + congreso. & + Información General \\ + + Métricas & + Métricas o factores que influyen en la deserción estudiantil universitaria & + P1 \\ + + Herramientas & + Herramientas o metodologías empleadas para analizar la deserción estudiantil + universitaria & + P2 \\ + + Algoritmos de ML & + Algoritmos actuales de Machine Learninng utilizados para analizar la + deserción estudiantil universitaria & + P3 \\ + + Carencias & + Carencias, falencias, y posibles mejoras en las técnicas actuales de + análisis de deserción estudiantil universitaria & + P4 \\ + + \bottomrule + + \end{tabular} +\end{table} + + + +\section{Resultados de la Revisión} + +Luego de aplicar los criterios de +inclusión y exclusión, se obtienen 16 estudios primarios con los que se +responderán las preguntas de investigación. Para ver la lista +completa de las fichas bibliográficas de los estudios primarios ver el Anexo 1. +% Añadir referencia Anexo1: Formulario de Extracción +En la \autoref{tab:p1papers} se sumarizan los estudios primarios y las preguntas de investigación a las que ayudan a responder. + +% - Tabla +% - Resumen +% - Opcionalmente graficos y tablas + +\begin{table} [H] + \centering + \caption{Artículos primarios y las preguntas de investigación que ayudan a + responder} + \label{tab:p1papers} + \begin{tabular} {|p{0.14\linewidth}|p{0.70\linewidth}| + *{4}{p{0.02\linewidth}|} } + + \hline + \textit{Autor} & + \textit{Título} & + \textit{P1} & + \textit{P2} & + \textit{P3} & + \textit{P4} + \\ \hline + + \autocite{Shilbayeh2021562} & + Predicting student enrolments and attrition patterns in higher educational institutions using machine learning & + & % P1 + x & % P2 + x & % P3 + % P4 + \\ \hline + + \autocite{Perez202157} & + Predicting Student Program Completion Using Naïve Bayes Classification Algorithm & + x & % P1 + & % P2 + x & % P3 + % P4 + \\ \hline + + \autocite{Alwarthan2022107649} & + An Explainable Model for Identifying At-Risk Student at Higher Education & + x & % P1 + & % P2 + & % P3 + % P4 + \\\hline + + \autocite{Khan2021} & + An artificial intelligence approach to monitor student performance and devise preventive measures & + & % P1 + & % P2 + x & % P3 + x % P4 + \\ \hline + + \autocite{Sahlaoui2021152688} & + Predicting and Interpreting Student Performance Using Ensemble Models and Shapley Additive Explanations & + x & % P1 + & % P2 + x & % P3 + % P4 + \\ \hline + + \autocite{Segura2022} & + Machine Learning Prediction of University Student Dropout: Does Preference Play a Key Role? & + x & % P1 + & % P2 + x & % P3 + % P4 + \\ \hline + + \autocite{Latif20221051} & + Identifying At-Risk Students: An AI-based Prediction Approach & + & % P1 + x & % P2 + x & % P3 + % P4 + \\ \hline + + \autocite{Balaji2021} & + Contributions of machine learning models towards student academic performance prediction: A systematic review & + & % P1 + x & % P2 + x & % P3 + % P4 + \\ \hline + + \autocite{Suhaimi20191} & + Review on Predicting Students’ Graduation Time Using Machine Learning Algorithms & + x & % P1 + & % P2 + x & % P3 + x % P4 + \\ \hline + + \autocite{Yağcı2022} & + Educational data mining: prediction of students' academic performance using machine learning algorithms & + & % P1 + x & % P2 + x & % P3 + % P4 + \\ \hline + + \autocite{Fernandez-Garcia2021133076} & + A real-life machine learning experience for predicting university dropout at different stages using academic data & + x & % P1 + & % P2 + x & % P3 + x % P4 + \\ \hline + + \autocite{Guzmán2022} & + Comparative Analysis of Dropout and Student Permanence in Rural Higher Education & + x & % P1 + & % P2 + x & % P3 + % P4 + \\ \hline + + \autocite{8820813} & + Supervised Learning in the Context of Educational Data Mining to Avoid University Students Dropout & + x & % P1 + x & % P2 + & % P3 + % P4 + \\ \hline + + \autocite{8484847} & + Applying Data Mining Techniques to Predict Student Dropout: A Case Study & + x & % P1 + & % P2 + x & % P3 + % P4 + \\ \hline + + \autocite{Kemper2020} & + Predicting student dropout: A machine learning approach & + x & % P1 + x & % P2 + x & % P3 + x % P4 + \\ \hline + + \end{tabular} +\end{table} + + +\subsection{Respuestas a la pregunta P1.} + +Los factores con los que se predice la deserción estudiantil universitaria +varían considerablemente para cada estudio, esto es debido a que cada uno +cuenta con data distinta, contextos distintos, y con medios de recolección de +datos distintos. Por ejemplo, en \autocite{Shilbayeh2021562} se recolectó data +real, de 1600 estudiantes de la Abu Dhabi School of Management en los años 2019-2022 +Universidad Pública de Ecuador. +Y se obtuvo 11 principales factores, siendo los más importantes la edad del alumno y +su rendimiento académico. +Por otro lado, \autocite{Kemper2020} encuentra que el promedio de notas y la cantidad de +exámenes aprobados son los principales factores. Las variables utilizadas en +\autocite{Kemper2020} se listan en \autoref{tab:Kemper2020-var}, con las cuales +lograron obtener un 95\% de precisión con data limitada hasta el tercer semestre +de estudios de cada estudiante, y más de 85\% de precisión luego del primer +semestre. + +En el estudio por \autocite{Perez202157} se meciona que tanto variables personales (género, estatus socio-económico) y variables educativas (rendimiento académico, dificultad percibida en los cursos que lleva) +pueden ser buenos predictores de deserción estudiantil. + +En \autocite{Alwarthan2022107649} se identifica que variables pre-admission (e.g., puntaje SAT, GPA, información demográfica) también son muy relevantes al predecir deserción estudiantil universitaria. +Estas variables podrían ser de especial ayuda para las universidades para poder elegir y apoyar +a estudiantes prospectivos que tienen alto riesgo de desertar, identificandolos de forma temprana. + + +% \begin{table} [htbp]\centering +% \caption{Variables independientes utilizadas en \autocite{Alban2019}} +% \label{tab:Alban2019-var} +% \begin{tabular} {|p{0.80\linewidth}|} + +% \hline +% % \textit{Descripción} +% % \\ \hline + +% Conocimiento limitado en el uso de software especializado de la carrera +% \\ \hline +% Embarazo deseado o no deseado +% \\ \hline +% El compromizo de los profesores con el estudiante +% \\ \hline +% Compromiso económico con la familia del alumno por ser hijo mayor +% \\ \hline +% Bullying +% \\ \hline +% Sexismo +% \\ \hline +% Adicciones del estudiante +% \\ \hline +% Número de hijos del estudiante +% \\ \hline +% Adaptabilidad del estudiante al nivel de rapidéz de aprendizaje +% requerido por la universidad +% \\ \hline +% Carrera elegida +% \\ \hline +% Perspectiva del estudiante en cuando su integración en el mercado +% laboral + +% \\ \hline + +% \end{tabular} +% \end{table} + +\begin{table} [H] + \centering + \caption{Variables independientes utilizadas en \autocite{Kemper2020}} + \label{tab:Kemper2020-var} + \begin{tabular} {|p{0.80\linewidth}|} + + \hline +% \textit{Descripción} +% \\ \hline + + Fecha de ingreso a la universidad + \\ \hline + Género + \\ \hline + Origen (Nacional o Extranjero) + \\ \hline + Edad en el momento de ingreso a la universidad + \\ \hline + Promedio de notas en todos los exámenes + \\ \hline + Promedio de notas en todos los exámenes aprobados + \\ \hline + Promedio de notas en todos los exámenes desaprobados + \\ \hline + Cantidad de exámenes tomados + \\ \hline + Cantidad de exámenes aprobados + \\ \hline + Cantidad de exámenes desaprobados + + \\ \hline + + \end{tabular} +\end{table} + + +\subsection{Respuestas a la pregunta P2.} + +De los artículos primarios revisados, \autocite{Khan2021} y +\autocite{Sahlaoui2021152688} utilizan la metodología \textit{Knowledge Discovery in +Databases} (KDD). Por otro lado, en \autocite{Latif20221051} se utilizó la +metodología CRIPS-DM. Además, \autocite{Kemper2020} propone una nueva +metodología para poner en práctica en otras instituciones y comparar resultados. + +En cuanto a las herramientas utilizadas, \autocite{Agrusti2019} menciona que, +dentro de los estudios que analizaron, las más usadas son WEKA, SPSS, y R. + +Como parte de otras técnicas utilizadas, tanto \autocite{Segura2022} como +\autocite{Balaji2021} utilizaron técnicas como SMOTE para el balanceo de datos, +parte de la etapa de pre-procesamiento de datos. Y SHAP para el análisis de importancia +y explicación de las variables en los modelos de Aprendizaje Automático obtenidos. + +En el estudio realizado por \autocite{Alwarthan2022107649} y \autocite{Kemper2020} +se comparó el desempeño de múltiples algoritmos basados en Aprendizaje Automático. +Entre ellos: Random Forest (RF), Artificial Neural Network (ANN), y Support Vector Machine (SVM). + + +\subsection{Respuestas a la pregunta P3.} + +En la literatura revisada se utilizan diversas técnicas de \textit{Machine +Learning}, como lo son \textit{Decision Tree}, clasificación bayesiana, redes +neuronales, y regresión logística. Para cada técnica, se cuenta con varios +algorítmos, por ejemplo, C4.5, \textit{Random Forest}, \textit{Naïve Bayes}, y +\textit{Multilayer perceptron} \autocite{Alwarthan2022107649}. En la +\autoref{tab:alg-comp} se sumariza el desempeño del mejor algorítmo para cada +artículo primario revisado. + +\begin{table} [htbp]\centering + \caption{Desempeño de algoritmos de Aprendizaje Automático utilizados en + los artículos primarios} + \label{tab:alg-comp} + \begin{tabular} + {|p{0.20\linewidth}|p{0.30\linewidth}|p{0.15\linewidth}|p{0.25\linewidth}|} + + \hline + \textit{Técnica} & + \textit{Algoritmo} & + \textit{Precisión} & + \textit{Cita} + \\ \hline + + Red neuronal & + Multilayer perceptron & + 96.3\% & + \autocite{Alwarthan2022107649} + \\ \hline + + % revisar + Decision Tree & + Random Forest & + 96.7\% & + \autocite{Alwarthan2022107649} + \\ \hline + + Decision Tree & + C4.5 & + 87\% & + \autocite{Alwarthan2022107649} + \\ \hline + + Red neuronal & + Artificial Neural Network & + 83\% & + \autocite{Kemper2020} + \\ \hline + + % revisar + Decision Tree & + Random Forest & + 95\% & + \autocite{Kemper2020} + \\ \hline + + % revisar + Decision Tree & + Support Vector Machine & + 81\% & + \autocite{Kemper2020} + \\ \hline + + \end{tabular} +\end{table} + + +\subsection{Respuestas a la pregunta P4.} + +% Tabla con los diferentes algoritmo usados. Notar cual es el mejor segun los +% estudios citados. Comparacion + +% Extension: ~ 1 pagina + +% revisar eso de notas no estandarizadas, Kemper es crack +Se identifica la falencia de la confiabilidad de los datos trabajados, por +ejemplo en \autocite{Alban2019} se utilizó data de encuestas a alumnos, que por +su naturaleza, están sujetas al enfoque subjetivo de cada encuestado. La +segunda falencia identificada es el trabajar con notas no estandarizadas cuando +se procesan datos de varias carreras \autocite{Kemper2020}. Distintos +estándares de calificación en cada carrera pueden afectar al modelo. +Finalmente, se identifica que algunos estudios no se cuenta con un +\textit{dataset} grande, \autocite{Alvarez2020} cuenta con data de solo 456 +estudiantes, y \autocite{Moreira2022} con 331 estudiantes. + +Debilidades: + +\begin{itemize} + \item + Limitada capacidad para generalización. Los modelos trabajados + no pueden ser directamente aplicados a todas las instituciones y + contextos educativos, ni a todas las poblaciones estudiantiles \autocite{Alwarthan2022107649}. + \item + Calidad de la data y disponibilidad. La presición de los modelos de predicción + dependen altamente de la calidad e integridad de la data disponible + \autocite{Kemper2020, Alwarthan2022107649, Perez202157}. + \item + Limitada capacidad de explicación de los modelos. Entender + la lógica detrás de cada predicción realizadas por algunos modelos de + Aprendizaje Automático, como una ANN, puede ser dificil \autocite{Alwarthan2022107649} +\end{itemize} + +Oportunidades de mejora: + +\begin{itemize} + \item + Incorporar fuentes de datos más diversas podría mejorar las predicciones \autocite{Alwarthan2022107649}. + \item + Utilizar modelos explicables de Aprendizaje Automático para mejorar + la interpretación y confianza de las predicciones + \autocite{Kemper2020, Alwarthan2022107649, Perez202157}. + \item + Desarrollar modelos que puedan ser adaptables a difrentes contextos educativos + y poblaciones estudiantiles \autocite{Alwarthan2022107649}. +\end{itemize} + + + +\section{Conclusiones} + +% En base a los documentos revisados... (8 lineas, juntar en 2 parrafos) + +En conclusión, la predicción de la deserción estudiantil universitaria es un tema de investigación complejo, ya que los factores que influyen en la deserción pueden variar considerablemente entre diferentes contextos y poblaciones estudiantiles. Los estudios analizados en esta revisión han identificado diversas variables relevantes, como la edad del alumno, el rendimiento académico, el género, el estatus socioeconómico y las variables pre-admisión, como el puntaje SAT o el GPA. + +En la literatura, se han empleado varias técnicas y algoritmos de aprendizaje automático para predecir la deserción estudiantil, incluyendo árboles de decisión, clasificación bayesiana, redes neuronales y regresión logística. Obteniendo resultados bastante prometedores, con coeficientes de determinación de hasta 97 \% (como los mecionados en \autocite{Kemper2020}). Sin embargo, estos modelos tienen limitaciones en cuanto a su capacidad de generalización y explicación (\textit{explainability}) y dependen en gran medida de la calidad e integridad de los datos disponibles. + +Las debilidades identificadas en los estudios incluyen la limitada capacidad para la generalización de los modelos, la calidad y disponibilidad de los datos y la limitada capacidad de explicación de algunos modelos de aprendizaje automático. Para abordar estas debilidades, se sugiere incorporar fuentes de datos más diversas, utilizar modelos explicables de aprendizaje automático y desarrollar modelos adaptables a diferentes contextos educativos y poblaciones estudiantiles. Al abordar estas áreas de mejora, los investigadores y las instituciones educativas podrán desarrollar modelos de predicción más precisos y útiles para prevenir y abordar la deserción estudiantil universitaria. + +% \begin{itemize} +% \item +% Los factores que mejor predicen la deserción estudiantil universitaria +% son muy variados, y van a depender de la manera en la que se recolecten +% los datos a analizar. +% \item +% Las precisiones alcanzadas en la literatura se encuentran alrededor del +% 90\%. Se remarca que es posible llegar a una precisión de más del 85\% +% tan pronto como finalizado el primer semestre del estudiante +% \autocite{Kemper2020}. +% \item +% Las metodologías más utilizadas son KDD y CRISP-DM. Sin embargo, varios +% estudios describen la metodología que siguieron, pero no mencionan un +% nombre en específico de su metodología. +% \item +% Los algorítmos más utilizados y con mejores resultados son +% \textit{Random Forest}, \textit{C4.5}, y \textit{Multilayer perceptron}. +% Siendo los dos primeros técnicas de clasificación utilizando +% \textit{Decision Trees} y el tercero utilizando redes neuronales. +% \item +% Dentro de las falencias identificadas se recalca la importancia de la +% confiabilidad y objetividad de los datos a analizar, y el tamaño del +% \textit{dataset}. +% \end{itemize} -- cgit v1.2.3