diff options
| -rw-r--r-- | .gitignore | 12 | ||||
| -rw-r--r-- | Makefile | 21 | ||||
| -rw-r--r-- | Readme.txt | 17 | ||||
| -rw-r--r-- | chapter/01-cover.tex | 75 | ||||
| -rw-r--r-- | chapter/05-intro.tex | 84 | ||||
| -rw-r--r-- | chapter/10-generalidades.tex | 691 | ||||
| -rw-r--r-- | chapter/20-marco.tex | 157 | ||||
| -rw-r--r-- | chapter/30-estado_del_arte.tex | 825 | ||||
| -rw-r--r-- | chapter/40-resultados_esperados.tex | 5 | ||||
| -rw-r--r-- | chapter/50-conclusiones.tex | 7 | ||||
| -rw-r--r-- | img/arbol_problemas_excel.png | bin | 0 -> 82953 bytes | |||
| -rw-r--r-- | img/arbol_problemas_modelo.png | bin | 0 -> 314792 bytes | |||
| -rw-r--r-- | img/classification-flowers.png | bin | 0 -> 38594 bytes | |||
| -rw-r--r-- | img/logoPUCP.png | bin | 0 -> 286271 bytes | |||
| -rw-r--r-- | img/spady-dropout_model.png | bin | 0 -> 35680 bytes | |||
| -rw-r--r-- | img/ss_20230324_103038.png | bin | 0 -> 98787 bytes | |||
| -rw-r--r-- | thesis.bib | 632 | ||||
| -rw-r--r-- | thesis.tex | 101 |
18 files changed, 2627 insertions, 0 deletions
diff --git a/.gitignore b/.gitignore new file mode 100644 index 0000000..ae68904 --- /dev/null +++ b/.gitignore @@ -0,0 +1,12 @@ +doc/ + +*.pdf +*.aux +*.bbl +*.bcf +*.fls +*.fdb_latexmk +*.log +*.out +*.run.xml +*synctex.gz diff --git a/Makefile b/Makefile new file mode 100644 index 0000000..5f3d94d --- /dev/null +++ b/Makefile @@ -0,0 +1,21 @@ +# Build thesis, copy it to the appropiate deliverable name too. +# Yes, pdflatex needs to run twice (sometimes even three times?). +# https://www.learnlatex.org/en/lesson-12 + +# Supposedly `xelatex` is an improved version of `pdflatex` that supports +# unicode. But I'm having trouble with it, seems like it can't find the +# appropiate fonts. + +DELIVERABLE="20170895_RobertoTokumori_PatriciaNatividad_E1.pdf" + +.PHONY: all +all: thesis.bib + pdflatex thesis.tex + biber thesis + pdflatex thesis.tex + cp thesis.pdf $(DELIVERABLE) + +.PHONY: clean +clean: + rm *.aux *.bbl *.bcf *.blg *.out *.run.xml *.toc thesis.log \ + chapter/*.aux diff --git a/Readme.txt b/Readme.txt new file mode 100644 index 0000000..7e8b900 --- /dev/null +++ b/Readme.txt @@ -0,0 +1,17 @@ +Idk why some comments make biber failbiber + +#@InProceedings{kotsiantis2003, +#author="Kotsiantis, S. B. +#and Pierrakeas, C. J. +#and Pintelas, P. E.", +#editor="Palade, Vasile +#and Howlett, Robert J. +#and Jain, Lakhmi", +#title="Preventing Student Dropout in Distance Learning Using Machine Learning Techniques", +#booktitle="Knowledge-Based Intelligent Information and Engineering Systems", +#year="2003", +#publisher="Springer Berlin Heidelberg", +#address="Berlin, Heidelberg", +#pages="267--274", +#isbn="978-3-540-45226-3" +#} diff --git a/chapter/01-cover.tex b/chapter/01-cover.tex new file mode 100644 index 0000000..9c60c97 --- /dev/null +++ b/chapter/01-cover.tex @@ -0,0 +1,75 @@ +\begin{titlepage} +\centering +{\bfseries\LARGE Pontificia Universidad Católica del Perú\par} +\vspace{0.5cm} +{\scshape\Large Facultad de Ciencias e Ingeniería \par} + +\vspace{1cm} +\begin{figure}[h!] + \centering + \includegraphics[width=2.5in]{img/logoPUCP.png} +\end{figure} +\vspace{1cm} + +\title{ + Sistema de análisis de factores que influyen en la deserción estudiantil + universitaria usando técnicas de Aprendizaje Automático +} +{ + SISTEMA DE ANÁLISIS DE FACTORES QUE INFLUYEN EN LA DESERCIÓN ESTUDIANTIL + UNIVERSITARIA USANDO TÉCNICAS DE APRENDIZAJE AUTOMÁTICO +} + +\vspace{1cm} + +{\bf Tesis para obtener el título profesional de Ingeniera Informática}\\[1.0cm] +% {\bf Entregable Parcial 1.1}\\[1.0cm] +{\bf AUTOR}\\[0.5cm] +{Roberto Mitsuo Tokumori Terry}\\[2.0 cm] +{\bf ASESOR}\\[0.5 cm] +{Mg. Patricia Andrea Natividad Gómez}\\[0.5 cm] + +\vfill +{Lima, Mayo, 2023 \par} +\end{titlepage} + +% Resumen +% ====================================================================== + +% \begin{center} +% {\bf Resumen} +% \end{center} + +% [La extensión debe ser de 200 a 300 palabras, sin exceder a una página. Escriba +% en tiempo verbal presente. El resumen debe contener información sobre la +% justificación de la investigación, los objetivos o hipótesis, la teoría o +% supuestos teóricos o metodológicos en la que se sustenta, el método o +% procedimiento realizado (de ser necesario), los resultados (de ser necesario) y +% la conclusión principal.] + +% [De acuerdo con el instructivo para la elaboración de documentos académicos de +% la Secretaría Académica de la Facultad de Ciencias e Ingeniería de la Pontificia +% Universidad Católica del Perú (2022), con respecto a la numeración de páginas, +% las páginas introductorias, desde el Resumen, se numeran con números romanos en +% minúscula (i, ii, iii, iv, etc.) y el documento principal se numera con números +% arábigos. La ubicación sugerida para los números de página es la parte superior +% derecha. Los márgenes superior, inferior, lateral izquierdo y lateral derecho +% deben ser de 2.54 cm. El tipo de letra debe ser unifome en todo el documento y +% ser Times New Roman de tamaño 12 en color negro. Para las figuras, el título +% debe ir en la parte inferior de la figura, ser de tamaño 10 y debe comenzar con +% el número de la figura en cursiva, seguido del título o descripción. Mediante +% una nota se añade la cita respectiva de ser necesaria. Para las tablas, el +% título debe ir en la parte superior de la tabla, ser de tamaño 12 y debe +% comenzar con el número de tabla, en una siguiente línea debe ir el nombre o +% título de la tabla en cursiva y alineado a la izquierda. En el caso de añadir +% alguna nota a la tabla, ésta debe debe ser tamaño 10 y alineada a la izquierda. + +% El documento principal será redactado con interlineado de doble espacio. Para el +% contenido de una tabla, se puede usar espacio simple o, espacio y medio. Además, +% el texto del documento debe estar justificado. Se recomienda que el documento +% principal no exceda las cien (100) páginas.] + + +% End of Resumen + +\newpage diff --git a/chapter/05-intro.tex b/chapter/05-intro.tex new file mode 100644 index 0000000..d234de2 --- /dev/null +++ b/chapter/05-intro.tex @@ -0,0 +1,84 @@ +\section{Título del tema de tesis} + +El tema de tesis a trabajar es: "Sistema de análisis de factores que influyen en la deserción estudiantil universitaria usando técnicas de Aprendizaje Automático". + + +\section{Asesora} + +La asesora para la tesis a realizar es Patricia Andrea Natividad Gómez. El plan de trabajo para cumplir con los objetivos del curso, y al igual que los entregables, es semanal. Se tendrán reuniones los miércoles de 17:00 a 18:00 a través de Zoom. La última reunión antes de la presentación, planificada para la semana 13, será de forma presencial en un aula de la universidad. En la tabla \ref{table:reuniones-asesoria} se listan las reuniones semanales con la asesora y su modalidad (virtual o presencial). + +\begin{table}[htbp] +\centering +\begin{tabular}{||c c c c||} + \hline + Semana & Fecha & Entregable & Modalidad \\ [0.5ex] + \hline\hline + 1 & 22/03/2023 & EP1.1 & Virtual \\ + 2 & 29/03/2023 & EP1.2 & Virtual \\ + 3 & 05/04/2023 & EP1.3 & Virtual \\ + 4 & 12/04/2023 & EP1.4 & Virtual \\ + 5 & 19/04/2023 & EP1.5 & Virtual \\ + 6 & 26/04/2023 & E1 & Virtual \\ + 7 & 03/05/2023 & EP2.1 & Virtual \\ + 8 & 10/05/2023 & & Virtual \\ + 9 & 17/05/2023 & (exámenes parciales) & (sin reunión) \\ + 10 & 24/05/2023 & E2 & Virtual \\ + 11 & 31/05/2023 & & Virtual \\ + 12 & 07/06/2023 & E3 & Virtual \\ + 13 & 14/06/2023 & E4 & Presencial \\ + 14 & 21/06/2023 & (exposiciónes finales) & (sin reunión) \\ + 15 & 28/06/2023 & (exposiciónes finales) & (sin reunión) \\ + \hline +\end{tabular} +\caption{Cronograma de reuniones} +\label{table:reuniones-asesoria} +\end{table} + +\begin{center} +\begin{tabular}{||c c c c||} + % \label{fig:reuniones-asesoria} + +\end{tabular} +\end{center} + +% \begin{figure}[htbp] +% \centering +% \includegraphics[width=.8\columnwidth]{img/ss_20230324_103038.png} +% \caption{Reuniones semanales de asesoría} +% \label{fig:reuniones-asesoria} +% \end{figure} + +\section{Área} + +La tesis a realizar corresponde al área de Sistemas de Información, de acuerdo a la clasificación de la currícula ACM-IEEE \autocite{ACM2020-Curricula}. + +\section{Descripción} + +\subsection{Problemática} +% \textbf{Problemática:} + +La deserción estudiantil universitaria es un fenómeno complejo que afecta a los estudiantes desertores y a su universidad. La deserción estudiantil universitaria afecta significativamente en la economía del estudiante y en su bienestar psicológico, así como también en la reputación de la univerdad y de sus recursos que contará en el futuro \autocite{Fernandez2019}. Para el año 2013, en Estados Unidos, el ratio de deserción fue de 40\% por año para estudiantes que persíguen un pregrado, de los cuales el 30\% deserta en el primer año de estudios \autocite{Doll2013}. Actualmente, las universidades cuentan con diversos programas de apoyo al estudiante; por ejemplo la PUCP, cuenta con la Oficina de Orientación y Apoyo al Estudiante (OOIA) y la Dirección de Asuntos Estudiantiles (DAES) las cuales proporcionan programas de tutorías, refuerzo académico en los cursos más demandantes de 1er y 2do año, mentoría, atención psicológica, y eventos informativos \autocite{PUCP2019SaludMental}. + +% Algunos de estos programas elaboran el perfil del estudiante mediante encuestas, entrevistas, registro de resultados académicos, y opiniones individaules de los docentes \autocite{DescubrePUCP}. + +La identificación temprana de los estudiantes más propensos a abandonar sus estudios, aquellos que presentan los principales indicadores de deserción, podría disminuir la deserción estudiantil universitaria. Pues ayudaría a los estudiantes a recibir apoyo de forma más oportuna \autocite{Fernandez2019}. + +\section{Resultados esperados} + +\begin{itemize} + \item Identificar los factores relevantes que influyen en la deserción universitaria para el entrenamiento y validación de los modelos de aprendizaje automático. + \item Implementar un conjunto de modelos de aprendizaje automático que realice una predicción de la deserción universitaria. + \item Implementar un sistema que permita a las universidades realizar y configurar el proceso de detección de deserción universitaria de sus estudiantes, según su conjunto de datos, utilizando modelos de aprendizaje automático mencionados anteriormente. + \item Implementar un \textit{dashboard} con resultados relevantes del análisis de deserción universitaria de sus estudiantes. + + % \item Obtención de fuente de datos para el análisis. Conjunto de datos de estudiantes universitarios con información académica y socio-económica. + % \item Análisis exploratorio de datos (EDA). + % \item Limpieza del conjunto de datos. + % \item Modelo de clusterización de estudiantes con mayor probabilidad de desertar sus estudios universitarios. + % \item Dashboard gráfico con resultados del análisis. Estadísticas y predicciones generadas por el Aprendizaje Automático. + % \item Generación de reporte individual de cada estudiante. Indicando la probabilidad de deserción y factores de riesgo presentes. Con el fin de poder contactarlos y apoyarlos con algún plan preventivo proporcionado por la universidad. +\end{itemize} + +\section{Métodos y procedimientos} + +Se utilizará la metodología \textit{Knowledge Discovery in Database} (KDD) y la data histórica de una universidad del Perú para la selección y entrenamiento de un modelos de Aprendizaje Automático (ML) (\textit{Machine Learning}) para la predicción de estudiantes con mayor probabilidad de desertar de sus estudios superiores. diff --git a/chapter/10-generalidades.tex b/chapter/10-generalidades.tex new file mode 100644 index 0000000..cc84fc3 --- /dev/null +++ b/chapter/10-generalidades.tex @@ -0,0 +1,691 @@ +\chapter{Generalidades} + + +\section{Problemática} + +%[Texto introductorio acerca de esta sección correspondiente a la descripción del +%problema o problemática que aborda el trabajo.] + +En esta sección se describe la problemática utilizando como herramienta de +análisis el diagrama de árbol de problemas y posteriormente se describe a mayor +detalle el problema a abordar en el presente estudio. + +En el apartado \ref{problematica-arbol-problemas}, se presenta la problemática a +alto nivel. Luego, en el apartado \ref{problematica-descripcion}, se +desarrollan más el problema central, sus causas, efectos, y contexto. +Finalmente en el apartado \ref{problematica-problema-seleccionado} se sumarizan +las ideas trabajadas. + +\subsection{Árbol de problemas} \label{problematica-arbol-problemas} + +% Fuentes para la tecnica del arbol de problemas + +%[Texto que introduce la técnica del árbol de problemas. De acuerdo con el +%esquema del árbol de problemas de la Figura 1, se explican las causas y origen +%de los problemas, el problema central y los efectos y consecuencias del problema +%central. +% +%Los pasos para elaborar el árbol de problemas son: +% +%\begin{enumerate} +% \item Identificar el problema central (tronco del árbol). +% \item Identificar los efectos del problema central (la copa del árbol). +% \item Identificar las relaciones entre los efectos. +% \item Identificar las causas (la raíz del árbol). +% \item Identificar las relaciones entre las causas. +% \item Diagramar el árbol. +%\end{enumerate} +% +%Luego de diagramar el árbol con sus respectivos nodos, revise la validez e +%integridad del árbol dibujado, todas las veces que sea necesario. Esto es, +%asegurarse que las causas representen causas y los efectos representen efectos, +%que el problema central este correctamente definido y que las relaciones +%(causales) estén correctamente expresadas.] + +% En la \autoref{fig:arb.prob.} se presenta el diagrama del árbol de problemas, en +% el cual se sumarizan el problema principal, los efectos, y los problemas causa y +% las relaciónes entre ellos. + +% \begin{figure} [htbp] \centering +% \includegraphics[width=.9\columnwidth]{img/arbol_problemas_excel.png} +% \caption{Esquema del árbol de problemas.} +% \label{fig:arb.prob.} +% \end{figure} + +Para plantear la problemática, se hace uso del esquema del árbol de problemas +(Ver la Tabla \ref{tab:arbol-problemas}). Se compone de 3 partes: el problema +central, los problemas causas, y los problemas efectos. Cada problema causa +esta relacionado a uno o más problemas efecto. El problema central es el que +engloba y es producto de los problemas causa (análogo a las raíces del árbol), y +se manifiesta como los problemas efecto (análogo a las ramas de un árbol). + +\begin{table} [H] + \centering + \caption{Árbol de problemas} + \label{tab:arbol-problemas} + \begin{tabular} + {|p{0.09\linewidth}|p{0.26\linewidth}|p{0.26\linewidth}|p{0.26\linewidth}|} + \hline + & 1 & 2 & 3 \\ + \hline + + Problemas efectos & + Sigue incrementando la deserción estudiantil. Aún cuando se cuenta con + más datos y capacidad de computo o análisis. & + No se contemplan factores relevantes que van a influir en la deserción + universitaria. & + El alcance de los programas de prevención de la deserción de las + universidades es limitado. Se tiene escaza capacidad para tomar + decisiones sobre el estado de sus estudiantes. \\ + \hline + + Problema central & + \multicolumn{3}{p{0.78\linewidth}|}{ + La deserción estudiantil universitaria es detectada tardíamente, + desaprovechamiento de los datos disponibles de los + estudiantes para detectarla + } \\ + \hline + + Problemas causas & + Los programas de detección y ayuda para estudiantes propensos a desertar + tienen un enfoque más reactivo en lugar de proactivo. & + Existe diversidad de factores que podrían detectar la deserción + estudiantil universitaria de forma oportuna, y estos no son + aprovechados. & + Realizar el seguimiento a todos los estudiantes con peligro de deserción + es una tarea compleja, costosa y larga. \\ + \hline + \end{tabular} +\end{table} + +\subsection{Descripción} \label{problematica-descripcion} + +% Explicacion del arbol de problemas con fuentes. + +%[En esta sección se contextualiza claramente el problema, respaldando y +%justificando fuertemente la ejecución de su proyecto de tesis, el cual tiene +%como objetivo desarrollar una propuesta de solución a la problemática que ha +%sido identificada. Considere referencias actualizadas para contextualizar el +%problema. El problema a solucionar debe ser relevante y de la magnitud de un +%proyecto de fin de carrera. Describa la problemática apoyándose en el árbol de +%problemas, describa de manera detallada cada una de las causas del problema +%central, así como los efectos de la misma. +% +%De acuerdo con Pólya (1945), un problema es un conjunto (estado) de condiciones +%que afectan un escenario (hecho, situación, persona, empresa), las cuales se +%quieren transformar para pasar a otro escenario (supuestamente más beneficioso +%que el anterior). No se aprecia “algo malo” directamente, sino condiciones dadas +%que se quieren modificar por otras “mejores”. Sí puede darse el caso que las +%condiciones afecten negativamente al escenario y que deban ser cambiadas. Por +%otro lado, Silva y Menezes (2005) consideran que un problema es una cuestión que +%muestra una situación que requiere de una discusión, investigación, decisión o +%solución. El problema es la cuestión que la investigación intentará +%resolver. Todo el proceso de la investigación girará en torno a su solución. +% +%El planteamiento del problema dentro de una proyecto de fin de carrera debe de +%responder a la pregunta: ¿Qué se va a investigar?. En el que el proyecto busca +%pasar de un estado de desconocimiento sobre estas condiciones iniciales, a un +%estado en que los resultados que obtengamos nos permitan dar respuesta a las +%preguntas planteadas inicialmente (Castillo Sánchez, 2004). En la formulación +%del proyecto es necesario indicar claramente: +% +%\begin{itemize} +% \item Situación actual o estado actual de condiciones +% \item Situación deseada o estado ideal de condiciones +%\end{itemize} +% +%La descripción de la situación actual debe considerar las tres “C”: +%contextualización, caracterización, conceptualización y describir qué es lo que +%está ocurriendo en la actualidad. +% +%La descripción de la situación deseada debe buscar responder: ¿A dónde se quiere +%llegar? y ¿qué se pretende realizar en el proyecto para llegar a esta situación +%deseada? +% +%El planteamiento del problema puede hacerse a manera de preguntas: +% +%\begin{itemize} +% \item Deben formularse de manera precisa y concreta +% \item Es necesario que las preguntas estén contextualizadas, para ello, se +% debe describir primero la situación del contexto, luego se formulan +% las preguntas, y estas preguntas deberán estar de acorde con los +% objetivos.] +%\end{itemize} +% +%[Todos los párrafos deben estar con sus respectivas citas en formato APA +%(American Psychological Association, 2022) en su versión más actual. Toda fuente +%que se cita en el documento debe aparecer al final en la bibliografía o +%referencias. Las fuentes pueden ser tomadas de revistas académicas, artículos de +%eventos académicos, libros, anuarios, informes, tesis, páginas web, etc. Pueden +%ser citaciones textuales o parafraseadas, pero siempre dándole el crédito al +%autor. Todo lo que referencie a lo expresado por los autores debe estar en +%tiempo pasado. Por ejemplo: “Codd (1970) indicó” o “Codd (1970) dijo”. +% +%Todas sus afirmaciones deben sustentarse mediante las referencias para lo cual +%debe manejar un gestor de referencias como: Zotero, Mendeley, EndNote u otros. +% +%El uso de encabezamientos ayuda a darle estructura al documento. El estilo +%recomendado consiste de cinco (5) posibles niveles de encabezamientos: +% +% % Intro +% La deserción estudiantil universitaria es un fenómeno complejo que ha sido +% ampliamente estudiado para identificar sus causas debido a su impacto tanto en +% la vida del estudiante que deserta como de la institución educativa de la cual +% desertó (Fernández-Martín et al., 2019). Si bien los ratios de deserción han +% decrecido en los últimos 100 años (Doll et al., 2013), este sigue siendo un +% problema en la actualidad. En 2013, (Doll et al., 2013) calculó que en Estados +% Unidos, el ratio de deserción es de 40\% por año para estudiantes que persíguen +% un pregrado, de los cuales el 30\% deserta en el primer año de estudios. + +% % Estudios previos +% Diversos estudios obtienen estadísticas de desersión estudiantil analizando +% varios factores académicos (E.g., universidad del estudiante, historia de notas +% de la escuela del estudiante, notas a la fecha del estudiante universitario, +% orden de mérito, asistencia a clases), socio-económicos (grupo étnico del +% estudiante, género, nivel de educación de los padres, ingresos propios, ingresos +% familiares (REF). Otros estudios menos cuantitativos se enfócan en analizar la +% deserción por el aspecto personal y psicológico del estudiante, analizando +% aspectos como la motivación, disciplina, esfuerzo y auto-control de los +% estudiantes por medio de encuestas (Lee et al., 2013). + +% % Programas de prevesión de deserción estudiantil +% Por otro lado, existen diversos programas que intentan disminuir la deserción +% estudiantil. + +El primer problema causa se trata de la naturaleza reactiva de los programas de +detección y ayuda para estudiantes propensos a desertar en lugar de adoptar un +enfoque más proactivo \autocite{chitti_need_2020}. La deserción estudiantil +universitaria es un fenómeno complejo que afecta a muchos estudiantes en todo el +mundo, y puede tener consecuencias a largo plazo tanto para los individuos como +para la sociedad. Por lo tanto, es importante abordar este problema de manera +efectiva. La situación actual de los programas de prevención de deserción +reactivos es que identifican y brindan apoyo a los estudiantes en riesgo después +de que se han manifestado signos de lucha o desinterés en el ámbito académico. +Estos programas suelen involucrar procesos de detección, seguimiento y medidas +correctivas para ayudar a los estudiantes a superar los desafíos que enfrentan y +mantenerlos en la carrera \autocite{chitti_need_2020}. Los estudiantes en +riesgo suelen ser identificados después de que ya han experimentado varias +dificultades académicas \autocite{Segura2022, Latif20221051} La situación +deseada por otro lado sería adoptar un enfoque proactivo, que implicaría +identificar y abordar los factores de riesgo antes de que se conviertan en +problemas. La identificación temprana juega un papel crucial, los estudiantes +en riesgo se identifican antes de que enfrenten dificultades académicas o +problemas de comportamiento, permitiendo intervenciones más efectivas y +oportunas \autocite{Shilbayeh2021562, chitti_need_2020, Segura2022}. + +El segundo problema causa está relacionado a que existen diversas herramientas y +estrategias que podrían utilizarse para detectar la deserción estudiantil +universitaria de forma oportuna, pero estas no son aprovechadas por las +instituciones educativas. Por ejemplo, muchas universidades tienen acceso a +datos sobre el rendimiento académico de los estudiantes, el ratio de su +asistencia a clases, su participación en actividades extracurriculares, +situación socio-económica al momento de ingresar a la universidad, y otros +indicadores importantes que podrían señalar un posible riesgo de deserción +\autocite{Khan2021, Yağcı2022}. Sin embargo, en muchos casos, estas +herramientas no se utilizan de manera efectiva. Los datos pueden estar +disponibles pero no se analizan de manera regular o sistemática +\autocite{Khan2021}. Además, los docentes y administradores a menudo no tienen +la formación o el tiempo necesario para interpretar y utilizar adecuadamente los +datos que tienen a su disposición \autocite{chitti_need_2020}. Por lo tanto, el +segundo problema efecto es que se está desaprovechando recursos y datos que +podrían ayudar a la detección temprana de estudiantes con riesgo a desertar +\autocite{Khan2021, Shilbayeh2021562, chitti_need_2020}. + +% Otra posible razón relacionada, de porqué no se aprovechan las oportunidades +% para detectar la deserción estudiantil de forma oportuna es la falta de +% coordinación entre los diferentes departamentos de la universidad. Por +% ejemplo, el departamento de administración y finanzas puede tener información +% importante sobre los estudiantes que están teniendo dificultades financieras, +% pero es posible que esta información no se comparta con otros departamentos +% que podrían ofrecer apoyo académico o de salud mental. + +En tercer problema causa está relacionado con la tarea de realizar el +seguimiento a todos los estudiantes con peligro de deserción. Este proceso +puede ser complejo, costoso y largo \autocite{Latif20221051}. Los factores que +pueden indicar el riesgo de deserción pueden ser diversos, lo que dificulta la +tarea de identificar a los estudiantes que necesitan intervención. Además, +muchos estudiantes pueden no mostrar signos claros de problemas hasta que sea +demasiado tarde. \textit{Por lo que mantener actualizado el factor de riesgo de +cada estudiante a lo largo del tiempo puede demostrar ser dificultoso} +\autocite{Latif20221051, Balaji2021}. + +% Además, el alcance de los programas de prevención de la deserción de las +% universidades puede ser limitado. Las universidades pueden tener recursos +% limitados y, por lo tanto, no pueden implementar programas y estrategias de +% prevención de la deserción a gran escala. La falta de personal capacitado y la +% falta de tecnología pueden limitar la capacidad de la universidad para +% identificar y apoyar a los estudiantes en riesgo. Además, la falta de +% coordinación entre los diferentes departamentos de la universidad puede +% dificultar la capacidad de la universidad para tomar decisiones sobre el +% estado de sus estudiantes y ofrecer apoyo. + +% En resumen, el seguimiento de los estudiantes con peligro de deserción es una +% tarea compleja, costosa y larga, y los programas de prevención de la deserción +% pueden tener un alcance limitado. Es importante que las universidades trabajen +% para abordar estos desafíos y desarrollar estrategias efectivas para +% identificar y apoyar a los estudiantes en riesgo de abandonar sus estudios. +% Esto puede requerir la asignación de recursos adecuados, la implementación de +% tecnología y la promoción de una cultura de colaboración en todo el campus. + +\subsection{Problema seleccionado} \label{problematica-problema-seleccionado} + +El problema central es que la deserción estudiantil universitaria es detectada +tardíamente debido a la falta de un enfoque más proactivo en la detección, +desprovechando toda la data disponible en las instituciones educativas, la +escasez de capacidad para tomar decisiones oportunas y efectivas sobre el estado +de los estudiantes, y el seguimiento costoso y complejo de los estudiantes en +riesgo. Todo esto contribuye a que los estudiantes abandonen sus estudios antes +de que se puedan implementar medidas de apoyo eficaces. + +\section{Objetivos} + +En esta sección se define el objetivo general, para luego ser desglosado en +objetivos específicos. También se definen los resultados esperados asociados +a cada objetivo específico. + +\subsection{Objetivo general} + +Desarrollar un sistema, basado en técnicas de aprendizaje automático, que +permita predecir y prevenir la deserción estudiantil en el ámbito universitario, +mejorando así la retención de estudiantes y el rendimiento académico general. + +% Basados en tecnicas de aprendizaje automatico. + +\subsection{Objetivos específicos} + +\begin{itemize} + \item \textbf{O1} Identificar los factores que influyen en la deserción estudiantil + universitaria usando técnicas estadísticas + + \item \textbf{O2} Implementar modelos de Aprendizaje Automático que realizen + predicciones sobre la desercion estudiantil + + \item \textbf{O3} Implementar un sistema que permita a las universidades, realizar un + proceso de detección temprana de deserción estudiantil. Utilizando los + modelos de Aprendizaje Automático, mencionados anteriormente. +\end{itemize} + +\subsection{Resultados esperados} + +\begin{itemize} + \item \textbf{O1} Identificar los factores que influyen en la deserción + estudiantil universitaria usando técnicas estadísticas + + \begin{itemize} + \item \textbf{R1.1} Recolección de datos. Recoger y organizar datos + relevantes sobre el rendimiento académico de los estudiantes, su + participación en clases, asistencia, interacciones en línea, salud + mental, factores socioeconómicos, entre otros. + + \item \textbf{R1.2} Análisis descriptivo y limpieza de datos. + + \item \textbf{R1.3} Transformación de datos. Los datos recopilados se + transforman a un formato que puede ser fácilmente analizado y utilizado + en modelos estadísticos y de Aprendizaje Automático. + + \item \textbf{R1.4} Análisis de relación. Se examina la relación entre + cada variable y la variable objetivo (deserción estudiantil) para + identificar patrones y tendencias + + \item \textbf{R1.5} Análisis de correlación. Se realiza un análisis de + correlación para analizar la inter-dependencia entre las variables. + \end{itemize} + +\item \textbf{O2} Implementar modelos de Aprendizaje Automático que realizen +predicciones sobre la desercion estudiantil + + \begin{itemize} + \item \textbf{R2.1} Identificación de los algoritmos aprendizaje + automático de predicción con ayuda de la literatura. + + \item \textbf{R2.2} Implementación de los algoritmos de ML seleccionados que + mejor se ajusten a la problemática. + + \item \textbf{R2.3} Comparación de los algoritmos de ML implementados y + selección del mejor modelo según su presición en la predicción. + \end{itemize} + +\item \textbf{O3} Implementar un sistema que permita a las universidades, +realizar un proceso de detección temprana de deserción estudiantil. Utilizando +los modelos de Aprendizaje Automático, mencionados anteriormente. + + \begin{itemize} + \item \textbf{R3.1} Catálogo de requisitos. Se definirán los requisitos + del sistema en una tabla, lo que permitirá una comprensión clara de las + funcionalidades esperadas del sistema. + + \item \textbf{R3.2} Prototipo del sistema. El cual es realizado en un + software de prototipado, como por ejemplo Figma. Ilustra los + principales flujos del sistema. + + \item \textbf{R3.3} Especificación de requisitos. Una descripción + detallada de los requisitos del sistema + + \item \textbf{R3.4} Modelo de base de datos. Diseño del modelo de + base de datos que respalde la solución, buscando la integridad y la + eficiencia en la gestión de los datos. + + \item \textbf{R3.5} Arquitectura de la solución. La arquitectura del + sistema define la estructura general, los componentes del sistema, y + cómo estos componentes interactúan entre sí. + + \item \textbf{R3.6} Implementación del sistema. Incluye la programación + del sistema siguiendo las especificaciones definidas anteriormente. + + \item \textbf{R3.7} Integración del sistema con los modelos de ML. + Integración de los modelos de aprendizaje automático desarrollados en el + Objetivo 2 con el sistema implementado. Permitiendo al sistema realizar + predicciones de deserción estudiantil basadas en los datos disponibles. + + \item \textbf{R3.8} Instalación y configuración del software. + Incluye el empaquetamiento del software y pruebas de instalación + en un entorno nuevo. + \end{itemize} +\end{itemize} + +% \begin{itemize} +% \item Recolección de Datos: + +% \item Preprocesamiento de Datos: Limpiar y preparar los datos para el +% análisis, lo que puede incluir la gestión de datos faltantes, la +% normalización de datos y la transformación de variables categóricas en +% numéricas. + +% \item Selección de Características (\textit{features}): Identificar y +% seleccionar las características más relevantes que puedan influir en la +% deserción estudiantil. + +% \item Desarrollo del Modelo de Aprendizaje Automático: Construir y entrenar +% un modelo de aprendizaje automático capaz de predecir la probabilidad de +% deserción de un estudiante basado en las características seleccionadas. + +% \item Validación del Modelo: Probar el modelo en un conjunto de datos de +% prueba independiente para validar su precisión y fiabilidad. + +% \item Implementación y Monitoreo: Implementar el modelo en el entorno +% universitario y establecer un sistema de monitoreo que permita ajustes y +% mejoras continuas. + +% \item Diseño de Intervenciones: Diseñar e implementar estrategias de +% intervención basadas en las predicciones del modelo para ayudar a los +% estudiantes en riesgo de deserción. +% \end{itemize} + +\subsection{Mapeo de objetivos, resultados, y verificación} + +En la \autoref{tab:obetivos-resultados-verificacion} se muestra en forma tabular +la relación entre los objetivos, sus resultados asociados, y medios de +verificación de cada resultado. + +\begin{table} [H] % htbp + \centering + \caption{Mapeo de objetivos, resultados, y verificación} + \label{tab:obetivos-resultados-verificacion} + \begin{tabular} {|p{0.30\linewidth}|p{0.30\linewidth}|p{0.30\linewidth}|} + \hline + + \multicolumn{3}{|p{0.90\linewidth}|}{ + \textbf{Objetivo 1 (O1):} Identificar los factores que influyen en + la deserción estudiantil universitaria usando técnicas estadísticas. + } \\ + \hline + + \textbf{Resultado} & + \textbf{Medio de verificación} & + \textbf{Indicador Objetivamente Verificable (IOV)} \\ + \hline + + \textbf{R1.1} Recolección de datos. & + - Obtención de un conjunto de datos proveniente de alguna universidad. & + - Aprobación del \textit{dataset} al 100\% por un especialista en Ciencia de Datos. \\ + \hline + + \textbf{R1.2} Análisis descriptivo y limpieza de datos. & + - Documento con el análisis exploratorio de los datos, utilizando técnicas de estadística descriptiva, incluyendo gráficos. & + - Aprobación del documento al 100\% por un especialista en Ciencia de Datos. \\ + \hline + + \textbf{R1.3} Transformación de datos. & + - Documento que muestre la transformación de los datos, a un formato adecuado para el posterior procesamiento. & + - Aprobación del documento al 100\% por un especialista en Ciencia de Datos. \\ + \hline + + \textbf{R1.4} Análisis de relación. & + - Documento con el análisis de relación entre las variables dependientes contra la variable independiente. & + - Aprobación del documento al 100\% por un especialista en Ciencia de Datos. \\ + \hline + + \textbf{R1.5} Análisis de correlación. & + - Documento con el análisis de correlación entre las todas las variables usando un mapa de calor representado de forma tabular. & + - Aprobación del documento al 100\% por un especialista en Ciencia de Datos. \\ + \hline + + \multicolumn{3}{|p{0.90\linewidth}|}{ + \textbf{Objetivo 2 (O2):} Implementar modelos de Aprendizaje Automático que + realizen predicciones sobre la desercion. + } \\ + \hline + + \textbf{Resultado} & + \textbf{Medio de verificación} & + \textbf{Indicador Objetivamente Verificable (IOV)} \\ + \hline + + \textbf{R2.1} Identificación de los algoritmos aprendizaje automático de predicción con ayuda de la literatura & + - Documento conteniendo un listado de los principales algoritmos de aprendizaje automático. Incluyendo las ventajas y desventajas de cada uno. & + - Aprobación del documento al 100\% por un especialista en Ciencia de Datos. \\ + \hline + + \textbf{R2.2} Implementación de los algoritmos de ML seleccionados que mejor se ajusten a la problemática. & + - Repositorio con el código fuente de la implementación de los modelos de ML. & + - Aprobación del documento al 100\% por un especialista en Ciencia de Datos. \\ + \hline + + \textbf{R2.3} Comparación de los algoritmos de ML implementados y selección del mejor modelo según su presición en la predicción & + - Documento con el análisis comparativo entre los modelos de ML, basado en su precisión. & + - Aprobación del documento al 100\% por un especialista en Ciencia de Datos. \\ + \hline + + \multicolumn{3}{|p{0.90\linewidth}|}{ + \textbf{Objetivo 3 (O3):} Implementar un sistema que permita a las + universidades, realizar un proceso de detección temprana de + deserción estudiantil. Utilizando los modelos de Aprendizaje + Automático. + } \\ + \hline + + \textbf{Resultado} & + \textbf{Medio de verificación} & + \textbf{Indicador Objetivamente Verificable (IOV)} \\ + \hline + + \textbf{R3.1} Catálogo de requisitos. & + - Documento con el catálogo de requisitos clasificados según su prioridad. & + - Aprobación del documento al 100\% por un especialista en Sistemas de Información. \\ + \hline + + \textbf{R3.2} Prototipo del sistema. & + - Documento con el prototipo del sistema. Muestra las principales pantallas y flujos. & + - Aprobación del documento al 100\% por un especialista en Sistemas de Información. \\ + \hline + + \textbf{R3.3} Especificación de requisitos. & + - Documento con la especificación de requisitos, describiendo cada uno a detalle. & + - Aprobación del documento al 100\% por un especialista en Sistemas de Información. \\ + \hline + + \textbf{R3.4} Modelo de base de datos. & + - Documento con el diagrama entidad relación o el diseño de la base de datos. & + - Aprobación del documento al 100\% por un especialista en Arquitectura de Software. \\ + \hline + + \textbf{R3.5} Arquitectura de la solución. & + - Documento con el diagrama de componentes del sistema. & + - Aprobación del documento al 100\% por un especialista en Arquitectura de Software. \\ + \hline + + \textbf{R3.6} Implementación del sistema. & + - Repositorio con el código fuente de la implementación del sistema. & + - Aprobación del documento al 100\% por un especialista en Sistemas de Información. \\ + \hline + + \textbf{R3.7} Integración del sistema con los modelos de ML. & + - Repositorio con el código fuente de la implementación del sistema. & + - Aprobación del documento al 100\% por un especialista en Sistemas de Información. \\ + \hline + + \textbf{R3.8} Instalación y configuración del software. & + - Documento de instalación y configuración del software. & + - Aprobación del documento al 100\% por un especialista en Sistemas de Información. \\ + \hline + + + \end{tabular} +\end{table} + +\section{Métodos y Procedimientos} + +% [Son todas aquellas herramientas, metodologías, métodos o procedimientos que van +% a ser usados para construir, dentro de un proyecto (de tesis, de fin de +% carrera), cada uno de los resultados esperados. Se pueden aplicar / requerir +% varias herramientas para la realización de cada uno de los resultados. Se deben +% identificar claramente las herramientas, metodologías, métodos o procedimientos +% que se necesitan para cada resultado. + +% Para cada resultado debe existir al menos una herramienta o método para +% obtenerlo. Puede usar tablas para mostrar: resultado, herramienta o método y +% forma de validación. + +% Debe describir a modo resumido las herramientas o métodos y cómo los aplicará en +% su tesis, esta información debe venir acompañada de referencias donde se +% encuentran mayores detalles. + +% Las herramientas cubren las necesidades propias de cada uno de los productos +% entregables que materialicen los resultados y que evidencien a los objetivos +% específicos. + +% Dentro del contexto de un proyecto de fin de carrera se entiende como +% herramienta a cualquier soporte básico, técnico o de carácter operativo que se +% requiera para construir el resultado esperado. No debe listar las herramientas +% más simples. Algunos ejemplos son los lenguajes de programación, editores de +% código, compiladores e intérpretes, modeladores de base de datos, modeladores de +% procesos, generadores de datos aleatorios, modeladores de planos y piezas, +% etc. Se recomienda omitir las herramientas de ofimática. + +% En el caso de utilizar alguna metodología, ésta puede ser definida como un +% conjunto de métodos, procedimientos, reglas, postulados y prácticas empleados en +% una disciplina. Puede ser considerada un sistema de capas, en donde cada capa es +% vista como un bloque de construcción que soporta la capa que se encuentra +% encima. + +% En el caso de utilizar algún método, éste se define como un conjunto de +% procedimientos intelectuales y técnicos necesarios en la investigación +% científica. Como el conocimiento científico se fundamenta en la razón, precisa +% ser sistemático, de manera tal que puede ser comprobado por otros miembros de la +% comunidad científica. Dentro de los métodos consolidados en la investigación +% científica se encuentran el método deductivo y el método inductivo. + +% El método deductivo se caracteriza por llegar a una conclusión a partir de una +% situación general y genérica, es decir, se parte de una teoría que define las +% relaciones entre conceptos dentro de un conjunto de suposiciones y restricciones +% fijadas, para formular hipótesis con el objetivo de confirmar la teoría. Por +% otro lado, el método inductivo se caracteriza por el proceso por el cual el +% investigador, por medio de observaciones, llega a determinadas conclusiones +% generales, es decir, parte de lo específico para lo general. + +% En el caso de utilizar algún modelo, éste se define como una abstracción de la +% realidad que trata de describirla. Además, es la caracterización y +% especificación de un fenómeno o entidad observable, el cual es explicado por +% leyes y teorías de un cuerpo de conocimiento. Un modelo posee características +% contextuales, componentes, procedimientos, indicadores y métricas, así como +% guías de implementación, guías de medición y/o guías de implantación.] + + +En esta sección se listan las herramientas, métodos, y procedimientos relevantes +para cumplir los resultados esperados planteados en la sección anterior. +Algunas herramientas son específicas para ciertos resultados esperados, mientras +que otras son transversales a varios resultados esperados. Se busca +ser coherente en la selección de herramientas y métodos +utilizados para la problemática, en este caso la deserción estudiantil +universitaria detectada de forma tardía desaprovechando los datos disponibles +de los estudiantes. + +\subsection{Aprendizaje Automático} + +El Aprendizaje Automático o \textit{Machine Learning} (también conocido como +\enquote{aprendizaje de máquina}) se refiere al campo de estudio que analiza y +desarrolla métodos que \textit{aprenden}. Donde aprender se refiere a encontrar +patrones, tendencias, y entender \enquote{qué es lo que dice la data} +\autocite{hastie2009elements, mitchell1997machine}. + +En la actualiadad, se utilizan \textbf{técnicas de Aprendizaje Automático} en +aplicaciónes de diversas disciplinas, entre ellas se encuentran: la detección de +correo electrónico basura, el reconocimiento óptico de carácteres (OCR), visión +computacional, y bioinformática \autocite{hastie2009elements}. + +Los algoritmos de Aprendizaje Automático se pueden dividir en dos grandes +categorías, Aprendizaje Supervisado y Aprendizaje No Supervisado. En el +Aprendizaje Supervisado se cuenta con información previamente etiquetada, y el +objetivo es extraer patrónes entre la data y su etiqueta asociada +\autocite{hastie2009elements}. Por ejemplo, en el ámbito de la deserción +estudiantil, la etiqueta es si el alumno desertó o no, y en qué ciclo lo hizo; +mientras que la data son todas las demás variables, como el promedio de notas en +cada ciclo. Por otro lado, los algoritmos de Aprendizaje No Supervisado deben +trabajar con datos que no han sido previamente etiquetados. Es decir, no se le +proporciona instrucciones específicas para lo que debe encontrar en la data. +Algunas aplicaciones de Aprendizaje No Supervisado incluyen procesamiento de +lenguaje natural y análisis de audio e imágenes +\autocite{russell_artificial_2010}. + +Una de las técnicas más utilizadas son los algoritmos de clasificación, los +cuales buscan dividir a los individuos de una muestra en varias clases según el +valor de sus factores (\textit{features}). Por ejemplo, en la +\autoref{fig:classification-flowers} se puede ver el resultado de clasificar una +muestra de diversas flores, según el largo y ancho de sus pétalos, con el fin de +identificar si se trata de flores de la misma especie o no. + +\begin{figure}[htbp] + \centering + \includegraphics[width=.4\columnwidth]{img/classification-flowers.png} + \caption{Clasificación de flores \autocite{mitchell1997machine}} + \label{fig:classification-flowers} +\end{figure} + +\subsubsection{Ejemplos} + +% Los modelos predictivos de Aprendizaje Automático son utilizados en la actualidad para +% analizar data historica compleja, con muchas variables, y realizar predicciones de +% futuros eventos. En relación a la deserción estudiantil universitaria, las universidades +% cuentan con grandes cantidades de datos historica de los estudiantes, que incluyen muchas +% variables académicas, socio-económicas, y personales de cada estudiantes. Dado el +% objetivo de predecir la deserción estudiantil universitaria, las técnicas modernas +% de Aprendizaje Automático pueden + +En la actualidad, los modelos predictivos basados en Aprendizaje Automático (AA) +son ampliamente utilizados para analizar grandes conjuntos de datos históricos +complejos, caracterizados por un gran número de variables, con el fin de +predecir eventos futuros. En particular, en el ámbito universitario, las +instituciones cuentan con grandes cantidades de datos históricos de los +estudiantes, que incluyen diversas variables académicas, socioeconómicas y +personales \autocite{Balaji2021}. El objetivo de analizar estos datos es +predecir la deserción estudiantil universitaria, lo cual se ha convertido en una +preocupación creciente para las universidades en todo el mundo +\autocite{Shilbayeh2021562}. + +Para predecir la deserción estudiantil, se han utilizado diversas técnicas de +AA, tales como árboles de decisión, redes neuronales y modelos de regresión +\autocite{Balaji2021}. Estos modelos se entrenan utilizando datos históricos de +estudiantes que han abandonado sus estudios universitarios en el pasado, con el +fin de identificar patrones y relaciones entre las diversas variables que puedan +indicar una mayor probabilidad de deserción en el futuro. Una vez que se ha +entrenado el modelo, este puede ser utilizado para predecir la deserción +estudiantil de los estudiantes actuales en función de las variables relevantes +\autocite{Shilbayeh2021562}. + +Es importante destacar que, aunque los modelos predictivos de AA pueden ser +extremadamente precisos, no son infalibles y siempre existe un margen de error +\autocite{Latif20221051}. Por lo tanto, la interpretación cuidadosa de los +resultados del modelo es fundamental para tomar decisiones informadas y diseñar +estrategias efectivas para prevenir la deserción estudiantil +\autocite{Alwarthan2022107649, Latif20221051}.
\ No newline at end of file diff --git a/chapter/20-marco.tex b/chapter/20-marco.tex new file mode 100644 index 0000000..03fb6be --- /dev/null +++ b/chapter/20-marco.tex @@ -0,0 +1,157 @@ +\chapter{Marco teórico} + +%[Texto introductorio acerca de esta sección que corresponde con la descripción +%del marco legal, regulatorio, conceptual y/o otros de acuerdo con el contexto +%del problema abordado. Debe indicar claramente el objetivo de cada marco a +%presentar.] + +En este capítulo se busca cubrir de forma detallada los principales conceptos +presentados en la problemática en el capítulo anterior. De esta forma, las +ideas relacionadas con deserción estudiantil universitaria y \textit{Machine +Learning} se desarrollan en el \cref{marco-conceptual}. + +% , mientras que las +% consideraciones legales sobre el tratamiento de datos personales se desarrollan +% en el \cref{marco-legal}. + + + +\section{Marco Conceptual} \label{marco-conceptual} + +%[Se introduce el marco conceptual y se presenta el objetivo del marco. Todos los +%conceptos presentados en la problemática deben de ser incluidos y desarrollados +%en el marco. +% +%Deben detallarse los conceptos de una forma más amplia que en la +%problemática. En algunos casos para comprender los conceptos es necesario +%incluir ejemplos. En caso de ser necesario usar ejemplos, estos deberán ser +%reales y basados en la problemática.] + +% Conceptos: +% Desercion estudiantil universitaria +% Machine Learning +% Tipo de Aprendizaje de Machine Learning +% Aprendizaje supervisado (3 algoritmo: decision tree, logistic regression) +% Aprendizaje no supervisado +% +% Para cada concepto definicion y aplicacion (Hoy en dia se aplica en...) +% +% (Referencias no necesariamente de formulario de extraccion) +% + + +\subsection{Deserción estudiantil universitaria} + +%[Cada concepto presentado debe estar correctamente referenciado a través de +%fuentes primarias. No debe de incluir en los conceptos a los métodos y +%procedimientos. En cada definición de concepto, de ser necesario, incluya +%ejemplos que permitan determinar cómo el concepto permitirá comprender mejor el +%problema, es decir, vincula el concepto al tema que aborda.] + +Para el presente estudio, se entiende como \textbf{deserción estudiantil +universitaria} al proceso en el cual, estudiantes de pregrado, pertenecientes a +alguna institución de educación superior, abandonan definitivamente sus +estudios. La deserción estudiantil tiene sus fuertes implicancias en la vida +del estudiante, y también en su universidad. Además, como señala +\autocite{Delbonifro2020}, las estadísticas de deserción estudiantil puede ser +un indicador de falencias en el sistema de cada universidad. + +Por estos motivos, actualmente existen varias investigaciones que exploran y +analizan los principales \textbf{factores de deserción estudiantil +universitaria} en los cuales se apoya el presente estudio. Los factores que se +pueden tomar en cuenta son numerosos y pueden ser de muchas índoles, por +ejemplo, académico, socioeconómico, institucional, y personales. Los factores +estudiados dependen del conjunto de datos que se cuente disponible en el +estudio. En la \cref{fig:spady-dropout_model} se visualiza la complejidad y las +diversas relaciones causa-efecto entre las posibles causas (una en cada +recuadro) de deserción estudiantil identificadas por \autocite{Spady1970}. De +cada una de estas posibles causas se pueden recolectar múltiples factores para +luego ser analizados de forma cuantitativa. + +\begin{figure}[H] + \centering + \includegraphics[width=.8\columnwidth]{img/spady-dropout_model} + \caption{Un modelo sociológico explicativo del proceso de deserción + estudiantil propuesto por \autocite{Spady1970}} + \label{fig:spady-dropout_model} +\end{figure} + +A continuación se listan algunos conceptos y términos relacionados a la +deserción estudiantil universitaria. + +% adfasdf + +\begin{itemize} + \item Retención: Se refiere a la capacidad de una universidad para mantener + a sus estudiantes matriculados hasta su graduación. + + \item Rendimiento académico: El rendimiento académico se refiere a las + calificaciones y al progreso académico general de un estudiante en su + programa de estudio. El rendimiento académico puede ser un indicador clave + de la probabilidad de que un estudiante abandone su programa de estudio + \autocite{Shilbayeh2021562, Alwarthan2022107649, Khan2021}. + + \item Compromiso del estudiante (\textit{student engagement}): El compromiso + estudiantil se refiere al nivel de participación e interacción de los + estudiantes en actividades académicas y no académicas en el campus + universitario. El compromiso estudiantil puede ser un factor importante en + la retención de estudiantes, ya que los estudiantes que no se sienten + involucrados y conectados a la comunidad universitaria pueden ser más + propensos a desertar \autocite{Latif20221051}. + + \item Ayuda social: La ayuda social se refiere a la provisión de apoyo + emocional y social a los estudiantes, incluyendo mentoría, asesoramiento y + apoyo de compañeros. + % La ayuda social puede ayudar a los estudiantes a superar las barreras + % personales y académicas que pueden llevar a la deserción. + + \item Ayuda financiera: La ayuda financiera se refiere a la provisión de + apoyo monetario a los estudiantes que enfrentan dificultades financieras + para pagar su educación. La ayuda financiera puede ser un factor crítico + para la retención de estudiantes, ya que puede ayudar a los estudiantes a + evitar la deserción debido a la falta de recursos financieros. + + \item Sistemas de alerta temprana de deserción: Los sistemas de alerta + temprana de deserción son herramientas que utilizan los datos y el análisis + para identificar a los estudiantes que pueden estar en riesgo de abandonar + su programa de estudio. Los sistemas de alerta temprana de deserción pueden + ayudar a las universidades a intervenir tempranamente para apoyar a los + estudiantes antes de que abandonen su programa. + + % \item Intervención personalizada: La intervención personalizada se refiere + % al uso de estrategias específicas y enfocadas para ayudar a los + % estudiantes individuales a superar las barreras personales y académicas + % que pueden llevar a la deserción. Las intervenciones personalizadas pueden + % incluir asesoramiento, tutoría y apoyo académico adicional. + + % \item Colaboración y comunicación: La colaboración y la comunicación entre + % los distintos actores universitarios, como estudiantes, profesores, + % personal y administradores, son fundamentales para abordar los problemas + % relacionados con la retención y la prevención de la deserción. La + % colaboración y la comunicación efectiva pueden ayudar a garantizar que los + % estudiantes reciban el apoyo que necesitan para completar su programa de + % estudio. + + \item Evaluación: Se refiere al uso de datos y métricas para medir la + eficacia de las estrategias de retención y prevención de la deserción y + realizar ajustes necesarios. +\end{itemize} +% adfasdf + + + + +% \section{Marco Legal} \label{marco-legal} + +% % Proteccion de datos + +% % Deserción estudiantil en los últimos 10 años. +% % Efecto de la pandemia +% % Nuevas formas de predecir al deserción. + +% %[Se introduce el tipo de marco y se presenta el objetivo del marco.] + +% Teniendo en consideración la normativa vigente en el Perú (Ley N° 29733, Ley de +% Protección de Datos Personales), los datos tratados en el estudio han sido +% obtenidos con cualquier información personal de los estudiantes removida. +% Contando solo con un identificador correlativo para cada individuo. diff --git a/chapter/30-estado_del_arte.tex b/chapter/30-estado_del_arte.tex new file mode 100644 index 0000000..28999bb --- /dev/null +++ b/chapter/30-estado_del_arte.tex @@ -0,0 +1,825 @@ +\chapter{Estado del Arte} + + + +\section{Introducción} + +%[La revisión de la literatura establece lo que se sabe sobre el tema para +%construir sobre la sabiduría de trabajos anteriores. Lo que ya se ha establecido +%sobre un tema le ayuda a acotar un marco teórico específico. Esto significa que +%generalmente es necesario revisar la literatura antes de elegir un marco teórico +%específico. +% +%La revisión de la literatura puede dividirse por temas, por autores o +%cronológicamente. La división más común es por tema, ya que muestra una +%comprensión más compleja de la literatura. Una revisión de la literatura de los +%autores es una compilación de informes breves de libros. Esto significa que las +%revisiones de la literatura divididas por autores normalmente carecen de la +%comprensión global proporcionada por una descripción general de temas y, por lo +%tanto, no se consideran tan sofisticadas como las revisiones de temas. Las +%revisiones cronológicas suelen ser más útiles cuando el enfoque del artículo es +%de naturaleza histórica. La elección de la organización depende del objetivo del +%trabajo.] + +% Reference Needed +% La deserción estudiantil universitaria es un fenómeno que afecta tanto a los +% estudiantes que abandonan su carrera profesional, como a la universidad de la +% cual desertan. Se ven perjudicadas la economía del estudiante y la universidad, +% la calidad de la enseñanza, y la diversidad estudiantil en la universidad. La +% identificación temprana de los estudiantes más propensos a abandonar sus +% estudios, aquellos que presentan los principales indicadores de deserción, +% podría ayudar a los centros de estudios en proporcionar apoyo a estudiantes +% propoensos a desertar de forma más oportuna. + +% From 05-intro.tex +La deserción estudiantil universitaria es un fenómeno complejo que afecta a los estudiantes desertores y a su universidad. La deserción estudiantil universitaria afecta significativamente en la economía del estudiante y en su bienestar psicológico, así como también en la reputación de la univerdad y de sus recursos que contará en el futuro \autocite{Fernandez2019}. Para el año 2013, en Estados Unidos, el ratio de deserción fue de 40\% por año para estudiantes que persíguen un pregrado, de los cuales el 30\% deserta en el primer año de estudios \autocite{Doll2013}. Actualmente, las universidades cuentan con diversos programas de apoyo al estudiante; por ejemplo la PUCP, cuenta con la Oficina de Orientación y Apoyo al Estudiante (OOIA) y la Dirección de Asuntos Estudiantiles (DAES) las cuales proporcionan programas de tutorías, refuerzo académico en los cursos más demandantes de 1er y 2do año, mentoría, atención psicológica, y eventos informativos \autocite{PUCP2019SaludMental}. + +Con el fin de investigar el estado del arte en el análisis de factores que +predicen la deserción estudiantil universitaria se realiza una revisión +sistemática de la literatura siguiendo principalmente los lineamientos +propuestos por \autocite{Kitchenham2007}. De esta manera, se emplean los +criterios PICOC \autocite{Petticrew2006} para enmarcar las preguntas de +investigación, y subsecuentemente generar la cadéna de búsqueda apropiada para +los motores de búsqueda a utilizar. Las siguientes secciones del capítulo +documentan el proceso de revisión de literatura realizado. + +% "debe indicar tipo de revision" +% -> El tipo de revision es "sistematica" (en contraste con "narrativa", +% "conceptual", "rapida", "realistica", "tradicional", etc.) +% +% Also, what does this mean? +% Además, el tipo esquema provisorio elegido será por temas, y no por autor. + + + +\section{Objetivos de Revisión} \label{objetivos} + +El primer paso para llevar a cabo una revisión sistemática del estado del arte +consiste en establecer claramente los objetivos que se persiguen con dicha +revisión. Estos objetivos serán abordados a través de las preguntas de +investigación que se planteen. Para el presente estudio, se definen +los siguientes objetivos de revisión: + +\begin{itemize} + \item + Identificar los principales factores y métricas que predicen la + deserción estudiantil universitaria, en la literatura. + \item + Conocer las herramientas y metodologías que se emplean actualmente para + analizar la deserción estudiantil, desde el punto de vista del análisis de datos + y Aprendizaje Automático. + \item + Conocer las metodologías algorítmicas basadas en + de Aprendizaje Automático (\textit{Machine Learning}) más usadas + para predecir la deserción estudiantil universitaria. + \item + Comparar las debilidades y oportunidades de mejora + en las metodologías y técnicas algorítmicas de análisis usadas actualmente + para predecir la deserción estudiantil universitaria +\end{itemize} + + + +\section{Preguntas de Revisión} + +Con la intención de estructurar las preguntas de revisión y considerar varios puntos de vista, +se utilizan los criterios PICOC (\textit{population, intervention, comparison, outcomes, +context}) \autocite{Petticrew2006} para elaborar las preguntas de revisión. Estos criterios +son mayormente utilizados en el campo de investigación clínica y salud. Sin embargo, +estos también se pueden aplicar al campos relacionados a la informática \autocite{Kitchenham2007}. +Para la presente revisión, no se utiliza el criterio de comparación, puesto que no es un objetivo +comparar la aplicación de la intervención (predicción de la deserción estudiantil universitaria) +sobre un grupo de la población y un grupo de control. +% En el presente estudio no se utiliza el +% criterio de comparación, puesto que no se tiene como objetivo comparar el +% criterio de intervención a investigar con algún otro método de intervención en +% concreto. Como recalca \autocite{Kitchenham2007}: es inadecuado comparar a los +% estudios que utilizan una técnica en específico contra los que no la utilizan. +Ver \autoref{tab:picoc}. + +\begin{table} [htbp] + \centering + \caption{Criterios PICOC} + \label{tab:picoc} + \begin{tabular} {|p{0.19\linewidth}|p{0.79\linewidth}|} + + \hline + Población & + % Estudiantes universitarios de pregrado en instituciones tanto nacionales como extranjeras \\ + Sistemas para la predicción de deserción estudiantil universitaria \\ + \hline + Intervención & + Técnicas modernas de Aprendizaje Automático para la predicción de deserción estudiantil universitaria \\ + \hline + Comparación & + % Soluciones y metodologías. Técnicas de Aprendizaje Automático. \\ + (No aplica) \\ + \hline + Consecuencia & + Predicciones de deserción estudiantil universitaria \\ + \hline + Contexto & + Estudiantes de pregrado, instituciones de educacion superior, nacional o internacional, + tipo de grado académico perseguido, estatus socioeconómico del estudiante. \\ + % El contexto de la intervención es amplio. Se espera + % recolectar información de las técnicas de Aprendizaje Automático + % más efectivas, así como las metodologías utilizadas para la captura + % de información, procesamiento, y aplicación del modelo. \\ + \hline + + \end{tabular} +\end{table} + +A continuación, se listan las preguntas de revisión formuladas. + +\begin{itemize} + \item + P1. ¿Qué factores o métricas predicen de mejor manera la deserción + estudiantil universitaria? + \item + P2. ¿Qué herramientas y metodologías se emplean actualmente para + analizar la deserción de los estudiantes, desde el punto de vista del análisis de datos + y Aprendizaje Automático? + \item + P3. ¿Qué soluciones algorítmicas basadas en Aprendizaje Automático son + utilizadas actualmente para predecir la deserción estudiantil + universitaria? + \item + P4. ¿Qué debilidades y oportunidades de mejora existen en las + metodologías y técnicas algorítimicas de análisis usadas actualmente + para predecir la deserción estudiantil universitaria? +\end{itemize} + + + +\section{Estratégia de Búsqueda} + +En esta sección se describe el procedimiento utilizado para identificar la bibliografía relevante para responder a las preguntas de revisión formuladas. Los criterios de inclusión y exclusión servirán para filtrar aún más la lista de documentos encontrados. Para luego catalogarlos con fichas bibliográficas utilizando el formulario de extracción de datos definido en la sección \ref{formulario-extraccion}. + +\subsection{Motores de búsqueda a usar.} + +Para el levantamiento de información se utilizarán los siguientes motores de +búsqueda: + +\begin{itemize} + \item Scopus + \item IEEE Xplore +\end{itemize} + + +\subsection{Cadenas de búsqueda a usar.} + + +% - cita a Kitchenham necesaria? +% - cita al paper de WordNet necesaria? O mejor solo a la URL +% https://wordnet.princeton.edu/ +Se sigue el enfoque general de descomponer los criterios PICOC (\autoref{tab:picoc}) en términos de +búsqueda (\autoref{tab:picoc-terms}). Seguido de encontrar sinónimos para cada término, +construir la cadena de búsqueda utilizando operadores booleanos, y finalmente +adaptar la cadena a la sintaxis de los motores de búsqueda elegidos. Para la +búsqueda de sinónimos en inglés se utilizó el +diccionario WordNet, el cual es distribuido pública y libremente por Princeton +\autocite{Fellbaum2010}. + +\begin{table} [htbp] \centering + \caption{Términos de búsqueda derivados de los criterios PICOC} + \label{tab:picoc-terms} + \begin{tabular} {|p{0.19\linewidth}|p{0.79\linewidth}|} + + \toprule + % \hline + \textit{Criterio} & \emph{Términos de búsqueda} \\ + \midrule + % \hline + Población & + system, tool, student dropout, student desertion, student attrition \\ + % undergraduate students, college students, higher education students \\ + \hline + Intervención & + machine learning, data mining, predictive modeling, supervised learning, classification, feature selection \\ + \hline + Comparación & + (No aplica) \\ + \hline + Consecuencia & + forecast models, prediction models \\ + \hline + Contexto & + undergraduate, higher education institutions, university, college, + degree types, socioeconomic status \\ + \hline + + \end{tabular} +\end{table} + +Se utilizan el operador booleano $OR$ para concatenar los términos de +búsqueda pertenecientes al mismo criterio, y luego se concatenan las cadenas de +cada criterio con el operador booleano $AND$ para obtener una única cadena de +búsqueda. Para delimitar aún más la búsqueda, se restringe más el primer criterio +para que solo muestre herramientas o sistemas relacionadas al análisis de la deserción +estudiantil universitaria: + +\begin{verbatim} +( ( "system" OR "tool" ) AND ( "student dropout" OR "student desertion" OR +"student attrition" ) ) AND ( "machine learning" OR "data mining" OR "predictive +modeling" OR "supervised learning" OR "classification" OR "feature selection" ) +AND ( "forecast models" OR "prediction models" ) AND ( "undergraduate" OR +"higher education institutions" OR "university" OR "college" OR "degree types" +OR "socioeconomic status" ) +\end{verbatim} +% https://dl-acm-org.ezproxybib.pucp.edu.pe/action/doSearch?AllField=%28+%22university%22++AND++%22dropout+rate%22++AND++%22machine+learning%22+%29+ +% simple one (57 scopus): https://www-scopus-com.ezproxybib.pucp.edu.pe/results/results.uri?sort=plf-f&src=s&st1=%22university%22+AND+%22dropout+rate%22+AND+%22machine+learning%22&sid=5b2e61989f4528bdfb0f8402c4327812&sot=b&sdt=b&sl=69&s=TITLE-ABS-KEY%28%22university%22+AND+%22dropout+rate%22+AND+%22machine+learning%22%29&origin=searchbasic&editSaveSearch=&yearFrom=Before+1960&yearTo=Present +% v4: asesora: 61 SCOPUS, 1 IEEE Xplore +% https://www-scopus-com.ezproxybib.pucp.edu.pe/results/results.uri?sort=r-f&src=s&nlo=&nlr=&nls=&sid=618985a1c0139a3919c2f00d7f4cce1f&sot=a&sdt=cl&cluster=scofreetoread%2c%22all%22%2ct%2bscopubyr%2c%222023%22%2ct%2c%222022%22%2ct%2c%222021%22%2ct%2c%222020%22%2ct%2c%222019%22%2ct%2bscosubtype%2c%22ar%22%2ct%2bscosubjabbr%2c%22COMP%22%2ct%2bscolang%2c%22English%22%2ct&sl=430&s=ALL+%28%28+%28%22system%22+OR+%22tool%22%29+AND+%28%22student+dropout%22+OR+%22student+desertion%22+OR+%22student+attrition%22%29+%29+AND+%28+%22machine+learning%22+OR+%22data+mining%22+OR+%22predictive+modeling%22+OR+%22supervised+learning%22+OR+%22classification%22+OR+%22feature+selection%22+%29+AND+%28+%22forecast+models%22+OR+%22prediction+models%22+%29+AND+%28+%22undergraduate%22+OR+%22higher+education+institutions%22+OR+%22university%22+OR+%22college%22+%29+%29+AND+PUBYEAR+%3e+2017+AND+PUBYEAR+%3c+2024+AND+NOT+%28%22MOOC%22%29&origin=resultslist&zone=leftSideBar&editSaveSearch=&txGid=6faae11c585e71bcb05039753ceb381c +% IEEE Xplore: (( ( "student dropout" OR "student desertion" OR "student attrition" ) ) AND ( "machine learning" OR "data mining" OR "predictive modeling" OR "supervised learning" OR "classification" OR "feature selection" ) AND ( "forecast models" OR "prediction models" ) AND ( "undergraduate" OR "higher education institutions" OR "university" OR "college" OR "degree types" OR "socioeconomic status" )) +% ALL ( ( ( "system" OR "tool" ) AND ( "student dropout" OR "student desertion" OR "student attrition" ) ) AND ( "machine learning" OR "data mining" OR "predictive modeling" OR "supervised learning" OR "classification" OR "feature selection" ) AND ( "forecast models" OR "prediction models" ) AND ( "undergraduate" OR "higher education institutions" OR "university" OR "college" ) ) AND PUBYEAR > 2017 AND PUBYEAR < 2024 AND NOT ( "MOOC" ) AND ( LIMIT-TO ( OA , "all" ) ) AND ( LIMIT-TO ( PUBYEAR , 2023 ) OR LIMIT-TO ( PUBYEAR , 2022 ) OR LIMIT-TO ( PUBYEAR , 2021 ) OR LIMIT-TO ( PUBYEAR , 2020 ) OR LIMIT-TO ( PUBYEAR , 2019 ) ) AND ( LIMIT-TO ( DOCTYPE , "ar" ) ) AND ( LIMIT-TO ( SUBJAREA , "COMP" ) ) AND ( LIMIT-TO ( LANGUAGE , "English" ) ) +% v2: 1,374 SCOPUS, 6 IEEE Xplore +% v1: > 1,000,000 results SCOPUS, 27,397 results IEEE Xplore +% ("system" OR "solution" OR "forecast" OR "student dropout" OR "student +% desertion" OR "student attrition") AND ("machine learning" OR "data mining" OR +% "predictive modeling" OR "supervised learning" OR "classification" OR "feature +% selection") AND ("factors" OR "attributes" OR "metrics" OR "predict" OR "models" +% OR "academic success") AND ("undergraduate" OR "higher education institutions" +% OR "university" OR "college" OR "degree types" OR "socioeconomic status") +% v0: +% ("student desertion" OR student attrition OR "student dropout" OR "academic +% risk") AND ("machine learning" OR "data mining" OR techniques OR tools OR +% algorithms OR "classification algorithms") AND (model OR framework OR factors OR +% attributes OR metrics OR predict OR "predict student droput") AND (university OR +% academia OR peru OR latam OR "latin america" OR undergraduate OR "undergraduate +% studies" OR methodology OR review OR comparison OR "educational data mining") + +Finalmente, se adapta la cadena a la sintaxis +de cada uno de los motores de búsqueda bibliográficos. +Para Scopus, se genera la siguiente cadena. A la cual también +se le ha incorporado un criterio de exclución, limitando la antigüedad del +artículo (la lista completa de estos criterios se encuentra +en la sección \ref{criterios-inclusion-exclusion}). + +\begin{verbatim} +ALL ( ( "forecast system" OR "student dropout" OR "student desertion" OR +"student attrition" ) AND ( "machine learning" OR "data mining" OR "predictive +modeling" OR "supervised learning" OR "classification" OR "feature selection" ) +AND ( "forecast models" OR "prediction models" ) AND ( "undergraduate" OR +"higher education institutions" OR "university" OR "college" OR "degree types" +OR "socioeconomic status" ) ) AND PUBYEAR > 2017 AND PUBYEAR < 2024 +\end{verbatim} + +% El motor de búsqueda IEEE Xplore limita la búsqueda a un máximo de 25 términos. +Para IEEE Xplore, se utiliza la interfáz gráfica para limitar la antigüedad del artículo +a los últimos 6 años. La cadena no requiere modficaciones adicionales de sintaxis. + + +\subsection{Documentos encontrados.} + +La cantidad de documentos encontrados luego de utilizar las cadenas de búsqueda en los motores bibliograficos se sumariza en la \autoref{tab:documentos-encontrados}. El número de documentos encontrados es especialmente elevado para Scopus; pero aplicando los criterios de inclusión y exclusión listados en la siguiente sección, se buscará reducirlo a un número más manejable para los documentos primarios para la investigación. + +\begin{table} [htbp] \centering + \caption{Documentos encontrados por motor de búsqueda} + \label{tab:documentos-encontrados} + \begin{tabular} {|p{0.2\linewidth}|p{0.2\linewidth}|} + + \hline + Scopus & + 1,374 \\ + \hline + IEEE Xplore & + 4 \\ + \hline + + \end{tabular} +\end{table} + + +\subsection{Criterios de inclusión/exclusión.} \label{criterios-inclusion-exclusion} + +Se cuentan con los siguientes criterios de inclusión: + +\begin{itemize} + \item + El artículo incluye métricas o factores que ayudan a predecir la + deserción estudiantil universitaria + \item + El artículo explora y compara herramientas y metodologías para analizar + la deserción estudiantil universitaria + \item + El artículo incluye soluciónes algorítmicas de Machine Learning para el + análisis de deserción estudiantil universitaria. +\end{itemize} + +Y los siguientes criterios de exclusión: + +\begin{itemize} + \item + El artículo no tiene una antigüedad mayor a 6 años. A excepción de si + se trata a una referencia de conceptos o teoría. + \item + El artículo no está relacionado al contexto de deserción estudiantil + universitaria. + \item + Las técnicas para el análisis de factores que influyen en la deserción + estudiantil no están relacionadas con Aprendizaje Automático. + \item + El artículo se encuentra en un idioma distinto al inglés o español. + \item + El artículo no se encuentra disponible pasa su uso libre o licenciado + con la biblioteca de la Pontificia Universidad Católica del Perú (PUCP) + y no se considera que su aporte sería indispensable para el estudio. +\end{itemize} + + +\section{Formulario de Extracción de Datos} \label{formulario-extraccion} + +Luego de aplicar los criterios de inclusión y exclusión a los documentos +encontrados, se categorizan los documentos utilizando el formulario de +extracción de datos. Ver \autoref{tab:formulario-extraccion}. + +\begin{table}[H] + \centering + \caption{Estructura del formulario de extracción} + \label{tab:formulario-extraccion} + \begin{tabular} {p{0.24\linewidth}|p{0.5\linewidth}|p{0.25\linewidth}} + + \toprule + \emph{Ítem} & + \emph{Descripción} & + \emph{Pregunta} \\ + \midrule + + Id & + Identificador & + Información General \\ + + Título & + Título del artículo & + Información General \\ + + Autores & + Autores & + Información General \\ + + Año & + Año de publicación & + Información General \\ + + Motor de búsqueda & + Motor de búsqueda donde se encontró el artículo & + Información General \\ + + Tipo de Fuente & + Medio en que se publicó el documento. Puede ser artículo, revista, libro, + congreso. & + Información General \\ + + Métricas & + Métricas o factores que influyen en la deserción estudiantil universitaria & + P1 \\ + + Herramientas & + Herramientas o metodologías empleadas para analizar la deserción estudiantil + universitaria & + P2 \\ + + Algoritmos de ML & + Algoritmos actuales de Machine Learninng utilizados para analizar la + deserción estudiantil universitaria & + P3 \\ + + Carencias & + Carencias, falencias, y posibles mejoras en las técnicas actuales de + análisis de deserción estudiantil universitaria & + P4 \\ + + \bottomrule + + \end{tabular} +\end{table} + + + +\section{Resultados de la Revisión} + +Luego de aplicar los criterios de +inclusión y exclusión, se obtienen 16 estudios primarios con los que se +responderán las preguntas de investigación. Para ver la lista +completa de las fichas bibliográficas de los estudios primarios ver el Anexo 1. +% Añadir referencia Anexo1: Formulario de Extracción +En la \autoref{tab:p1papers} se sumarizan los estudios primarios y las preguntas de investigación a las que ayudan a responder. + +% - Tabla +% - Resumen +% - Opcionalmente graficos y tablas + +\begin{table} [H] + \centering + \caption{Artículos primarios y las preguntas de investigación que ayudan a + responder} + \label{tab:p1papers} + \begin{tabular} {|p{0.14\linewidth}|p{0.70\linewidth}| + *{4}{p{0.02\linewidth}|} } + + \hline + \textit{Autor} & + \textit{Título} & + \textit{P1} & + \textit{P2} & + \textit{P3} & + \textit{P4} + \\ \hline + + \autocite{Shilbayeh2021562} & + Predicting student enrolments and attrition patterns in higher educational institutions using machine learning & + & % P1 + x & % P2 + x & % P3 + % P4 + \\ \hline + + \autocite{Perez202157} & + Predicting Student Program Completion Using Naïve Bayes Classification Algorithm & + x & % P1 + & % P2 + x & % P3 + % P4 + \\ \hline + + \autocite{Alwarthan2022107649} & + An Explainable Model for Identifying At-Risk Student at Higher Education & + x & % P1 + & % P2 + & % P3 + % P4 + \\\hline + + \autocite{Khan2021} & + An artificial intelligence approach to monitor student performance and devise preventive measures & + & % P1 + & % P2 + x & % P3 + x % P4 + \\ \hline + + \autocite{Sahlaoui2021152688} & + Predicting and Interpreting Student Performance Using Ensemble Models and Shapley Additive Explanations & + x & % P1 + & % P2 + x & % P3 + % P4 + \\ \hline + + \autocite{Segura2022} & + Machine Learning Prediction of University Student Dropout: Does Preference Play a Key Role? & + x & % P1 + & % P2 + x & % P3 + % P4 + \\ \hline + + \autocite{Latif20221051} & + Identifying At-Risk Students: An AI-based Prediction Approach & + & % P1 + x & % P2 + x & % P3 + % P4 + \\ \hline + + \autocite{Balaji2021} & + Contributions of machine learning models towards student academic performance prediction: A systematic review & + & % P1 + x & % P2 + x & % P3 + % P4 + \\ \hline + + \autocite{Suhaimi20191} & + Review on Predicting Students’ Graduation Time Using Machine Learning Algorithms & + x & % P1 + & % P2 + x & % P3 + x % P4 + \\ \hline + + \autocite{Yağcı2022} & + Educational data mining: prediction of students' academic performance using machine learning algorithms & + & % P1 + x & % P2 + x & % P3 + % P4 + \\ \hline + + \autocite{Fernandez-Garcia2021133076} & + A real-life machine learning experience for predicting university dropout at different stages using academic data & + x & % P1 + & % P2 + x & % P3 + x % P4 + \\ \hline + + \autocite{Guzmán2022} & + Comparative Analysis of Dropout and Student Permanence in Rural Higher Education & + x & % P1 + & % P2 + x & % P3 + % P4 + \\ \hline + + \autocite{8820813} & + Supervised Learning in the Context of Educational Data Mining to Avoid University Students Dropout & + x & % P1 + x & % P2 + & % P3 + % P4 + \\ \hline + + \autocite{8484847} & + Applying Data Mining Techniques to Predict Student Dropout: A Case Study & + x & % P1 + & % P2 + x & % P3 + % P4 + \\ \hline + + \autocite{Kemper2020} & + Predicting student dropout: A machine learning approach & + x & % P1 + x & % P2 + x & % P3 + x % P4 + \\ \hline + + \end{tabular} +\end{table} + + +\subsection{Respuestas a la pregunta P1.} + +Los factores con los que se predice la deserción estudiantil universitaria +varían considerablemente para cada estudio, esto es debido a que cada uno +cuenta con data distinta, contextos distintos, y con medios de recolección de +datos distintos. Por ejemplo, en \autocite{Shilbayeh2021562} se recolectó data +real, de 1600 estudiantes de la Abu Dhabi School of Management en los años 2019-2022 +Universidad Pública de Ecuador. +Y se obtuvo 11 principales factores, siendo los más importantes la edad del alumno y +su rendimiento académico. +Por otro lado, \autocite{Kemper2020} encuentra que el promedio de notas y la cantidad de +exámenes aprobados son los principales factores. Las variables utilizadas en +\autocite{Kemper2020} se listan en \autoref{tab:Kemper2020-var}, con las cuales +lograron obtener un 95\% de precisión con data limitada hasta el tercer semestre +de estudios de cada estudiante, y más de 85\% de precisión luego del primer +semestre. + +En el estudio por \autocite{Perez202157} se meciona que tanto variables personales (género, estatus socio-económico) y variables educativas (rendimiento académico, dificultad percibida en los cursos que lleva) +pueden ser buenos predictores de deserción estudiantil. + +En \autocite{Alwarthan2022107649} se identifica que variables pre-admission (e.g., puntaje SAT, GPA, información demográfica) también son muy relevantes al predecir deserción estudiantil universitaria. +Estas variables podrían ser de especial ayuda para las universidades para poder elegir y apoyar +a estudiantes prospectivos que tienen alto riesgo de desertar, identificandolos de forma temprana. + + +% \begin{table} [htbp]\centering +% \caption{Variables independientes utilizadas en \autocite{Alban2019}} +% \label{tab:Alban2019-var} +% \begin{tabular} {|p{0.80\linewidth}|} + +% \hline +% % \textit{Descripción} +% % \\ \hline + +% Conocimiento limitado en el uso de software especializado de la carrera +% \\ \hline +% Embarazo deseado o no deseado +% \\ \hline +% El compromizo de los profesores con el estudiante +% \\ \hline +% Compromiso económico con la familia del alumno por ser hijo mayor +% \\ \hline +% Bullying +% \\ \hline +% Sexismo +% \\ \hline +% Adicciones del estudiante +% \\ \hline +% Número de hijos del estudiante +% \\ \hline +% Adaptabilidad del estudiante al nivel de rapidéz de aprendizaje +% requerido por la universidad +% \\ \hline +% Carrera elegida +% \\ \hline +% Perspectiva del estudiante en cuando su integración en el mercado +% laboral + +% \\ \hline + +% \end{tabular} +% \end{table} + +\begin{table} [H] + \centering + \caption{Variables independientes utilizadas en \autocite{Kemper2020}} + \label{tab:Kemper2020-var} + \begin{tabular} {|p{0.80\linewidth}|} + + \hline +% \textit{Descripción} +% \\ \hline + + Fecha de ingreso a la universidad + \\ \hline + Género + \\ \hline + Origen (Nacional o Extranjero) + \\ \hline + Edad en el momento de ingreso a la universidad + \\ \hline + Promedio de notas en todos los exámenes + \\ \hline + Promedio de notas en todos los exámenes aprobados + \\ \hline + Promedio de notas en todos los exámenes desaprobados + \\ \hline + Cantidad de exámenes tomados + \\ \hline + Cantidad de exámenes aprobados + \\ \hline + Cantidad de exámenes desaprobados + + \\ \hline + + \end{tabular} +\end{table} + + +\subsection{Respuestas a la pregunta P2.} + +De los artículos primarios revisados, \autocite{Khan2021} y +\autocite{Sahlaoui2021152688} utilizan la metodología \textit{Knowledge Discovery in +Databases} (KDD). Por otro lado, en \autocite{Latif20221051} se utilizó la +metodología CRIPS-DM. Además, \autocite{Kemper2020} propone una nueva +metodología para poner en práctica en otras instituciones y comparar resultados. + +En cuanto a las herramientas utilizadas, \autocite{Agrusti2019} menciona que, +dentro de los estudios que analizaron, las más usadas son WEKA, SPSS, y R. + +Como parte de otras técnicas utilizadas, tanto \autocite{Segura2022} como +\autocite{Balaji2021} utilizaron técnicas como SMOTE para el balanceo de datos, +parte de la etapa de pre-procesamiento de datos. Y SHAP para el análisis de importancia +y explicación de las variables en los modelos de Aprendizaje Automático obtenidos. + +En el estudio realizado por \autocite{Alwarthan2022107649} y \autocite{Kemper2020} +se comparó el desempeño de múltiples algoritmos basados en Aprendizaje Automático. +Entre ellos: Random Forest (RF), Artificial Neural Network (ANN), y Support Vector Machine (SVM). + + +\subsection{Respuestas a la pregunta P3.} + +En la literatura revisada se utilizan diversas técnicas de \textit{Machine +Learning}, como lo son \textit{Decision Tree}, clasificación bayesiana, redes +neuronales, y regresión logística. Para cada técnica, se cuenta con varios +algorítmos, por ejemplo, C4.5, \textit{Random Forest}, \textit{Naïve Bayes}, y +\textit{Multilayer perceptron} \autocite{Alwarthan2022107649}. En la +\autoref{tab:alg-comp} se sumariza el desempeño del mejor algorítmo para cada +artículo primario revisado. + +\begin{table} [htbp]\centering + \caption{Desempeño de algoritmos de Aprendizaje Automático utilizados en + los artículos primarios} + \label{tab:alg-comp} + \begin{tabular} + {|p{0.20\linewidth}|p{0.30\linewidth}|p{0.15\linewidth}|p{0.25\linewidth}|} + + \hline + \textit{Técnica} & + \textit{Algoritmo} & + \textit{Precisión} & + \textit{Cita} + \\ \hline + + Red neuronal & + Multilayer perceptron & + 96.3\% & + \autocite{Alwarthan2022107649} + \\ \hline + + % revisar + Decision Tree & + Random Forest & + 96.7\% & + \autocite{Alwarthan2022107649} + \\ \hline + + Decision Tree & + C4.5 & + 87\% & + \autocite{Alwarthan2022107649} + \\ \hline + + Red neuronal & + Artificial Neural Network & + 83\% & + \autocite{Kemper2020} + \\ \hline + + % revisar + Decision Tree & + Random Forest & + 95\% & + \autocite{Kemper2020} + \\ \hline + + % revisar + Decision Tree & + Support Vector Machine & + 81\% & + \autocite{Kemper2020} + \\ \hline + + \end{tabular} +\end{table} + + +\subsection{Respuestas a la pregunta P4.} + +% Tabla con los diferentes algoritmo usados. Notar cual es el mejor segun los +% estudios citados. Comparacion + +% Extension: ~ 1 pagina + +% revisar eso de notas no estandarizadas, Kemper es crack +Se identifica la falencia de la confiabilidad de los datos trabajados, por +ejemplo en \autocite{Alban2019} se utilizó data de encuestas a alumnos, que por +su naturaleza, están sujetas al enfoque subjetivo de cada encuestado. La +segunda falencia identificada es el trabajar con notas no estandarizadas cuando +se procesan datos de varias carreras \autocite{Kemper2020}. Distintos +estándares de calificación en cada carrera pueden afectar al modelo. +Finalmente, se identifica que algunos estudios no se cuenta con un +\textit{dataset} grande, \autocite{Alvarez2020} cuenta con data de solo 456 +estudiantes, y \autocite{Moreira2022} con 331 estudiantes. + +Debilidades: + +\begin{itemize} + \item + Limitada capacidad para generalización. Los modelos trabajados + no pueden ser directamente aplicados a todas las instituciones y + contextos educativos, ni a todas las poblaciones estudiantiles \autocite{Alwarthan2022107649}. + \item + Calidad de la data y disponibilidad. La presición de los modelos de predicción + dependen altamente de la calidad e integridad de la data disponible + \autocite{Kemper2020, Alwarthan2022107649, Perez202157}. + \item + Limitada capacidad de explicación de los modelos. Entender + la lógica detrás de cada predicción realizadas por algunos modelos de + Aprendizaje Automático, como una ANN, puede ser dificil \autocite{Alwarthan2022107649} +\end{itemize} + +Oportunidades de mejora: + +\begin{itemize} + \item + Incorporar fuentes de datos más diversas podría mejorar las predicciones \autocite{Alwarthan2022107649}. + \item + Utilizar modelos explicables de Aprendizaje Automático para mejorar + la interpretación y confianza de las predicciones + \autocite{Kemper2020, Alwarthan2022107649, Perez202157}. + \item + Desarrollar modelos que puedan ser adaptables a difrentes contextos educativos + y poblaciones estudiantiles \autocite{Alwarthan2022107649}. +\end{itemize} + + + +\section{Conclusiones} + +% En base a los documentos revisados... (8 lineas, juntar en 2 parrafos) + +En conclusión, la predicción de la deserción estudiantil universitaria es un tema de investigación complejo, ya que los factores que influyen en la deserción pueden variar considerablemente entre diferentes contextos y poblaciones estudiantiles. Los estudios analizados en esta revisión han identificado diversas variables relevantes, como la edad del alumno, el rendimiento académico, el género, el estatus socioeconómico y las variables pre-admisión, como el puntaje SAT o el GPA. + +En la literatura, se han empleado varias técnicas y algoritmos de aprendizaje automático para predecir la deserción estudiantil, incluyendo árboles de decisión, clasificación bayesiana, redes neuronales y regresión logística. Obteniendo resultados bastante prometedores, con coeficientes de determinación de hasta 97 \% (como los mecionados en \autocite{Kemper2020}). Sin embargo, estos modelos tienen limitaciones en cuanto a su capacidad de generalización y explicación (\textit{explainability}) y dependen en gran medida de la calidad e integridad de los datos disponibles. + +Las debilidades identificadas en los estudios incluyen la limitada capacidad para la generalización de los modelos, la calidad y disponibilidad de los datos y la limitada capacidad de explicación de algunos modelos de aprendizaje automático. Para abordar estas debilidades, se sugiere incorporar fuentes de datos más diversas, utilizar modelos explicables de aprendizaje automático y desarrollar modelos adaptables a diferentes contextos educativos y poblaciones estudiantiles. Al abordar estas áreas de mejora, los investigadores y las instituciones educativas podrán desarrollar modelos de predicción más precisos y útiles para prevenir y abordar la deserción estudiantil universitaria. + +% \begin{itemize} +% \item +% Los factores que mejor predicen la deserción estudiantil universitaria +% son muy variados, y van a depender de la manera en la que se recolecten +% los datos a analizar. +% \item +% Las precisiones alcanzadas en la literatura se encuentran alrededor del +% 90\%. Se remarca que es posible llegar a una precisión de más del 85\% +% tan pronto como finalizado el primer semestre del estudiante +% \autocite{Kemper2020}. +% \item +% Las metodologías más utilizadas son KDD y CRISP-DM. Sin embargo, varios +% estudios describen la metodología que siguieron, pero no mencionan un +% nombre en específico de su metodología. +% \item +% Los algorítmos más utilizados y con mejores resultados son +% \textit{Random Forest}, \textit{C4.5}, y \textit{Multilayer perceptron}. +% Siendo los dos primeros técnicas de clasificación utilizando +% \textit{Decision Trees} y el tercero utilizando redes neuronales. +% \item +% Dentro de las falencias identificadas se recalca la importancia de la +% confiabilidad y objetividad de los datos a analizar, y el tamaño del +% \textit{dataset}. +% \end{itemize} diff --git a/chapter/40-resultados_esperados.tex b/chapter/40-resultados_esperados.tex new file mode 100644 index 0000000..dda751d --- /dev/null +++ b/chapter/40-resultados_esperados.tex @@ -0,0 +1,5 @@ +\chapter{Presentación de los Resultados Esperados} + +% [Del capítulo 4 hasta el N deben ir los resultados. Introducción, enunciar el +% resultado, relacionarlo con el objetivo, presentar modo de validar su +% construcción.] diff --git a/chapter/50-conclusiones.tex b/chapter/50-conclusiones.tex new file mode 100644 index 0000000..56eedd3 --- /dev/null +++ b/chapter/50-conclusiones.tex @@ -0,0 +1,7 @@ +\chapter{Conclusiones y Trabajos Futuros} + + +\section{Conclusiones} + + +\section{Trabajos Futuros} diff --git a/img/arbol_problemas_excel.png b/img/arbol_problemas_excel.png Binary files differnew file mode 100644 index 0000000..7837101 --- /dev/null +++ b/img/arbol_problemas_excel.png diff --git a/img/arbol_problemas_modelo.png b/img/arbol_problemas_modelo.png Binary files differnew file mode 100644 index 0000000..5100ffe --- /dev/null +++ b/img/arbol_problemas_modelo.png diff --git a/img/classification-flowers.png b/img/classification-flowers.png Binary files differnew file mode 100644 index 0000000..7864418 --- /dev/null +++ b/img/classification-flowers.png diff --git a/img/logoPUCP.png b/img/logoPUCP.png Binary files differnew file mode 100644 index 0000000..57ea692 --- /dev/null +++ b/img/logoPUCP.png diff --git a/img/spady-dropout_model.png b/img/spady-dropout_model.png Binary files differnew file mode 100644 index 0000000..48be2c9 --- /dev/null +++ b/img/spady-dropout_model.png diff --git a/img/ss_20230324_103038.png b/img/ss_20230324_103038.png Binary files differnew file mode 100644 index 0000000..82341d9 --- /dev/null +++ b/img/ss_20230324_103038.png diff --git a/thesis.bib b/thesis.bib new file mode 100644 index 0000000..b8f1310 --- /dev/null +++ b/thesis.bib @@ -0,0 +1,632 @@ +# Citas necesarias para la investigacion +# ====================================== + +@article{Kitchenham2007, + author = {B. Kitchenham and S Charters}, + title = {Guidelines for performing Systematic Literature Reviews in Software Engineering}, + year = {2007} +} + +@article{Petticrew2006, +author = {Petticrew, Mark and Roberts, Helen}, +title = {Systematic Reviews in the Social Sciences}, +year = {2006}, +publisher = {Blackwell Publishing}, +ISBN = {978-1-4051-2110-1} +} + +@article{Doll2013, +author = {Jonathan Jacob Doll and Zohreh Eslami and Lynne Walters}, +title ={Understanding Why Students Drop Out of High School, According to Their Own Reports: Are They Pushed or Pulled, or Do They Fall Out? A Comparative Analysis of Seven Nationally Representative Studies}, +journal = {SAGE Open}, +volume = {3}, +number = {4}, +pages = {2158244013503834}, +year = {2013}, +doi = {10.1177/2158244013503834}, +URL = {https://doi.org/10.1177/2158244013503834} +} + +% @misc{PUCP2019SaludMental, +% author = {Fiorella Palmieri}, +% year = {2019}, +% title = {Mentes saludables}, +% url = {https://puntoedu.pucp.edu.pe/noticia/mentes-saludables/} +% } + +@article{PUCP2019SaludMental, + author = {Fiorella Palmieri}, + date = {2019-06-14}, + title = {Mentes saludables}, + journal = {Punto EDU}, + url = {https://puntoedu.pucp.edu.pe/noticia/mentes-saludables/}, + urldate = {2023-03-23} +} + +@online{DescubrePUCP, + author = {Descubre PUCP}, + title = {Oficina de Orientación, Información y Apoyo al Estudiante (OOIA)}, + % year = 1999, + url = {https://descubre.pucp.edu.pe/poi/dir036}, + urldate = {2023-03-26} +} + +% https://facultad.pucp.edu.pe/generales-ciencias/nosotros/oficinas/bienestar-ciencias/ + +@book{ACM2020-Curricula, + author = {{CC2020 Task Force}}, + title = {Computing Curricula 2020: Paradigms for Global Computing Education}, + year = {2020}, + isbn = {9781450390590}, + publisher = {Association for Computing Machinery}, + address = {New York, NY, USA}, + pages={19, 20} +} + +# Estudios primarios (new) + +# Scopus +# EXPORT DATE: 10 April 2023 + +@ARTICLE{Shilbayeh2021562, + author={Shilbayeh, S. and Abonamah, A.}, + title={Predicting student enrolments and attrition patterns in higher educational institutions using machine learning}, + journal={International Arab Journal of Information Technology}, + year={2021}, + volume={18}, + number={4}, + pages={562-567}, + doi={10.34028/18/4/8}, + note={cited By 4}, + url={https://www.scopus.com/inward/record.uri?eid=2-s2.0-85110631056&doi=10.34028%2f18%2f4%2f8&partnerID=40&md5=df6ca88561c04dc1b9a2b670dbfd7939}, + publisher={Zarka Private University}, + document_type={Article}, + source={Scopus}, +} + +@ARTICLE{Perez202157, + author={Perez, J.G. and Perez, E.S.}, + title={Predicting Student Program Completion Using Naïve Bayes Classification Algorithm}, + journal={International Journal of Modern Education and Computer Science}, + year={2021}, + volume={13}, + number={3}, + pages={57-67}, + doi={10.5815/IJMECS.2021.03.05}, + note={cited By 5}, + url={https://www.scopus.com/inward/record.uri?eid=2-s2.0-85126148117&doi=10.5815%2fIJMECS.2021.03.05&partnerID=40&md5=4b2a1120d172ab019073da333d6b3b38}, + publisher={Modern Education and Computer Science Press}, + document_type={Article}, + source={Scopus}, +} + +@ARTICLE{Alwarthan2022107649, + author={Alwarthan, S. and Aslam, N. and Khan, I.U.}, + title={An Explainable Model for Identifying At-Risk Student at Higher Education}, + journal={IEEE Access}, + year={2022}, + volume={10}, + pages={107649-107668}, + doi={10.1109/ACCESS.2022.3211070}, + note={cited By 1}, + url={https://www.scopus.com/inward/record.uri?eid=2-s2.0-85139451582&doi=10.1109%2fACCESS.2022.3211070&partnerID=40&md5=e57c9f6d41059efe172d9a82d5ab4747}, + publisher={Institute of Electrical and Electronics Engineers Inc.}, + document_type={Article}, + source={Scopus}, +} + +@ARTICLE{Khan2021, + author={Khan, I. and Ahmad, A.R. and Jabeur, N. and Mahdi, M.N.}, + title={An artificial intelligence approach to monitor student performance and devise preventive measures}, + journal={Smart Learning Environments}, + year={2021}, + volume={8}, + number={1}, + doi={10.1186/s40561-021-00161-y}, + art_number={17}, + note={cited By 6}, + url={https://www.scopus.com/inward/record.uri?eid=2-s2.0-85114501475&doi=10.1186%2fs40561-021-00161-y&partnerID=40&md5=c57ce71f62d6094a3bfd9f3196600e0b}, + publisher={Springer}, + document_type={Article}, + source={Scopus}, +} + +@ARTICLE{Sahlaoui2021152688, + author={Sahlaoui, H. and Alaoui, E.A.A. and Nayyar, A. and Agoujil, S. and Jaber, M.M.}, + title={Predicting and Interpreting Student Performance Using Ensemble Models and Shapley Additive Explanations}, + journal={IEEE Access}, + year={2021}, + volume={9}, + pages={152688-152703}, + doi={10.1109/ACCESS.2021.3124270}, + note={cited By 4}, + url={https://www.scopus.com/inward/record.uri?eid=2-s2.0-85118542795&doi=10.1109%2fACCESS.2021.3124270&partnerID=40&md5=a74d7ccee09d0dd0051f1bb714a4aef9}, + publisher={Institute of Electrical and Electronics Engineers Inc.}, + document_type={Article}, + source={Scopus}, +} + +@ARTICLE{Segura2022, + author={Segura, M. and Mello, J. and Hernández, A.}, + title={Machine Learning Prediction of University Student Dropout: Does Preference Play a Key Role?}, + journal={Mathematics}, + year={2022}, + volume={10}, + number={18}, + doi={10.3390/math10183359}, + art_number={3359}, + note={cited By 2}, + url={https://www.scopus.com/inward/record.uri?eid=2-s2.0-85138658944&doi=10.3390%2fmath10183359&partnerID=40&md5=714776e99fdd4866906ed0bd946e2859}, + publisher={MDPI}, + document_type={Article}, + source={Scopus}, +} + +@ARTICLE{Latif20221051, + author={Latif, G. and Alghazo, R. and Pilotti, M.A.E. and Ben Brahim, G.}, + title={Identifying "At-Risk" Students: An AI-based Prediction Approach}, + journal={International Journal of Computing and Digital Systems}, + year={2022}, + volume={11}, + number={1}, + pages={1051-1059}, + doi={10.12785/ijcds/110184}, + note={cited By 3}, + url={https://www.scopus.com/inward/record.uri?eid=2-s2.0-85129619369&doi=10.12785%2fijcds%2f110184&partnerID=40&md5=d9c778ef345bc44eeb1d2ce088ea07ef}, + publisher={University of Bahrain}, + document_type={Article}, + source={Scopus}, +} + +@ARTICLE{Balaji2021, + author={Balaji, P. and Alelyani, S. and Qahmash, A. and Mohana, M.}, + title={Contributions of machine learning models towards student academic performance prediction: A systematic review}, + journal={Applied Sciences (Switzerland)}, + year={2021}, + volume={11}, + number={21}, + doi={10.3390/app112110007}, + art_number={10007}, + note={cited By 8}, + url={https://www.scopus.com/inward/record.uri?eid=2-s2.0-85118180499&doi=10.3390%2fapp112110007&partnerID=40&md5=fe4637a240b2d35b24e90439cc932a3c}, + publisher={MDPI}, + document_type={Article}, + source={Scopus}, +} + +@ARTICLE{Suhaimi20191, + author={Suhaimi, N.M. and Abdul-Rahman, S. and Mutalib, S. and Hamid, N.H.A. and Malik, A.M.A.}, + title={Review on Predicting Students’ Graduation Time Using Machine Learning Algorithms}, + journal={International Journal of Modern Education and Computer Science}, + year={2019}, + volume={11}, + number={7}, + pages={1-13}, + doi={10.5815/ijmecs.2019.07.01}, + note={cited By 18}, + url={https://www.scopus.com/inward/record.uri?eid=2-s2.0-85075745553&doi=10.5815%2fijmecs.2019.07.01&partnerID=40&md5=379a14480656e38f4b677cbd0557d3a2}, + publisher={Modern Education and Computer Science Press}, + document_type={Article}, + source={Scopus}, +} + +@ARTICLE{Yağcı2022, + author={Yağcı, M.}, + title={Educational data mining: prediction of students' academic performance using machine learning algorithms}, + journal={Smart Learning Environments}, + year={2022}, + volume={9}, + number={1}, + doi={10.1186/s40561-022-00192-z}, + art_number={11}, + note={cited By 23}, + url={https://www.scopus.com/inward/record.uri?eid=2-s2.0-85126250565&doi=10.1186%2fs40561-022-00192-z&partnerID=40&md5=d7222b249dc6c3ad747777bc12596884}, + publisher={Springer}, + document_type={Article}, + source={Scopus}, +} + +@ARTICLE{Fernandez-Garcia2021133076, + author={Fernandez-Garcia, A.J. and Preciado, J.C. and Melchor, F. and Rodriguez-Echeverria, R. and Conejero, J.M. and Sanchez-Figueroa, F.}, + title={A real-life machine learning experience for predicting university dropout at different stages using academic data}, + journal={IEEE Access}, + year={2021}, + volume={9}, + pages={133076-133090}, + doi={10.1109/ACCESS.2021.3115851}, + note={cited By 7}, + url={https://www.scopus.com/inward/record.uri?eid=2-s2.0-85117054399&doi=10.1109%2fACCESS.2021.3115851&partnerID=40&md5=26a3796f13998d88470e95a739ba8ee6}, + publisher={Institute of Electrical and Electronics Engineers Inc.}, + document_type={Article}, + source={Scopus}, +} + +@ARTICLE{Guzmán2022, + author={Guzmán, A. and Barragán, S. and Cala-Vitery, F.}, + title={Comparative Analysis of Dropout and Student Permanence in Rural Higher Education}, + journal={Sustainability (Switzerland)}, + year={2022}, + volume={14}, + number={14}, + doi={10.3390/su14148871}, + art_number={8871}, + note={cited By 1}, + url={https://www.scopus.com/inward/record.uri?eid=2-s2.0-85136408686&doi=10.3390%2fsu14148871&partnerID=40&md5=cb934fb25c47d243ba6aaa039bb73d45}, + publisher={MDPI}, + document_type={Article}, + source={Scopus}, +} + +# IEEE + +@INPROCEEDINGS{8820813, + author={de O. Santos, Kelly J. and Menezes, Angelo G. and de Carvalho, Andre B. and Montesco, Carlos A. E.}, + booktitle={2019 IEEE 19th International Conference on Advanced Learning Technologies (ICALT)}, + title={Supervised Learning in the Context of Educational Data Mining to Avoid University Students Dropout}, + year={2019}, + volume={2161-377X}, + number={}, + pages={207-208}, + doi={10.1109/ICALT.2019.00068} +} + +@INPROCEEDINGS{8484847, + author={Perez, Boris and Castellanos, Camilo and Correal, Dario}, + booktitle={2018 IEEE 1st Colombian Conference on Applications in Computational Intelligence (ColCACI)}, + title={Applying Data Mining Techniques to Predict Student Dropout: A Case Study}, + year={2018}, + volume={}, + number={}, + pages={1-6}, + doi={10.1109/ColCACI.2018.8484847} +} + +@INPROCEEDINGS{9450735, + author={Chitti, Manjari and Chitti, Padmini and Jayabalan, Manoj}, + booktitle={2020 13th International Conference on Developments in eSystems Engineering (DeSE)}, + title={Need for Interpretable Student Performance Prediction}, + year={2020}, + volume={}, + number={}, + pages={269-272}, + doi={10.1109/DeSE51703.2020.9450735} +} + + + +# Estudios primarios (old) +# ================== + +@article{Bedregal2020, +author = {Norka Bedregal-Alpaca and Víctor Cornejo-Aparicio and Joshua Zárate-Valderrama and Pedro Yanque-Churo}, +title = {Classification Models for Determining Types of Academic Risk and Predicting Dropout in University Students}, +journal = {International Journal of Advanced Computer Science and Applications}, +doi = {10.14569/IJACSA.2020.0110133}, +url = {http://dx.doi.org/10.14569/IJACSA.2020.0110133}, +year = {2020}, +publisher = {The Science and Information Organization}, +volume = {11}, +number = {1} +} + +@Article{Aldowah2020, +author={Aldowah, Hanan +and Al-Samarraie, Hosam +and Alzahrani, Ahmed Ibrahim +and Alalwan, Nasser}, +title={Factors affecting student dropout in MOOCs: a cause and effect decision‐making model}, +journal={Journal of Computing in Higher Education}, +year={2020}, +month={08}, +day={01}, +volume={32}, +number={2}, +pages={429-454}, +issn={1867-1233}, +doi={10.1007/s12528-019-09241-y}, +url={https://doi.org/10.1007/s12528-019-09241-y} +} + +@article{Alvarez2020, +author = {Niurys Lázaro Alvarez and Zoraida Callejas and David Griol}, +title = {Predicting Computer Engineering students' dropout in Cuban Higher Education with pre-enrollment and early performance data}, +journal = {Journal of Technology and Science Education}, +volume = {10}, +number = {2}, +year = {2020}, +keywords = {Dropout, retention, promotion, higher education, data analysis, computer engineering, automatic classification}, +issn = {2013-6374}, +pages = {241--258}, +doi = {10.3926/jotse.922}, +url = {https://www.jotse.org/index.php/jotse/article/view/922} +} + +@Article{Flores2022, +AUTHOR = {Flores, Vaneza and Heras, Stella and Julian, Vicente}, +TITLE = {Comparison of Predictive Models with Balanced Classes Using the SMOTE Method for the Forecast of Student Dropout in Higher Education}, +JOURNAL = {Electronics}, +VOLUME = {11}, +YEAR = {2022}, +NUMBER = {3}, +ARTICLE-NUMBER = {457}, +URL = {https://www.mdpi.com/2079-9292/11/3/457}, +ISSN = {2079-9292}, +DOI = {10.3390/electronics11030457} +} + +@Article{Moreira2022, +AUTHOR = {Moreira da Silva, Diogo E. and Solteiro Pires, Eduardo J. and Reis, Arsénio and de Moura Oliveira, Paulo B. and Barroso, João}, +TITLE = {Forecasting Students Dropout: A UTAD University Study}, +JOURNAL = {Future Internet}, +VOLUME = {14}, +YEAR = {2022}, +NUMBER = {3}, +ARTICLE-NUMBER = {76}, +URL = {https://www.mdpi.com/1999-5903/14/3/76}, +ISSN = {1999-5903}, +DOI = {10.3390/fi14030076} +} + +# bad bibtex and encoding +@article{Zarate2021, +author={Zárate-Valderrama, Joshua AND Bedregal-Alpaca, Norka AND Cornejo-Aparicio, Víctor}, +title = {Modelos de clasificación para reconocer patrones de deserción en estudiantes universitarios}, +ISSN = {0718-3305}, +journal = {Ingeniare. Revista chilena de ingeniería}, +language = {es}, +volume = {29}, +year = {2021}, +month = {03}, +pages = {168 - 177}, +publisher = {scielocl}, +crossref = {10.4067/S0718-33052021000100168}, +} + +# Alban2019 +@article{Alban2019, +author = {Mayra Alban and David Mauricio}, +title = {Neural Networks to Predict Dropout at the Universities}, +journal = {International Journal of Machine Learning and Computing}, +volume = {9}, +number = {2}, +pages = {149-153}, +year = {2019}, +doi = {10.18178/ijmlc.2019.9.2.779}, +} + +# Fernandez2019 +@article{Fernandez2019, +author={Fernández-Martín, Tatiana and Solís-Salazar, Martín and Hernández-Jiménez, María and Moreira-Mora, Tania}, +title={A Multinomial and Predictive Analysis of Factors Associated with University Dropout}, +volume={23}, +url={https://www.revistas.una.ac.cr/index.php/EDUCARE/article/view/9038}, +DOI={10.15359/ree.23-1.5}, +number={1}, +journal={Revista Electrónica Educare}, +year={2019}, +month={01}, +pages={1-25} +} + + +# New (incluir en cadena de busqueda y formulario de extraccion) +# ============================================================== + +@article{Kemper2020, + title = {Predicting student dropout: {A} machine learning approach}, + volume = {10}, + issn = {2156-8235, 2156-8243}, + shorttitle = {Predicting student dropout}, + url = {https://www.tandfonline.com/doi/full/10.1080/21568235.2020.1718520}, + doi = {10.1080/21568235.2020.1718520}, + language = {en}, + number = {1}, + urldate = {2023-04-18}, + journal = {European Journal of Higher Education}, + author = {Kemper, Lorenz and Vorhoff, Gerrit and Wigger, Berthold U.}, + month = jan, + year = {2020}, + pages = {28--47} +} + +# CONCEPTOS + +@book{russell_artificial_2010, + address = {Upper Saddle River}, + edition = {3rd ed}, + series = {Prentice {Hall} series in artificial intelligence}, + title = {Artificial intelligence: a modern approach}, + isbn = {978-0-13-604259-4}, + shorttitle = {Artificial intelligence}, + publisher = {Prentice Hall}, + author = {Russell, Stuart J. and Norvig, Peter and Davis, Ernest}, + year = {2010}, + keywords = {Artificial intelligence}, +} + +@book{mohri_foundations_2012, + address = {Cambridge, MA}, + series = {Adaptive computation and machine learning series}, + title = {Foundations of machine learning}, + isbn = {978-0-262-01825-8}, + publisher = {MIT Press}, + author = {Mohri, Mehryar and Rostamizadeh, Afshin and Talwalkar, Ameet}, + year = {2012}, + keywords = {Computer algorithms, Machine learning}, +} + +@book{mitchell_machine_1997, + address = {New York}, + series = {{McGraw}-{Hill} series in computer science}, + title = {Machine {Learning}}, + isbn = {978-0-07-042807-2}, + publisher = {McGraw-Hill}, + author = {Mitchell, Tom M.}, + year = {1997}, + keywords = {Computer algorithms, Machine learning}, +} + +@book{bishop_pattern_2006, + address = {New York}, + series = {Information science and statistics}, + title = {Pattern recognition and machine learning}, + isbn = {978-0-387-31073-2}, + publisher = {Springer}, + author = {Bishop, Christopher M.}, + year = {2006}, + keywords = {Machine learning, Pattern perception}, +} + + +# Review (E.g., systematic reviews, not exactly university dropout analysis) +# =================================================================== + +# Agrusti2019 +# Agrusti, F., Bonavolontà, G., & Mezzini, M. (2019). University Dropout Prediction through Educational Data Mining Techniques: A Systematic Review. Journal of E-Learning and Knowledge Society, 15(3), 161-182. https://doi.org/10.20368/1971-8829/1135017 +@article{Agrusti2019, +author = {Agrusti, F and Bonavolontà, G and Mezzini, M}, +title = {University Dropout Prediction through Educational Data Mining Techniques: A Systematic Review}, +journal = {Journal of E-Learning and Knowledge Society}, +doi = {10.20368/1971-8829/1135017}, +url = {https://doi.org/10.20368/1971-8829/1135017}, +year = {2019}, +volume = {15}, +number = {3}, +pages = {161-182} +} + +# Yang2020 +# Y. Yang, P. Fu, X. Yang, H. Hong and D. Zhou, "Mooc learner’s final grade prediction based on an improved random forests method," Computers, Materials & Continua, vol. 65, no.3, pp. 2413–2423, 2020. +@Article{Yang2020, +AUTHOR = {Yang, Yuqing and Fu, Peng and Yang, Xiaojiang and Hong, Hong and Zhou, Dequn}, +TITLE = {MOOC Learner’s Final Grade Prediction Based on an Improved Random Forests Method}, +JOURNAL = {Computers, Materials \& Continua}, +VOLUME = {65}, +YEAR = {2020}, +NUMBER = {3}, +PAGES = {2413--2423}, +URL = {http://www.techscience.com/cmc/v65n3/40178}, +ISSN = {1546-2226}, +DOI = {10.32604/cmc.2020.011881} +} + +# Extra +# ===== + +@Inbook{Fellbaum2010, +author="Fellbaum, Christiane", +editor="Poli, Roberto +and Healy, Michael +and Kameas, Achilles", +title="WordNet", +bookTitle="Theory and Applications of Ontology: Computer Applications", +year="2010", +publisher="Springer Netherlands", +address="Dordrecht", +pages="231--243", +isbn="978-90-481-8847-5", +doi="10.1007/978-90-481-8847-5_10", +url="https://doi.org/10.1007/978-90-481-8847-5_10" +} + +@misc{wordnet, + author = {Fellbaum, Christiane}, + title = {WordNet and wordnets}, + howpublished = "\url{https://wordnet.princeton.edu/}", + year = {2005}, + note = "[Online; recuperado el 20-09-2022]" +} + + +# Unsorted +# ======== + +@article{Spady1970, +author = {Spady, William G.}, +title = {Dropouts from higher education: An interdisciplinary review and synthesis}, +journal = {Interchange}, +volume = {1}, +number = {1}, +pages = {64-85}, +year = {1970}, +publisher = {}, +doi = {10.1007/BF02214313}, +URL = {https://doi.org/10.1007/BF02214313} +} + +@inproceedings{Delbonifro2020, + title={Student dropout prediction}, + author={Del Bonifro, Francesca and Gabbrielli, Maurizio and Lisanti, Giuseppe and Zingaro, Stefano Pio}, + booktitle={International Conference on Artificial Intelligence in Education}, + pages={129--140}, + year={2020}, + organization={Springer} +} + +@book{hastie2009elements, + title={The elements of statistical learning: data mining, inference, and prediction}, + author={Hastie, Trevor and Tibshirani, Robert and Friedman, Jerome H and Friedman, Jerome H}, + volume={2}, + year={2009}, + publisher={Springer} +} + +@book{mitchell1997machine, + title={Machine learning}, + author={Mitchell, Tom M and Mitchell, Tom M}, + volume={1}, + number={9}, + year={1997}, + publisher={McGraw-hill New York} +} + + +@inproceedings{de_o_santos_supervised_2019, + address = {Maceió, Brazil}, + title = {Supervised {Learning} in the {Context} of {Educational} {Data} {Mining} to {Avoid} {University} {Students} {Dropout}}, + isbn = {978-1-72813-485-7}, + url = {https://ieeexplore.ieee.org/document/8820813/}, + doi = {10.1109/ICALT.2019.00068}, + urldate = {2023-04-16}, + booktitle = {2019 {IEEE} 19th {International} {Conference} on {Advanced} {Learning} {Technologies} ({ICALT})}, + publisher = {IEEE}, + author = {de O. Santos, Kelly J. and Menezes, Angelo G. and de Carvalho, Andre B. and Montesco, Carlos A. E.}, + month = jul, + year = {2019}, + pages = {207--208}, + file = {de O. Santos et al. - 2019 - Supervised Learning in the Context of Educational .pdf:/home/mitsuo/.local/share/Zotero/storage/26P8CNIE/de O. Santos et al. - 2019 - Supervised Learning in the Context of Educational .pdf:application/pdf}, +} + +@inproceedings{perez_applying_2018, + address = {Medellin}, + title = {Applying {Data} {Mining} {Techniques} to {Predict} {Student} {Dropout}: {A} {Case} {Study}}, + isbn = {978-1-5386-6740-8}, + shorttitle = {Applying {Data} {Mining} {Techniques} to {Predict} {Student} {Dropout}}, + url = {https://ieeexplore.ieee.org/document/8484847/}, + doi = {10.1109/ColCACI.2018.8484847}, + urldate = {2023-04-16}, + booktitle = {2018 {IEEE} 1st {Colombian} {Conference} on {Applications} in {Computational} {Intelligence} ({ColCACI})}, + publisher = {IEEE}, + author = {Perez, Boris and Castellanos, Camilo and Correal, Dario}, + month = may, + year = {2018}, + pages = {1--6}, + file = {Perez et al. - 2018 - Applying Data Mining Techniques to Predict Student.pdf:/home/mitsuo/.local/share/Zotero/storage/HSD4DDIX/Perez et al. - 2018 - Applying Data Mining Techniques to Predict Student.pdf:application/pdf}, +} + +@inproceedings{chitti_need_2020, + address = {Liverpool, United Kingdom}, + title = {Need for {Interpretable} {Student} {Performance} {Prediction}}, + isbn = {978-1-66542-238-3}, + url = {https://ieeexplore.ieee.org/document/9450735/}, + doi = {10.1109/DeSE51703.2020.9450735}, + urldate = {2023-04-16}, + booktitle = {2020 13th {International} {Conference} on {Developments} in {eSystems} {Engineering} ({DeSE})}, + publisher = {IEEE}, + author = {Chitti, Manjari and Chitti, Padmini and Jayabalan, Manoj}, + month = dec, + year = {2020}, + pages = {269--272}, + file = {Chitti et al. - 2020 - Need for Interpretable Student Performance Predict.pdf:/home/mitsuo/.local/share/Zotero/storage/JJGSFRMJ/Chitti et al. - 2020 - Need for Interpretable Student Performance Predict.pdf:application/pdf}, +} + diff --git a/thesis.tex b/thesis.tex new file mode 100644 index 0000000..e837762 --- /dev/null +++ b/thesis.tex @@ -0,0 +1,101 @@ +% TODO: +% - Fix page numbering (APA) +% - Fix chapter and section formatting +% - Fix paragraph's first line indent +% - Fix figure numbering and positioning (breaks paragraphs) + +% Appendix: +% +% Los anexos tienen que subirse con nombre similar a: +% 20170895_RobertoTokumori_PatriciaNatividad_E1.2_Anexo1.xlsx + +% Preamble +% ====================================================================== + +\documentclass[ + fontsize=12pt, + paper=a4, + spanish + %draft=true +]{report} % report + +\usepackage[utf8]{inputenc} +\usepackage[T1]{fontenc} % breaks things? idk +\usepackage[top=1in, bottom=1in, right=1in, left=1in]{geometry} + +\usepackage{graphicx} +\usepackage{mathtools,amsmath,amssymb} +% Amazing, problem solved. Thank you Sebastián. +% http://byte77.blogspot.com/2011/08/no-cuadro-sino-tabla-el-tipico-dolor-de.html +\usepackage[spanish,es-tabla]{babel} +\usepackage{amsfonts} +\usepackage{xcolor} +\usepackage{multirow} +\usepackage{booktabs} +\usepackage{tabularx} +\usepackage{float} +\usepackage{csquotes} + +% Double line spacing +\usepackage{setspace} +\doublespacing + +\usepackage{longtable} + +% Issues with biber, requires environment +% https://tex.stackexchange.com/q/154751/151663 +% Forget about it. biber is an extra package that doesn't come with TexLive in +% ArchLinux and I didn't have it installed. (True issue: RTFM). +\usepackage[ + backend=biber, + style=apa, + %language=english, + sortcites=true, + sorting=nyt, + %citestyle=authoryear, + %maxcitenames=2, + %maxbibnames=99, + %uniquelist=false +]{biblatex} +\addbibresource{thesis.bib} + +\usepackage[colorlinks=true, allcolors=blue]{hyperref} +\usepackage{cleveref} + +% Doesn't work with the packages I currently use: +% https://tex.stackexchange.com/q/320632/151663 +%\crefname{table}{cuadro}{cuadros} +%\crefname{table}{\spanishtablename}{\spanishtablename} +%\crefname{figure}{figura}{figuras} +%\crefname{section}{Sección}{Secciones} +%\crefname{equation}{ecuación}{ecuación} +%\renewcommand{\chaptername}{Capítulo} +%\renewcommand{\contentsname}{Contenidos} +%\newtheorem{remark}{Observación}[chapter] +%\renewcommand{\listtablename}{Índice de tablas} +%\renewcommand{\tablename}{Tabla} +%\crefname{table}{Tabla}{Tabla} + + +% Content +% ====================================================================== + +% Cover +\begin{document} +\include{chapter/01-cover.tex} +% \tableofcontents{} % Nombre malo +% Índice de Tablas +% Índice de Figuras +% Índice de Abreviaturas + +% \include{chapter/05-intro} +\include{chapter/10-generalidades} +\include{chapter/20-marco} +\include{chapter/30-estado_del_arte} +\include{chapter/40-resultados_esperados} +\include{chapter/50-conclusiones} + +\newpage +\printbibliography{} + +\end{document} |
