\chapter{Generalidades} \section{Problemática} %[Texto introductorio acerca de esta sección correspondiente a la descripción del %problema o problemática que aborda el trabajo.] En esta sección se describe la problemática utilizando como herramienta de análisis el diagrama de árbol de problemas y posteriormente se describe a mayor detalle el problema a abordar en el presente estudio. En el apartado \ref{problematica-arbol-problemas}, se presenta la problemática a alto nivel. Luego, en el apartado \ref{problematica-descripcion}, se desarrollan más el problema central, sus causas, efectos, y contexto. Finalmente en el apartado \ref{problematica-problema-seleccionado} se sumarizan las ideas trabajadas. \subsection{Árbol de problemas} \label{problematica-arbol-problemas} % Fuentes para la tecnica del arbol de problemas %[Texto que introduce la técnica del árbol de problemas. De acuerdo con el %esquema del árbol de problemas de la Figura 1, se explican las causas y origen %de los problemas, el problema central y los efectos y consecuencias del problema %central. % %Los pasos para elaborar el árbol de problemas son: % %\begin{enumerate} % \item Identificar el problema central (tronco del árbol). % \item Identificar los efectos del problema central (la copa del árbol). % \item Identificar las relaciones entre los efectos. % \item Identificar las causas (la raíz del árbol). % \item Identificar las relaciones entre las causas. % \item Diagramar el árbol. %\end{enumerate} % %Luego de diagramar el árbol con sus respectivos nodos, revise la validez e %integridad del árbol dibujado, todas las veces que sea necesario. Esto es, %asegurarse que las causas representen causas y los efectos representen efectos, %que el problema central este correctamente definido y que las relaciones %(causales) estén correctamente expresadas.] % En la \autoref{fig:arb.prob.} se presenta el diagrama del árbol de problemas, en % el cual se sumarizan el problema principal, los efectos, y los problemas causa y % las relaciónes entre ellos. % \begin{figure} [htbp] \centering % \includegraphics[width=.9\columnwidth]{img/arbol_problemas_excel.png} % \caption{Esquema del árbol de problemas.} % \label{fig:arb.prob.} % \end{figure} Para plantear la problemática, se hace uso del esquema del árbol de problemas (Ver la Tabla \ref{tab:arbol-problemas}). Se compone de 3 partes: el problema central, los problemas causas, y los problemas efectos. Cada problema causa está relacionado a uno o más problemas efecto. El problema central es el que engloba y es producto de los problemas causa (análogo a las raíces del árbol), y se manifiesta como los problemas efecto (análogo a las ramas de un árbol). \begin{table} [H] \centering \caption{Árbol de problemas} \label{tab:arbol-problemas} \begin{tabular} {|p{0.09\linewidth}|p{0.26\linewidth}|p{0.26\linewidth}|p{0.26\linewidth}|} \hline & 1 & 2 & 3 \\ \hline Problemas efectos & Sigue incrementando la deserción estudiantil. Aún cuando se cuenta con más datos y capacidad de cómputo o análisis. & No se contemplan factores relevantes que van a influir en la deserción universitaria. & El alcance de los programas de prevención de la deserción de las universidades es limitado. Se tiene escasa capacidad para tomar decisiones sobre el estado de sus estudiantes. \\ \hline Problema central & \multicolumn{3}{p{0.78\linewidth}|}{ La ineficiente detección de la deserción estudiantil universitaria, y la subutilización de los datos disponibles de los estudiantes para la detección temprana de la deserción % La deserción estudiantil universitaria es detectada tardíamente, % desaprovechamiento de los datos disponibles de los % estudiantes para detectarla } \\ \hline Problemas causas & Los programas de detección y ayuda para estudiantes propensos a desertar tienen un enfoque más reactivo en lugar de proactivo. & Existe diversidad de factores que podrían detectar la deserción estudiantil universitaria de forma oportuna, y estos no son aprovechados. & Realizar el seguimiento a todos los estudiantes con peligro de deserción es una tarea compleja, costosa y larga. \\ \hline \end{tabular} \end{table} \subsection{Descripción} \label{problematica-descripcion} % Explicacion del arbol de problemas con fuentes. %[En esta sección se contextualiza claramente el problema, respaldando y %justificando fuertemente la ejecución de su proyecto de tesis, el cual tiene %como objetivo desarrollar una propuesta de solución a la problemática que ha %sido identificada. Considere referencias actualizadas para contextualizar el %problema. El problema a solucionar debe ser relevante y de la magnitud de un %proyecto de fin de carrera. Describa la problemática apoyándose en el árbol de %problemas, describa de manera detallada cada una de las causas del problema %central, así como los efectos de la misma. % %De acuerdo con Pólya (1945), un problema es un conjunto (estado) de condiciones %que afectan un escenario (hecho, situación, persona, empresa), las cuales se %quieren transformar para pasar a otro escenario (supuestamente más beneficioso %que el anterior). No se aprecia “algo malo” directamente, sino condiciones dadas %que se quieren modificar por otras “mejores”. Sí puede darse el caso que las %condiciones afecten negativamente al escenario y que deban ser cambiadas. Por %otro lado, Silva y Menezes (2005) consideran que un problema es una cuestión que %muestra una situación que requiere de una discusión, investigación, decisión o %solución. El problema es la cuestión que la investigación intentará %resolver. Todo el proceso de la investigación girará en torno a su solución. % %El planteamiento del problema dentro de una proyecto de fin de carrera debe de %responder a la pregunta: ¿Qué se va a investigar?. En el que el proyecto busca %pasar de un estado de desconocimiento sobre estas condiciones iniciales, a un %estado en que los resultados que obtengamos nos permitan dar respuesta a las %preguntas planteadas inicialmente (Castillo Sánchez, 2004). En la formulación %del proyecto es necesario indicar claramente: % %\begin{itemize} % \item Situación actual o estado actual de condiciones % \item Situación deseada o estado ideal de condiciones %\end{itemize} % %La descripción de la situación actual debe considerar las tres “C”: %contextualización, caracterización, conceptualización y describir qué es lo que %está ocurriendo en la actualidad. % %La descripción de la situación deseada debe buscar responder: ¿A dónde se quiere %llegar? y ¿qué se pretende realizar en el proyecto para llegar a esta situación %deseada? % %El planteamiento del problema puede hacerse a manera de preguntas: % %\begin{itemize} % \item Deben formularse de manera precisa y concreta % \item Es necesario que las preguntas estén contextualizadas, para ello, se % debe describir primero la situación del contexto, luego se formulan % las preguntas, y estas preguntas deberán estar de acorde con los % objetivos.] %\end{itemize} % %[Todos los párrafos deben estar con sus respectivas citas en formato APA %(American Psychological Association, 2022) en su versión más actual. Toda fuente %que se cita en el documento debe aparecer al final en la bibliografía o %referencias. Las fuentes pueden ser tomadas de revistas académicas, artículos de %eventos académicos, libros, anuarios, informes, tesis, páginas web, etc. Pueden %ser citaciones textuales o parafraseadas, pero siempre dándole el crédito al %autor. Todo lo que referencie a lo expresado por los autores debe estar en %tiempo pasado. Por ejemplo: “Codd (1970) indicó” o “Codd (1970) dijo”. % %Todas sus afirmaciones deben sustentarse mediante las referencias para lo cual %debe manejar un gestor de referencias como: Zotero, Mendeley, EndNote u otros. % %El uso de encabezamientos ayuda a darle estructura al documento. El estilo %recomendado consiste de cinco (5) posibles niveles de encabezamientos: % % % Intro % La deserción estudiantil universitaria es un fenómeno complejo que ha sido % ampliamente estudiado para identificar sus causas debido a su impacto tanto en % la vida del estudiante que deserta como de la institución educativa de la cual % desertó (Fernández-Martín et al., 2019). Si bien los ratios de deserción han % decrecido en los últimos 100 años (Doll et al., 2013), este sigue siendo un % problema en la actualidad. En 2013, (Doll et al., 2013) calculó que en Estados % Unidos, el ratio de deserción es de 40\% por año para estudiantes que persíguen % un pregrado, de los cuales el 30\% deserta en el primer año de estudios. % % Estudios previos % Diversos estudios obtienen estadísticas de desersión estudiantil analizando % varios factores académicos (E.g., universidad del estudiante, historia de notas % de la escuela del estudiante, notas a la fecha del estudiante universitario, % orden de mérito, asistencia a clases), socio-económicos (grupo étnico del % estudiante, género, nivel de educación de los padres, ingresos propios, ingresos % familiares (REF). Otros estudios menos cuantitativos se enfócan en analizar la % deserción por el aspecto personal y psicológico del estudiante, analizando % aspectos como la motivación, disciplina, esfuerzo y auto-control de los % estudiantes por medio de encuestas (Lee et al., 2013). % % Programas de prevesión de deserción estudiantil % Por otro lado, existen diversos programas que intentan disminuir la deserción % estudiantil. El primer problema causa se trata de la naturaleza reactiva de los programas de detección y ayuda para estudiantes propensos a desertar en lugar de adoptar un enfoque más proactivo \autocite{chitti_need_2020}. La deserción estudiantil universitaria es un fenómeno complejo que afecta a muchos estudiantes en todo el mundo, y puede tener consecuencias a largo plazo tanto para los individuos como para la sociedad. Por lo tanto, es importante abordar este problema de manera efectiva. La situación actual de los programas de prevención de deserción reactivos es que identifican y brindan apoyo a los estudiantes en riesgo después de que se han manifestado signos de lucha o desinterés en el ámbito académico. Estos programas suelen involucrar procesos de detección, seguimiento y medidas correctivas para ayudar a los estudiantes a superar los desafíos que enfrentan y mantenerlos en la carrera \autocite{chitti_need_2020}. Los estudiantes en riesgo suelen ser identificados después de que ya han experimentado varias dificultades académicas \autocite{Segura2022, Latif20221051} La situación deseada por otro lado sería adoptar un enfoque proactivo, que implicaría identificar y abordar los factores de riesgo antes de que se conviertan en problemas. La identificación temprana juega un papel crucial, los estudiantes en riesgo se identifican antes de que enfrenten dificultades académicas o problemas de comportamiento, permitiendo intervenciones más efectivas y oportunas \autocite{Shilbayeh2021562, chitti_need_2020, Segura2022}. El segundo problema causa está relacionado a que existen diversas herramientas y estrategias que podrían utilizarse para detectar la deserción estudiantil universitaria de forma oportuna, pero estas no son aprovechadas por las instituciones educativas. Por ejemplo, muchas universidades tienen acceso a datos sobre el rendimiento académico de los estudiantes, el ratio de su asistencia a clases, su participación en actividades extracurriculares, situación socioeconómica al momento de ingresar a la universidad, y otros indicadores importantes que podrían señalar un posible riesgo de deserción \autocite{Khan2021, Yağcı2022}. Sin embargo, en muchos casos, estas herramientas no se utilizan de manera efectiva. Los datos pueden estar disponibles pero no se analizan de manera regular o sistemática \autocite{Khan2021}. Además, los docentes y administradores a menudo no tienen la formación o el tiempo necesario para interpretar y utilizar adecuadamente los datos que tienen a su disposición \autocite{chitti_need_2020}. Por lo tanto, el segundo problema efecto es que se está desaprovechando recursos y datos que podrían ayudar a la detección temprana de estudiantes con riesgo a desertar \autocite{Khan2021, Shilbayeh2021562, chitti_need_2020}. % Otra posible razón relacionada, de porqué no se aprovechan las oportunidades % para detectar la deserción estudiantil de forma oportuna es la falta de % coordinación entre los diferentes departamentos de la universidad. Por % ejemplo, el departamento de administración y finanzas puede tener información % importante sobre los estudiantes que están teniendo dificultades financieras, % pero es posible que esta información no se comparta con otros departamentos % que podrían ofrecer apoyo académico o de salud mental. El tercer problema causa está relacionado con la tarea de realizar el seguimiento a todos los estudiantes con peligro de deserción. Este proceso puede ser complejo, costoso y largo \autocite{Latif20221051}. Los factores que pueden indicar el riesgo de deserción pueden ser diversos, lo que dificulta la tarea de identificar a los estudiantes que necesitan intervención. Además, muchos estudiantes pueden no mostrar signos claros de problemas hasta que sea demasiado tarde. \textit{Por lo que mantener actualizado el factor de riesgo de cada estudiante a lo largo del tiempo puede ser dificultoso} \autocite{Latif20221051, Balaji2021}. % Además, el alcance de los programas de prevención de la deserción de las % universidades puede ser limitado. Las universidades pueden tener recursos % limitados y, por lo tanto, no pueden implementar programas y estrategias de % prevención de la deserción a gran escala. La falta de personal capacitado y la % falta de tecnología pueden limitar la capacidad de la universidad para % identificar y apoyar a los estudiantes en riesgo. Además, la falta de % coordinación entre los diferentes departamentos de la universidad puede % dificultar la capacidad de la universidad para tomar decisiones sobre el % estado de sus estudiantes y ofrecer apoyo. % En resumen, el seguimiento de los estudiantes con peligro de deserción es una % tarea compleja, costosa y larga, y los programas de prevención de la deserción % pueden tener un alcance limitado. Es importante que las universidades trabajen % para abordar estos desafíos y desarrollar estrategias efectivas para % identificar y apoyar a los estudiantes en riesgo de abandonar sus estudios. % Esto puede requerir la asignación de recursos adecuados, la implementación de % tecnología y la promoción de una cultura de colaboración en todo el campus. \subsection{Problema seleccionado} \label{problematica-problema-seleccionado} % If updated also update tab:arbol-problemas El problema central la ineficiente detección de la deserción estudiantil universitaria, y la subutilización de los datos disponibles de los estudiantes para la detección temprana de la deserción. La deserción estudiantil universitaria es detectada tardíamente debido a la falta de un enfoque más proactivo en la detección, desaprovechando toda la data disponible en las instituciones educativas, la escasez de capacidad para tomar decisiones oportunas y efectivas sobre el estado de los estudiantes, y el seguimiento costoso y complejo de los estudiantes en riesgo. Todo esto contribuye a que los estudiantes abandonen sus estudios antes de que se puedan implementar medidas de apoyo eficaces. \section{Objetivos} \label{sec:objetivos} En esta sección se define el objetivo general, para luego ser desglosado en objetivos específicos. También se definen los resultados esperados asociados a cada objetivo específico. \subsection{Objetivo general} Desarrollar un sistema de información, basado en técnicas de aprendizaje automático, que permita predecir la deserción estudiantil en el ámbito universitario. %y el rendimiento académico general del estudiantado. En este sentido, se busca identificar los factores que influyen en la deserción estudiantil universitaria, y cuantificarlos, con el fin de poder hacer predicciones informadas que ayuden a identificar a los alumnos en riesgo de abandonar sus estudios. % Basados en tecnicas de aprendizaje automatico. \subsection{Objetivos específicos} \begin{itemize} \item \textbf{O1} Identificar los factores que influyen en la deserción estudiantil universitaria usando técnicas estadísticas \item \textbf{O2} Implementar modelos de aprendizaje automático que realicen predicciones sobre la deserción estudiantil \item \textbf{O3} Implementar un sistema que permita a las universidades, realizar un proceso de detección temprana de deserción estudiantil. Utilizando los modelos de aprendizaje automático, mencionados anteriormente. \end{itemize} \subsection{Resultados esperados} \begin{itemize} \item \textbf{O1} Identificar los factores que influyen en la deserción estudiantil universitaria usando técnicas estadísticas \begin{itemize} \item \textbf{R1.1} Recolección de datos. Recoger y organizar datos relevantes sobre el rendimiento académico de los estudiantes, su participación en clases, asistencia, interacciones en línea, salud mental, factores socioeconómicos, entre otros. \item \textbf{R1.2} Análisis descriptivo y limpieza de datos. \item \textbf{R1.3} Transformación de datos. Los datos recopilados se transforman a un formato que puede ser fácilmente analizado y utilizado en modelos estadísticos y de Aprendizaje Automático. \item \textbf{R1.4} Análisis de relación. Se examina la relación entre cada variable y la variable objetivo (deserción estudiantil) para identificar patrones y tendencias \item \textbf{R1.5} Análisis de correlación. Se realiza un análisis de correlación para analizar la interdependencia entre las variables. \end{itemize} \item \textbf{O2} Implementar modelos de Aprendizaje Automático que realicen predicciones sobre la deserción estudiantil \begin{itemize} \item \textbf{R2.1} Identificación de los algoritmos aprendizaje automático de predicción con ayuda de la literatura. \item \textbf{R2.2} Implementación de los algoritmos de aprendizaje automático seleccionados que mejor se ajusten a la problemática. \item \textbf{R2.3} Comparación de los algoritmos de aprendizaje automático implementados y selección del mejor modelo según su precisión en la predicción. \end{itemize} \item \textbf{O3} Implementar un sistema que permita a las universidades, realizar un proceso de detección temprana de deserción estudiantil. Utilizando los modelos de Aprendizaje Automático, mencionados anteriormente. \begin{itemize} \item \textbf{R3.1} Catálogo de requisitos. Se definirán los requisitos del sistema en una tabla, lo que permitirá una comprensión clara de las funcionalidades esperadas del sistema. \item \textbf{R3.2} Prototipo del sistema. El cual es realizado en un software de prototipado, como por ejemplo Figma. Ilustra los principales flujos del sistema. \item \textbf{R3.3} Especificación de requisitos. Una descripción detallada de los requisitos del sistema \item \textbf{R3.4} Modelo de base de datos. Diseño del modelo de base de datos que respalde la solución, buscando la integridad y la eficiencia en la gestión de los datos. \item \textbf{R3.5} Arquitectura de la solución. La arquitectura del sistema define la estructura general, los componentes del sistema, y cómo estos componentes interactúan entre sí. \item \textbf{R3.6} Implementación del sistema. Incluye la programación del sistema siguiendo las especificaciones definidas anteriormente. \item \textbf{R3.7} Integración del sistema con los modelos de aprendizaje automático. Integración de los modelos de aprendizaje automático desarrollados en el Objetivo 2 con el sistema implementado. Permitiendo al sistema realizar predicciones de deserción estudiantil basadas en los datos disponibles. \item \textbf{R3.8} Instalación y configuración del software. Incluye el empaquetamiento del software y pruebas de instalación en un entorno nuevo. \end{itemize} \end{itemize} % \begin{itemize} % \item Recolección de Datos: % \item Preprocesamiento de Datos: Limpiar y preparar los datos para el % análisis, lo que puede incluir la gestión de datos faltantes, la % normalización de datos y la transformación de variables categóricas en % numéricas. % \item Selección de Características (\textit{features}): Identificar y % seleccionar las características más relevantes que puedan influir en la % deserción estudiantil. % \item Desarrollo del Modelo de Aprendizaje Automático: Construir y entrenar % un modelo de aprendizaje automático capaz de predecir la probabilidad de % deserción de un estudiante basado en las características seleccionadas. % \item Validación del Modelo: Probar el modelo en un conjunto de datos de % prueba independiente para validar su precisión y fiabilidad. % \item Implementación y Monitoreo: Implementar el modelo en el entorno % universitario y establecer un sistema de monitoreo que permita ajustes y % mejoras continuas. % \item Diseño de Intervenciones: Diseñar e implementar estrategias de % intervención basadas en las predicciones del modelo para ayudar a los % estudiantes en riesgo de deserción. % \end{itemize} \subsection{Mapeo de objetivos, resultados, y verificación} En la \autoref{tab:obetivos-resultados-verificacion} se muestra en forma tabular la relación entre los objetivos, sus resultados asociados, y medios de verificación de cada resultado. % TODO: Learn to use longtable \begin{table} [H] % htbp \centering \small \caption{Mapeo de objetivos, resultados, y verificación} \label{tab:obetivos-resultados-verificacion} \begin{tabular} {|p{0.27\linewidth}|p{0.35\linewidth}|p{0.38\linewidth}|} \hline \multicolumn{3}{|p{0.90\linewidth}|}{ \textbf{Objetivo 1 (O1):} Identificar los factores que influyen en la deserción estudiantil universitaria usando técnicas estadísticas. } \\ \hline \textbf{Resultado} & \textbf{Medio de verificación} & \textbf{Indicador Objetivamente Verificable (IOV)} \\ \hline \textbf{R1.1} Recolección de datos. & - Obtención de un conjunto de datos proveniente de alguna universidad. & - Aprobación del \textit{dataset} al 100\% por un especialista en Ciencia de Datos. \\ \hline \textbf{R1.2} Análisis descriptivo y limpieza de datos. & - Documento con el análisis exploratorio de los datos, utilizando técnicas de estadística descriptiva, incluyendo gráficos. & - Aprobación del documento al 100\% por un especialista en Ciencia de Datos. \\ \hline \textbf{R1.3} Transformación de datos. & - Documento que muestre la transformación de los datos, a un formato adecuado para el posterior procesamiento. & - Aprobación del documento al 100\% por un especialista en Ciencia de Datos. \\ \hline \textbf{R1.4} Análisis de relación. & - Documento con el análisis de relación entre las variables dependientes contra la variable independiente. & - Aprobación del documento al 100\% por un especialista en Ciencia de Datos. \\ \hline \textbf{R1.5} Análisis de correlación. & - Documento con el análisis de correlación entre todas las variables usando un mapa de calor representado de forma tabular. & - Aprobación del documento al 100\% por un especialista en Ciencia de Datos. \\ \hline \multicolumn{3}{|p{0.90\linewidth}|}{ \textbf{Objetivo 2 (O2):} Implementar modelos de Aprendizaje Automático que realicen predicciones sobre la deserción. } \\ \hline \textbf{Resultado} & \textbf{Medio de verificación} & \textbf{Indicador Objetivamente Verificable (IOV)} \\ \hline \textbf{R2.1} Identificación de los algoritmos aprendizaje automático de predicción con ayuda de la literatura & - Documento conteniendo un listado de los principales algoritmos de aprendizaje automático. Incluyendo las ventajas y desventajas de cada uno. & - Aprobación del documento al 100\% por un especialista en Ciencia de Datos. \\ \hline \textbf{R2.2} Implementación de los algoritmos de aprendizaje automático seleccionados que mejor se ajusten a la problemática. & - Repositorio con el código fuente de la implementación de los modelos de aprendizaje automático. & - Aprobación del documento al 100\% por un especialista en Ciencia de Datos. \\ \hline \textbf{R2.3} Comparación de los algoritmos de aprendizaje automático implementados y selección del mejor modelo según su precisión en la predicción & - Documento con el análisis comparativo entre los modelos de aprendizaje automático, basado en su precisión. & - Aprobación del documento al 100\% por un especialista en Ciencia de Datos. \\ \hline \multicolumn{3}{|p{0.90\linewidth}|}{ \textbf{Objetivo 3 (O3):} Implementar un sistema que permita a las universidades, realizar un proceso de detección temprana de deserción estudiantil. Utilizando los modelos de Aprendizaje Automático. } \\ \hline \textbf{Resultado} & \textbf{Medio de verificación} & \textbf{Indicador Objetivamente Verificable (IOV)} \\ \hline \textbf{R3.1} Catálogo de requisitos. & - Documento con el catálogo de requisitos clasificados según su prioridad. & - Aprobación del documento al 100\% por un especialista en Sistemas de Información. \\ \hline \textbf{R3.2} Prototipo del sistema. & - Documento con el prototipo del sistema. Muestra las principales pantallas y flujos. & - Aprobación del documento al 100\% por un especialista en Sistemas de Información. \\ \hline \textbf{R3.3} Especificación de requisitos. & - Documento con la especificación de requisitos, describiendo cada uno a detalle. & - Aprobación del documento al 100\% por un especialista en Sistemas de Información. \\ \hline \textbf{R3.4} Modelo de base de datos. & - Documento con el diagrama entidad relación o el diseño de la base de datos. & - Aprobación del documento al 100\% por un especialista en Arquitectura de Software. \\ \hline \textbf{R3.5} Arquitectura de la solución. & - Documento con el diagrama de componentes del sistema. & - Aprobación del documento al 100\% por un especialista en Arquitectura de Software. \\ \hline \textbf{R3.6} Implementación del sistema. & - Repositorio con el código fuente de la implementación del sistema. & - Aprobación del documento al 100\% por un especialista en Sistemas de Información. \\ \hline \textbf{R3.7} Integración del sistema con los modelos de aprendizaje automático. & - Repositorio con el código fuente de la implementación del sistema. & - Aprobación del documento al 100\% por un especialista en Sistemas de Información. \\ \hline \textbf{R3.8} Instalación y configuración del software. & - Documento de instalación y configuración del software. & - Aprobación del documento al 100\% por un especialista en Sistemas de Información. \\ \hline \end{tabular} \end{table} \section{Métodos y Procedimientos} \label{sec:metodos-procedimientos} % [Son todas aquellas herramientas, metodologías, métodos o procedimientos que van % a ser usados para construir, dentro de un proyecto (de tesis, de fin de % carrera), cada uno de los resultados esperados. Se pueden aplicar / requerir % varias herramientas para la realización de cada uno de los resultados. Se deben % identificar claramente las herramientas, metodologías, métodos o procedimientos % que se necesitan para cada resultado. % Para cada resultado debe existir al menos una herramienta o método para % obtenerlo. Puede usar tablas para mostrar: resultado, herramienta o método y % forma de validación. % Debe describir a modo resumido las herramientas o métodos y cómo los aplicará en % su tesis, esta información debe venir acompañada de referencias donde se % encuentran mayores detalles. % Las herramientas cubren las necesidades propias de cada uno de los productos % entregables que materialicen los resultados y que evidencien a los objetivos % específicos. % Dentro del contexto de un proyecto de fin de carrera se entiende como % herramienta a cualquier soporte básico, técnico o de carácter operativo que se % requiera para construir el resultado esperado. No debe listar las herramientas % más simples. Algunos ejemplos son los lenguajes de programación, editores de % código, compiladores e intérpretes, modeladores de base de datos, modeladores de % procesos, generadores de datos aleatorios, modeladores de planos y piezas, % etc. Se recomienda omitir las herramientas de ofimática. % En el caso de utilizar alguna metodología, ésta puede ser definida como un % conjunto de métodos, procedimientos, reglas, postulados y prácticas empleados en % una disciplina. Puede ser considerada un sistema de capas, en donde cada capa es % vista como un bloque de construcción que soporta la capa que se encuentra % encima. % En el caso de utilizar algún método, éste se define como un conjunto de % procedimientos intelectuales y técnicos necesarios en la investigación % científica. Como el conocimiento científico se fundamenta en la razón, precisa % ser sistemático, de manera tal que puede ser comprobado por otros miembros de la % comunidad científica. Dentro de los métodos consolidados en la investigación % científica se encuentran el método deductivo y el método inductivo. % El método deductivo se caracteriza por llegar a una conclusión a partir de una % situación general y genérica, es decir, se parte de una teoría que define las % relaciones entre conceptos dentro de un conjunto de suposiciones y restricciones % fijadas, para formular hipótesis con el objetivo de confirmar la teoría. Por % otro lado, el método inductivo se caracteriza por el proceso por el cual el % investigador, por medio de observaciones, llega a determinadas conclusiones % generales, es decir, parte de lo específico para lo general. % En el caso de utilizar algún modelo, éste se define como una abstracción de la % realidad que trata de describirla. Además, es la caracterización y % especificación de un fenómeno o entidad observable, el cual es explicado por % leyes y teorías de un cuerpo de conocimiento. Un modelo posee características % contextuales, componentes, procedimientos, indicadores y métricas, así como % guías de implementación, guías de medición y/o guías de implantación.] En esta sección se listan las herramientas, métodos, y procedimientos relevantes para cumplir los resultados esperados planteados en la sección anterior. Algunas herramientas son específicas para ciertos resultados esperados, mientras que otras son transversales a varios resultados esperados. En la \autoref{tab:herramientas-metodos-procedimientos} se aprecian los métodos, procedimientos, y herramientas asociados a cada resultado esperado. En general, se busca ser coherente en la selección de herramientas y métodos utilizados para enfrentar la problemática, en este caso la deserción estudiantil universitaria detectada de forma tardía desaprovechando los datos de los estudiantes disponible para las universidades. \begin{table} [H] % htbp \centering \small \caption{Herramientas, métodos, y procedimientos por resultado esperado} \label{tab:herramientas-metodos-procedimientos} \begin{tabular} {*{3}{|p{0.30\linewidth}}|} \hline \textbf{Resultado esperado} & \textbf{Métodos y Procedimientos} & \textbf{Herramienta} \\ \hline \hline \textbf{R1.1} Recolección de datos. & Solicitar conjunto de datos a universidades del país. Revisión de la literatura. & Email. Bases de datos bibliográficos \\ \hline \textbf{R1.2} Análisis descriptivo y limpieza de datos. & Estadística descriptiva, histogramas & Python, Matplotlib \\ \hline \textbf{R1.3} Transformación de datos. & Metodología KDD & Python, Pandas \\ \hline \textbf{R1.4} Análisis de relación. & Regresión logística & Python, Matplotlib \\ \hline \textbf{R1.5} Análisis de correlación. & Mapas de calor & Python, Matplotlib \\ \hline \textbf{R2.1} Identificación de los algoritmos aprendizaje automático de predicción con ayuda de la literatura & Revisión de la literatura & Base de datos bibliográficos \\ \hline \textbf{R2.2} Implementación de los algoritmos de aprendizaje automático seleccionados que mejor se ajusten a la problemática. & Modelo incremental, metodología KDD & Python, Poetry-python, Scikit-learn, Jupyter notebooks \\ \hline \textbf{R2.3} Comparación de los algoritmos de aprendizaje automático implementados y selección del mejor modelo según su precisión en la predicción & Modelo incremental, metodología KDD & Python, Matplotlib \\ \hline \textbf{R3.1} Catálogo de requisitos. & Metodología Ágil, User Story Mapping & Google Sheets, draw.io \\ \hline \textbf{R3.2} Prototipo del sistema. & UI Design & Figma \\ \hline \textbf{R3.3} Especificación de requisitos. & Metodología ágil, User Stories & Google Sheets \\ \hline \textbf{R3.4} Modelo de base de datos. & Modelo relacional, tercera forma normal & draw.io \\ \hline \textbf{R3.5} Arquitectura de la solución. & Modelo 4+1 & draw.io \\ \hline \textbf{R3.6} Implementación del sistema. & Modelo incremental & Git, Github, AWS, Visual Studio Code, PostgreSQL. Backend y Frontend \textit{tech stack}. \\ \hline \textbf{R3.7} Integración del sistema con los modelos de aprendizaje automático. & Modelo incremental & Git, Github, AWS \\ \hline \textbf{R3.8} Instalación y configuración del software. & Modelo incremental & Apache Web Server. Markdown, diagramas mermaid \\ \hline \end{tabular} \end{table} % \subsection{Aprendizaje Automático} % El Aprendizaje Automático o \textit{Machine Learning} (también conocido como % \enquote{aprendizaje de máquina}) se refiere al campo de estudio que analiza y % desarrolla métodos que \textit{aprenden}. Donde aprender se refiere a encontrar % patrones, tendencias, y entender \enquote{qué es lo que dice la data} % \autocite{hastie2009elements, mitchell1997machine}. % En la actualidad, se utilizan \textbf{técnicas de Aprendizaje Automático} en % aplicaciones de diversas disciplinas, entre ellas se encuentran: la detección de % correo electrónico basura, el reconocimiento óptico de carácteres (OCR), visión % computacional, y bioinformática \autocite{hastie2009elements}. % Los algoritmos de Aprendizaje Automático se pueden dividir en dos grandes % categorías, Aprendizaje Supervisado y Aprendizaje No Supervisado. En el % Aprendizaje Supervisado se cuenta con información previamente etiquetada, y el % objetivo es extraer patrones entre la data y su etiqueta asociada % \autocite{hastie2009elements}. Por ejemplo, en el ámbito de la deserción % estudiantil, la etiqueta es si el alumno desertó o no, y en qué ciclo lo hizo; % mientras que la data son todas las demás variables, como el promedio de notas en % cada ciclo. Por otro lado, los algoritmos de Aprendizaje No Supervisado deben % trabajar con datos que no han sido previamente etiquetados. Es decir, no se le % proporciona instrucciones específicas para lo que debe encontrar en la data. % Algunas aplicaciones de Aprendizaje No Supervisado incluyen procesamiento de % lenguaje natural y análisis de audio e imágenes % \autocite{russell_artificial_2010}. % Una de las técnicas más utilizadas son los algoritmos de clasificación, los % cuales buscan dividir a los individuos de una muestra en varias clases según el % valor de sus factores (\textit{features}). Por ejemplo, en la % \autoref{fig:classification-flowers} se puede ver el resultado de clasificar una % muestra de diversas flores, según el largo y ancho de sus pétalos, con el fin de % identificar si se trata de flores de la misma especie o no. % \begin{figure}[htbp] % \centering % \includegraphics[width=.4\columnwidth]{img/classification-flowers.png} % \caption{Clasificación de flores \autocite{mitchell1997machine}} % \label{fig:classification-flowers} % \end{figure} % \subsubsection{Ejemplos} % % Los modelos predictivos de Aprendizaje Automático son utilizados en la actualidad para % % analizar data historica compleja, con muchas variables, y realizar predicciones de % % futuros eventos. En relación a la deserción estudiantil universitaria, las universidades % % cuentan con grandes cantidades de datos historica de los estudiantes, que incluyen muchas % % variables académicas, socio-económicas, y personales de cada estudiantes. Dado el % % objetivo de predecir la deserción estudiantil universitaria, las técnicas modernas % % de Aprendizaje Automático pueden % En la actualidad, los modelos predictivos basados en Aprendizaje Automático (AA) % son ampliamente utilizados para analizar grandes conjuntos de datos históricos % complejos, caracterizados por un gran número de variables, con el fin de % predecir eventos futuros. En particular, en el ámbito universitario, las % instituciones cuentan con grandes cantidades de datos históricos de los % estudiantes, que incluyen diversas variables académicas, socioeconómicas y % personales \autocite{Balaji2021}. El objetivo de analizar estos datos es % predecir la deserción estudiantil universitaria, lo cual se ha convertido en una % preocupación creciente para las universidades en todo el mundo % \autocite{Shilbayeh2021562}. % Para predecir la deserción estudiantil, se han utilizado diversas técnicas de % AA, tales como árboles de decisión, redes neuronales y modelos de regresión % \autocite{Balaji2021}. Estos modelos se entrenan utilizando datos históricos de % estudiantes que han abandonado sus estudios universitarios en el pasado, con el % fin de identificar patrones y relaciones entre las diversas variables que puedan % indicar una mayor probabilidad de deserción en el futuro. Una vez que se ha % entrenado el modelo, este puede ser utilizado para predecir la deserción % estudiantil de los estudiantes actuales en función de las variables relevantes % \autocite{Shilbayeh2021562}. % Es importante destacar que, aunque los modelos predictivos de AA pueden ser % extremadamente precisos, no son infalibles y siempre existe un margen de error % \autocite{Latif20221051}. Por lo tanto, la interpretación cuidadosa de los % resultados del modelo es fundamental para tomar decisiones informadas y diseñar % estrategias efectivas para prevenir la deserción estudiantil % \autocite{Alwarthan2022107649, Latif20221051}. \subsection{Bases de datos bibliográficas} Son bases de datos que contienen información bibliográfica, como referencias y citas de libros, artículos, revistas, conferencias, entre otros. Estas bases de datos permiten buscar y acceder a la información académica \autocite{bases-de-datos-bibliograficas}. Algunos ejemplos incluyen SCOPUS, IEEE Xplore, y ACM Digital Library. \subsection{Python} Python es un lenguaje de programación popular y de propósito general. En la actualidad, es muy popular debido a su sintaxis legible y su enfoque en la simplicidad y la eficiencia. Python es utilizado ampliamente en el desarrollo de software, análisis de datos, inteligencia artificial, entre otras áreas \autocite{python}. La utilidad de Python se le puede atribuir en gran medida gracias a la diversidad de paquetes \textit{open source} disponibles. Para desarrollar los resultados esperados relacionados al objetivo \textit{O2}, se utilizarán las librerías Pandas, NumPy, Matplotlib, y Scikit-learn. Es un problema común que un proyecto grande, que utiliza muchas librerías, se encuentre con conflictos de dependencias. Es decir, que una librería necesita una versión más antigua de otra, pero una tercera librería necesita la versión más nueva. Para resolver este tipo de conflictos, se utilizará el gestor de librerías Poetry. % citation needed \subsection{Matplotlib} Matplotlib es una biblioteca de visualización en Python. Proporciona herramientas para crear gráficos estáticos, gráficos interactivos y visualizaciones 3D. Es ampliamente utilizada en el análisis y visualización de datos \autocite{matplotlib}. \subsection{Pandas} Pandas es una biblioteca de Python utilizada para el análisis y manipulación de datos. Proporciona estructuras de datos y funciones que facilitan la limpieza, transformación y exploración de datos \autocite{pandas}. \subsection{Poetry-python} Poetry es una herramienta de administración de dependencias para proyectos de Python. Simplifica la gestión de paquetes y entornos virtuales, permitiendo una fácil instalación y distribución de proyectos \autocite{poetry-python}. \subsection{Scikit-learn} Scikit-learn es una biblioteca de aprendizaje automático (machine learning) en Python. Proporciona una amplia gama de algoritmos y herramientas para la construcción y evaluación de modelos de aprendizaje automático \autocite{scikit-learn}. Existen muchas librerías que facilitan el uso de algoritmos de aprendizaje automático. Sin embargo, se eligió scikit-learn por su popularidad, diversidad de algoritmos disponibles, y muy buena documentación que facilitan el aprendizaje de la librería. \subsection{Jupyter Notebooks} Jupyter Notebooks es un entorno interactivo de programación que permite combinar código, texto y elementos gráficos en un solo documento. Es ampliamente utilizado en el análisis de datos y la experimentación rápida debido a su capacidad para ejecutar código en bloques \autocite{jupyter-notebooks}. \subsection{Google Sheets} Google Sheets es una aplicación de hojas de cálculo en línea proporcionada por Google. Permite crear, editar y colaborar en hojas de cálculo en tiempo real, similar a Microsoft Excel \autocite{google-sheets}. \subsection{Draw.io} Draw.io es una herramienta en línea para crear diagramas y gráficos. Proporciona una interfaz intuitiva y una amplia gama de elementos gráficos para crear diagramas de flujo, organigramas, diagramas de red y más \autocite{draw-io}. \subsection{Figma} Figma es una herramienta de diseño de interfaces de usuario (UI) y experiencia de usuario (UX) basada en la nube. Permite a los diseñadores crear, colaborar y prototipar diseños de forma eficiente \autocite{figma}. \subsection{Git} Git es un sistema de control de versiones ampliamente utilizado para el seguimiento de cambios en archivos y proyectos de software. Permite a los desarrolladores colaborar en proyectos y realizar un seguimiento de las modificaciones realizadas \autocite{git}. \subsection{GitHub} GitHub es una plataforma de alojamiento de código basada en Git. Permite a los desarrolladores almacenar, gestionar y colaborar en proyectos de software, y proporciona herramientas adicionales como seguimiento de problemas, solicitudes de extracción y gestión de versiones \autocite{github}. \subsection{Visual Studio Code} Visual Studio Code es un editor de código fuente desarrollado por Microsoft. Es altamente personalizable y admite una amplia gama de lenguajes de programación. Proporciona características avanzadas como resaltado de sintaxis, depuración y control de versiones integrado \autocite{visual-studio-code}. \subsection{PostgreSQL} PostgreSQL es un sistema de gestión de bases de datos relacional de código abierto. Es conocido por su confiabilidad, robustez y capacidad para manejar grandes volúmenes de datos. PostgreSQL es ampliamente utilizado en aplicaciones web y empresariales \autocite{postgresql}. \subsection{Nginx} Nginx es un servidor web de alto rendimiento y un proxy inverso. Es conocido por su capacidad para manejar múltiples solicitudes simultáneas y su eficiencia en el manejo del tráfico web. Nginx se utiliza comúnmente como servidor web en aplicaciones de producción \autocite{nginx}. \subsection{Markdown} Markdown es un lenguaje de etiquetas ligero utilizado para dar formato al texto "plano". Es fácil de leer y escribir, y se utiliza comúnmente para crear documentación, páginas web y notas de forma rápida y sencilla \autocite{markdown}. \subsection{Diagramas de Mermaid} Mermaid es una herramienta que permite crear diagramas de flujo, diagramas de secuencia y otros tipos de diagramas utilizando una sintaxis de texto sencilla. Estos diagramas pueden ser incorporados en documentos o presentaciones para una mejor visualización de la información \autocite{mermaid-diagrams}. \subsection{Metodología KDD (Knowledge Discovery in Databases)} La metodología KDD es un enfoque sistemático para descubrir conocimiento útil y comprensible a partir de grandes conjuntos de datos. Involucra varias etapas, como selección de datos, preprocesamiento, transformación, minería de datos, y evaluación e interpretación de resultados \autocite{metodologia-kdd}. Cabe destacar que existen otras metodologías igualmente válidas. Por ejemplo El estándar CRISP-DM, el cual es una variación a la metodología KDD más orientado a negocios. \subsection{Estadística descriptiva} La estadística descriptiva es una rama de la estadística que se centra en la recopilación, organización y resumen de datos para describir características y patrones. Incluye técnicas como la media, mediana, moda, desviación estándar, gráficos y tablas, que proporcionan una comprensión básica de los datos \autocite{casella_statistical_2002}. \subsection{Modelo incremental} Un modelo incremental es aquel que se construye de manera gradual, agregando funcionalidades o características en etapas sucesivas. En lugar de desarrollar un modelo completo de una sola vez, se va mejorando y ampliando progresivamente, permitiendo una mayor flexibilidad y adaptabilidad durante el proceso de desarrollo \autocite{larman_iterative_2003}. \subsection{Metodología Ágil} La metodología ágil es un enfoque de gestión de proyectos que se basa en la flexibilidad, la colaboración y la adaptación continua. Se centra en la entrega incremental y frecuente de software funcional, promoviendo la participación del cliente, la rápida respuesta a los cambios, y retroalimentación durante el desarrollo \autocite{metodologia-agil}. \subsection{Modelo 4+1} El modelo 4+1 es una metodología utilizada en el diseño de arquitecturas de software. Consiste en cuatro vistas principales del sistema: vista lógica, vista de procesos, vista de implementación y vista de casos de uso; agregando un escenario de uso o vista de casos de uso que integra las otras vistas \autocite{kruchten_41_1995}. \subsection{Modelo relacional, tercera forma normal} El modelo relacional es un modelo de datos que organiza la información en tablas estructuradas compuestas por filas y columnas. Propuesto por primera vez en 1969 por Edgar Codd mientras trabajaba en IBM. La tercera forma normal (3NF) es una regla de diseño en el modelo relacional que busca eliminar redundancias y anomalías en los datos al asegurar que cada atributo dependa solo de la llave primaria (\textit{primary key}) y no de otros atributos que no formen parte de la llave primaria \autocite{codd_relational_1970}.