\chapter{Objetivo 1: Identificar los factores que influyen en la deserción estudiantil universitaria usando técnicas estadísticas} \section{Introducción} En este capítulo se presentará el desarrollo de los resultados esperados relacionados al primer objetivo específico: Identificar los factores que influyen en la deserción estudiantil universitaria usando técnicas estadísticas. El objetivo está relacionado con la identificación de los diversidad de factores que podrían ayudar a detectar la deserción estudiantil universitaria de forma oportuna, que muchas veces no son aprovechados \autocite{9450735}. A raiz de esto, se propone en primer lugar identificar dichos factores utilizado técnicas estadísticas. \section{Resultados alcanzados} En esta sección se describen cada uno de los resultados esperados relacionados al objetivo específico. \subsection{R1.1 Recolección de datos} El conjunto de datos a emplear en el proyecto debe comprender registros de estudiantes que contengan datos tanto académicos como socioeconómicos. Se ha contemplado la posibilidad de solicitar a instituciones universitarias del país la extracción de datos anónimos de sus estudiantes, provenientes de diversas facultades. Sin embargo, en caso de que esto no sea factible, se ha considerado como alternativa un método de contingencia que implica la búsqueda y utilización de un conjunto de datos de acceso público en la Internet. Se efectuó la solicitud de extracción de datos a la Dirección de Tecnologías de Información (DTI) de la Pontificia Universidad Católica del Perú (PUCP). La DTI ha señalado que para llevar a cabo solicitudes de esta naturaleza, estas deben proceder de las unidades académicas y estar respaldadas por una solicitud formal del decano. En la actualidad, la solicitud permanece en curso. Por lo que se ha optado por poner en marcha el método de contingencia. El conjunto de datos de acceso público en línea, que será utilizado, ha sido publicado por \autocite{valentim_realinho_2021_5777340}. Este conjunto de datos proviene de múltiples instituciones, entre las que se incluyen el "National Competition for Access to Higher Education" (CNAES) y la "Contemporary Portugal Database" (PORDATA). El conjunto de datos consta de un total de 4424 registros y comprende 35 variables o atributos diferentes y se encuentra en formato CSV (\textit{comma separated values}). \subsubsection{Medio de verificación e IOV} El medio de verificación para el resultado esperado 1.1 es el mismo conjunto de datos. Para validar el resultado esperado, se solicitó la aprobación del conjunto de datos por parte de un especialista en Ciencia de Datos. El documento denominado \enquote{Acta de Conformidad}, que ha sido firmado por el especialista, se encuentra adjunto como Anexo. % \autoref{appendix:IOV-R1.1} \subsection{R1.2 Análisis descriptivo y limpieza de datos} En esta subsección se describe el proceso de análisis descriptivo y limpieza de los datos obtenidos. Este primer paso es importante para comprender la calidad de los datos y prepararlos adecuadamente para su posterior análisis en el proyecto. Para llevar a cabo este objetivo, se utilizaron como herramientas el lenguaje de programación Python, y librerías como Pandas, Matplotlib, y Seaborn. Se puede encontrar una descripción breve de cada una en la \autoref{sec:metodos-procedimientos}. El ambiente de desarrollo utilizado fue Jupyter Notebooks. \subsubsection{Análisis descriptivo de los datos} En primer lugar, se llevó a cabo un análisis descriptivo de los datos con el objetivo de obtener una visión general de las características principales del conjunto de datos. El análisis incluye: \begin{itemize} \item Resumen estadístico de las variables numéricas, que proporcion medidas como la media, la mediana, la desviación estándar y otros estadísticos relevantes. \item Distribución de frecuencia de las variables categóricas, que muestra la cantidad de registros en cada categoría. \item Visualización de gráficos relevantes, como histogramas, diagramas de dispersión o diagramas de barras, para representar las relaciones y patrones de los datos. \end{itemize} Este análisis descriptivo permite identificar posibles valores atípicos, patrones interesantes y posibles problemas en los datos que requerirán atención durante la limpieza. \subsubsection{Limpieza de datos} En esta etapa, se realizaron las siguientes tareas: \begin{itemize} \item Tratamiento de valores faltantes: Se identifican y gestion los registros con valores faltantes, ya sea mediante imputación de valores o eliminación de registros si es necesario. \item Detección y manejo de valores atípicos: Se identificarán los valores atípicos que puedan afectar la calidad de los resultados y se decide si se deben corregir o eliminar. \end{itemize} \subsubsection{Medio de verificación} El medio de verificación para el resultado esperado 1.2 es la sección de análisis descriptivo y limpieza de los datos del código fuente, así como sus respectivas salidas, tanto en formato de texto, tabla, o gráficos. El archivo en formato Jupyter Notebook permite visualizar ambos de manera sencilla y cohesiva. Para validar el resultado esperado, se solicitó la aprobación del conjunto de datos por parte de un especialista en Ciencia de Datos. El documento denominado \enquote{Acta de Conformidad}, que ha sido firmado por el especialista, se encuentra adjunto como Anexo. % \autoref{appendix:IOV-R1.1} \subsection{R1.3 Transformación de datos} En la transformación de datos se trata de preparar los datos de manera adecuada para su análisis en el proyecto. Incluye 2 pasos principales: \begin{itemize} \item Codificación de variables categóricas: Para las variables categóricas, se lleva a cabo la codificación para que puedan ser utilizadas en análisis posteriores. \item Estandarización de datos: Se aplican técnicas de estandarización si las escalas de las variables son diferentes, para que todas tengan una misma escala y sean comparables entre sí. Esto es especialmente importante cuando se utilizan algoritmos sensibles a la escala de las variables. \end{itemize} \subsubsection{Medio de verificación} El medio de verificación para el resultado esperado 1.3 es la sección de Transformación de datos del código fuente, y sus respectivas salidas tanto en formato de texto, tabla, o gráficos. El archivo en formato Jupyter Notebook permite visualizar ambos de manera sencilla y cohesiva. Para validar el resultado esperado, se solicitó la aprobación del conjunto de datos por parte de un especialista en Ciencia de Datos. El documento denominado \enquote{Acta de Conformidad}, que ha sido firmado por el especialista, se encuentra adjunto como Anexo. % \autoref{appendix:IOV-R1.1} \subsection{R1.4 Análisis de relación} El análisis de relación entre las variables del conjunto de datos y la variable objetivo permite ordenar a las variables independientes por su índice de correlación lineal respecto a la variable objetivo. En la \autoref{fig:analisis-relacion}, se puede observar que variables académicas como el ratio de cursos aprobados en el segundo y primer semestre están más fuertemente relacionadas linealmente con la variable objetivo. Mientas que otras variables como el estado de deudor y la edad del estudiante estan relacionadas inversamente con la variable objetivo. \begin{figure}[H] \centering \includegraphics[width=0.80\textwidth]{img/analisis_relacion.png} \caption{Análisis de relación entre varibles independientes y variable objetivo} % Caption can be placed above or below the list of figures \label{fig:analisis-relacion} \end{figure} \subsubsection{Medio de verificación} El medio de verificación para el resultado esperado 1.4 es la sección de \enquote{análisis de relación} en el código fuente, así como sus respectivas salidas, tanto en formato de texto, tabla, o gráficos. El archivo en formato Jupyter Notebook permite visualizar ambos de manera sencilla y cohesiva. Para validar el resultado esperado, se solicitó la aprobación del conjunto de datos por parte de un especialista en Ciencia de Datos. El documento denominado \enquote{Acta de Conformidad}, que ha sido firmado por el especialista, se encuentra adjunto como Anexo. % \autoref{appendix:IOV-R1.1} \subsection{R1.5 Análisis de correlación} El análisis de corelación entre las mismas variables indipendientes del conjunto de datos permite identificar posibles correlaciones, asociaciones o patrones entre las variables, lo que puede proporcionar \textit{insights} valiosos para el proyecto. La manera usual de realizar el análisis es mediante una matriz de correlación coloreada como un mapa de calor. En la \autoref{fig:analisis-correlacion}, se observa que las variables relacionadas con la eleccion de cursos del estudiante estan moderadamente correlacionadas entre sí. \begin{figure}[H] \centering \includegraphics[width=0.80\textwidth]{img/analisis_corelacion.png} \caption{Análisis de correlación entre varibles independientes} % Caption can be placed above or below the list of figures \label{fig:analisis-correlacion} \end{figure} \subsubsection{Medio de verificación} El medio de verificación para el resultado esperado 1.5 es la sección de \enquote{análisis de correlación} en el código fuente, así como sus respectivas salidas, tanto en formato de texto, tabla, o gráficos. El archivo en formato Jupyter Notebook permite visualizar ambos de manera sencilla y cohesiva. Para validar el resultado esperado, se solicitó la aprobación del conjunto de datos por parte de un especialista en Ciencia de Datos. El documento denominado \enquote{Acta de Conformidad}, que ha sido firmado por el especialista, se encuentra adjunto como Anexo. % \autoref{appendix:IOV-R1.1} \section{Discusión}