diff options
| author | Mitsuo Tokumori <[email protected]> | 2023-10-06 18:56:45 -0500 |
|---|---|---|
| committer | Mitsuo Tokumori <[email protected]> | 2023-10-06 18:56:45 -0500 |
| commit | 0f313fac92b32f34db2e6c9ca7fca5d58506c3c4 (patch) | |
| tree | 5c9f8c115aaf05456c2e6426662b45a4fb0ea1cb /chapter | |
| parent | 6648ae80eadf89c0efa2000e6517e437873f4628 (diff) | |
| download | thesis-0f313fac92b32f34db2e6c9ca7fca5d58506c3c4.tar.gz thesis-0f313fac92b32f34db2e6c9ca7fca5d58506c3c4.tar.bz2 thesis-0f313fac92b32f34db2e6c9ca7fca5d58506c3c4.zip | |
Diffstat (limited to 'chapter')
| -rw-r--r-- | chapter/01-cover.tex | 2 | ||||
| -rw-r--r-- | chapter/41-objetivo1.tex | 192 |
2 files changed, 191 insertions, 3 deletions
diff --git a/chapter/01-cover.tex b/chapter/01-cover.tex index 86710bb..3af6922 100644 --- a/chapter/01-cover.tex +++ b/chapter/01-cover.tex @@ -22,7 +22,7 @@ \vspace{1cm} -{\bf Tesis para obtener el título profesional en Ingeniería Informática}\\[1.0cm] +{\bf Tesis para obtener el título profesional en Ingeniería Informática presentado por:}\\[1.0cm] % {\bf Entregable Parcial 1.1}\\[1.0cm] {\bf AUTOR}\\[0.5cm] {Roberto Mitsuo Tokumori Terry}\\ diff --git a/chapter/41-objetivo1.tex b/chapter/41-objetivo1.tex index 6fe5ce5..adb7375 100644 --- a/chapter/41-objetivo1.tex +++ b/chapter/41-objetivo1.tex @@ -1,14 +1,202 @@ \chapter{Objetivo 1: Identificar los factores que influyen en la deserción estudiantil universitaria usando técnicas estadísticas} - - \section{Introducción} +En este capítulo se presentará el desarrollo de los resultados esperados +relacionados al primer objetivo específico: Identificar los factores que influyen +en la deserción estudiantil universitaria usando técnicas estadísticas. +El objetivo está relacionado con la identificación de los diversidad de factores +que podrían ayudar a detectar la deserción estudiantil universitaria de forma +oportuna, que muchas veces no son aprovechados \autocite{9450735}. A raiz de +esto, se propone en primer lugar identificar dichos factores utilizado técnicas +estadísticas. \section{Resultados alcanzados} +En esta sección se describen cada uno de los resultados esperados relacionados +al objetivo específico. + +\subsection{R1.1 Recolección de datos} + +El conjunto de datos a emplear en el proyecto debe comprender registros de +estudiantes que contengan datos tanto académicos como socioeconómicos. Se ha +contemplado la posibilidad de solicitar a instituciones universitarias del país +la extracción de datos anónimos de sus estudiantes, provenientes de diversas +facultades. Sin embargo, en caso de que esto no sea factible, se ha considerado +como alternativa un método de contingencia que implica la búsqueda y utilización +de un conjunto de datos de acceso público en la Internet. + +Se efectuó la solicitud de extracción de datos a la Dirección de Tecnologías de +Información (DTI) de la Pontificia Universidad Católica del Perú (PUCP). La DTI +ha señalado que para llevar a cabo solicitudes de esta naturaleza, estas deben +proceder de las unidades académicas y estar respaldadas por una solicitud formal +del decano. En la actualidad, la solicitud permanece en curso. Por lo que se +ha optado por poner en marcha el método de contingencia. + +El conjunto de datos de acceso público en línea, que será utilizado, ha sido +publicado por \autocite{valentim_realinho_2021_5777340}. Este conjunto de datos +proviene de múltiples instituciones, entre las que se incluyen el "National +Competition for Access to Higher Education" (CNAES) y la "Contemporary Portugal +Database" (PORDATA). El conjunto de datos consta de un total de 4424 registros y +comprende 35 variables o atributos diferentes y se encuentra en formato CSV +(\textit{comma separated values}). + +\subsubsection{Medio de verificación e IOV} + +El medio de verificación para el resultado esperado 1.1 es el mismo conjunto de +datos. + +Para validar el resultado esperado, se solicitó la aprobación del conjunto de +datos por parte de un especialista en Ciencia de Datos. El documento denominado +\enquote{Acta de Conformidad}, que ha sido firmado por el especialista, se +encuentra adjunto como Anexo. % \autoref{appendix:IOV-R1.1} + +\subsection{R1.2 Análisis descriptivo y limpieza de datos} + +En esta subsección se describe el proceso de análisis descriptivo y limpieza de los +datos obtenidos. Este primer paso es importante para comprender la calidad de los +datos y prepararlos adecuadamente para su posterior análisis en el proyecto. + +Para llevar a cabo este objetivo, se utilizaron como herramientas el lenguaje +de programación Python, y librerías como Pandas, Matplotlib, y Seaborn. Se puede +encontrar una descripción breve de cada una en la \autoref{sec:metodos-procedimientos}. +El ambiente de desarrollo utilizado fue Jupyter Notebooks. + +\subsubsection{Análisis descriptivo de los datos} + +En primer lugar, se llevó a cabo un análisis descriptivo de los datos con el +objetivo de obtener una visión general de las características principales del +conjunto de datos. El análisis incluye: + +\begin{itemize} + \item Resumen estadístico de las variables numéricas, que proporcion + medidas como la media, la mediana, la desviación estándar y otros + estadísticos relevantes. + \item Distribución de frecuencia de las variables categóricas, que muestra + la cantidad de registros en cada categoría. + \item Visualización de gráficos relevantes, como histogramas, diagramas de + dispersión o diagramas de barras, para representar las relaciones y patrones + de los datos. +\end{itemize} + +Este análisis descriptivo permite identificar posibles valores atípicos, +patrones interesantes y posibles problemas en los datos que requerirán atención +durante la limpieza. + +\subsubsection{Limpieza de datos} + +En esta etapa, se realizaron las siguientes tareas: + +\begin{itemize} + \item Tratamiento de valores faltantes: Se identifican y gestion los + registros con valores faltantes, ya sea mediante imputación de valores o + eliminación de registros si es necesario. + \item Detección y manejo de valores atípicos: Se identificarán los valores + atípicos que puedan afectar la calidad de los resultados y se decide si se + deben corregir o eliminar. +\end{itemize} + +\subsubsection{Medio de verificación} + +El medio de verificación para el resultado esperado 1.2 es la sección de +análisis descriptivo y limpieza de los datos del código fuente, así como sus +respectivas salidas, tanto en formato de texto, tabla, o gráficos. El archivo en +formato Jupyter Notebook permite visualizar ambos de manera sencilla y cohesiva. + +Para validar el resultado esperado, se solicitó la aprobación del conjunto de +datos por parte de un especialista en Ciencia de Datos. El documento denominado +\enquote{Acta de Conformidad}, que ha sido firmado por el especialista, se +encuentra adjunto como Anexo. % \autoref{appendix:IOV-R1.1} + +\subsection{R1.3 Transformación de datos} + +En la transformación de datos se trata de preparar los datos de manera adecuada +para su análisis en el proyecto. Incluye 2 pasos principales: + +\begin{itemize} + \item Codificación de variables categóricas: Para las variables categóricas, + se lleva a cabo la codificación para que puedan ser utilizadas en análisis + posteriores. + \item Estandarización de datos: Se aplican técnicas de estandarización si + las escalas de las variables son diferentes, para que todas tengan una misma + escala y sean comparables entre sí. Esto es especialmente importante cuando + se utilizan algoritmos sensibles a la escala de las variables. +\end{itemize} + +\subsubsection{Medio de verificación} + +El medio de verificación para el resultado esperado 1.3 es la sección de +Transformación de datos del código fuente, y sus respectivas salidas tanto en +formato de texto, tabla, o gráficos. El archivo en formato Jupyter Notebook +permite visualizar ambos de manera sencilla y cohesiva. + +Para validar el resultado esperado, se solicitó la aprobación del conjunto de +datos por parte de un especialista en Ciencia de Datos. El documento denominado +\enquote{Acta de Conformidad}, que ha sido firmado por el especialista, se +encuentra adjunto como Anexo. % \autoref{appendix:IOV-R1.1} + +\subsection{R1.4 Análisis de relación} + +El análisis de relación entre las variables del conjunto de datos y la variable +objetivo permite ordenar a las variables independientes por su índice de +correlación lineal respecto a la variable objetivo. En la \autoref{fig:analisis-relacion}, se puede +observar que variables académicas como el ratio de cursos aprobados en el segundo y +primer semestre están más fuertemente relacionadas linealmente con la variable objetivo. +Mientas que otras variables como el estado de deudor y la edad del estudiante +estan relacionadas inversamente con la variable objetivo. + +\begin{figure}[H] + \centering + \includegraphics[width=0.80\textwidth]{img/analisis_relacion.png} + \caption{Análisis de relación entre varibles independientes y variable objetivo} + % Caption can be placed above or below the list of figures + \label{fig:analisis-relacion} +\end{figure} + +\subsubsection{Medio de verificación} + +El medio de verificación para el resultado esperado 1.4 es la sección de +\enquote{análisis de relación} en el código fuente, así como sus +respectivas salidas, tanto en formato de texto, tabla, o gráficos. El archivo en +formato Jupyter Notebook permite visualizar ambos de manera sencilla y cohesiva. + +Para validar el resultado esperado, se solicitó la aprobación del conjunto de +datos por parte de un especialista en Ciencia de Datos. El documento denominado +\enquote{Acta de Conformidad}, que ha sido firmado por el especialista, se +encuentra adjunto como Anexo. % \autoref{appendix:IOV-R1.1} + +\subsection{R1.5 Análisis de correlación} + +El análisis de corelación entre las mismas variables indipendientes del conjunto +de datos permite identificar posibles correlaciones, asociaciones o patrones +entre las variables, lo que puede proporcionar \textit{insights} valiosos para el +proyecto. + +La manera usual de realizar el análisis es mediante una matriz de correlación +coloreada como un mapa de calor. En la \autoref{fig:analisis-correlacion}, +se observa que las variables relacionadas con la eleccion de cursos del estudiante +estan moderadamente correlacionadas entre sí. + +\begin{figure}[H] + \centering + \includegraphics[width=0.80\textwidth]{img/analisis_corelacion.png} + \caption{Análisis de correlación entre varibles independientes} + % Caption can be placed above or below the list of figures + \label{fig:analisis-correlacion} +\end{figure} + +\subsubsection{Medio de verificación} + +El medio de verificación para el resultado esperado 1.5 es la sección de +\enquote{análisis de correlación} en el código fuente, así como sus +respectivas salidas, tanto en formato de texto, tabla, o gráficos. El archivo en +formato Jupyter Notebook permite visualizar ambos de manera sencilla y cohesiva. +Para validar el resultado esperado, se solicitó la aprobación del conjunto de +datos por parte de un especialista en Ciencia de Datos. El documento denominado +\enquote{Acta de Conformidad}, que ha sido firmado por el especialista, se +encuentra adjunto como Anexo. % \autoref{appendix:IOV-R1.1} \section{Discusión} |
