aboutsummaryrefslogtreecommitdiffstats
diff options
context:
space:
mode:
-rw-r--r--chapter/01-cover.tex2
-rw-r--r--chapter/41-objetivo1.tex192
-rw-r--r--img/analisis_corelacion.pngbin0 -> 285255 bytes
-rw-r--r--img/analisis_relacion.pngbin0 -> 102487 bytes
-rw-r--r--thesis.bib13
5 files changed, 204 insertions, 3 deletions
diff --git a/chapter/01-cover.tex b/chapter/01-cover.tex
index 86710bb..3af6922 100644
--- a/chapter/01-cover.tex
+++ b/chapter/01-cover.tex
@@ -22,7 +22,7 @@
\vspace{1cm}
-{\bf Tesis para obtener el título profesional en Ingeniería Informática}\\[1.0cm]
+{\bf Tesis para obtener el título profesional en Ingeniería Informática presentado por:}\\[1.0cm]
% {\bf Entregable Parcial 1.1}\\[1.0cm]
{\bf AUTOR}\\[0.5cm]
{Roberto Mitsuo Tokumori Terry}\\
diff --git a/chapter/41-objetivo1.tex b/chapter/41-objetivo1.tex
index 6fe5ce5..adb7375 100644
--- a/chapter/41-objetivo1.tex
+++ b/chapter/41-objetivo1.tex
@@ -1,14 +1,202 @@
\chapter{Objetivo 1: Identificar los factores que influyen en la deserción
estudiantil universitaria usando técnicas estadísticas}
-
-
\section{Introducción}
+En este capítulo se presentará el desarrollo de los resultados esperados
+relacionados al primer objetivo específico: Identificar los factores que influyen
+en la deserción estudiantil universitaria usando técnicas estadísticas.
+El objetivo está relacionado con la identificación de los diversidad de factores
+que podrían ayudar a detectar la deserción estudiantil universitaria de forma
+oportuna, que muchas veces no son aprovechados \autocite{9450735}. A raiz de
+esto, se propone en primer lugar identificar dichos factores utilizado técnicas
+estadísticas.
\section{Resultados alcanzados}
+En esta sección se describen cada uno de los resultados esperados relacionados
+al objetivo específico.
+
+\subsection{R1.1 Recolección de datos}
+
+El conjunto de datos a emplear en el proyecto debe comprender registros de
+estudiantes que contengan datos tanto académicos como socioeconómicos. Se ha
+contemplado la posibilidad de solicitar a instituciones universitarias del país
+la extracción de datos anónimos de sus estudiantes, provenientes de diversas
+facultades. Sin embargo, en caso de que esto no sea factible, se ha considerado
+como alternativa un método de contingencia que implica la búsqueda y utilización
+de un conjunto de datos de acceso público en la Internet.
+
+Se efectuó la solicitud de extracción de datos a la Dirección de Tecnologías de
+Información (DTI) de la Pontificia Universidad Católica del Perú (PUCP). La DTI
+ha señalado que para llevar a cabo solicitudes de esta naturaleza, estas deben
+proceder de las unidades académicas y estar respaldadas por una solicitud formal
+del decano. En la actualidad, la solicitud permanece en curso. Por lo que se
+ha optado por poner en marcha el método de contingencia.
+
+El conjunto de datos de acceso público en línea, que será utilizado, ha sido
+publicado por \autocite{valentim_realinho_2021_5777340}. Este conjunto de datos
+proviene de múltiples instituciones, entre las que se incluyen el "National
+Competition for Access to Higher Education" (CNAES) y la "Contemporary Portugal
+Database" (PORDATA). El conjunto de datos consta de un total de 4424 registros y
+comprende 35 variables o atributos diferentes y se encuentra en formato CSV
+(\textit{comma separated values}).
+
+\subsubsection{Medio de verificación e IOV}
+
+El medio de verificación para el resultado esperado 1.1 es el mismo conjunto de
+datos.
+
+Para validar el resultado esperado, se solicitó la aprobación del conjunto de
+datos por parte de un especialista en Ciencia de Datos. El documento denominado
+\enquote{Acta de Conformidad}, que ha sido firmado por el especialista, se
+encuentra adjunto como Anexo. % \autoref{appendix:IOV-R1.1}
+
+\subsection{R1.2 Análisis descriptivo y limpieza de datos}
+
+En esta subsección se describe el proceso de análisis descriptivo y limpieza de los
+datos obtenidos. Este primer paso es importante para comprender la calidad de los
+datos y prepararlos adecuadamente para su posterior análisis en el proyecto.
+
+Para llevar a cabo este objetivo, se utilizaron como herramientas el lenguaje
+de programación Python, y librerías como Pandas, Matplotlib, y Seaborn. Se puede
+encontrar una descripción breve de cada una en la \autoref{sec:metodos-procedimientos}.
+El ambiente de desarrollo utilizado fue Jupyter Notebooks.
+
+\subsubsection{Análisis descriptivo de los datos}
+
+En primer lugar, se llevó a cabo un análisis descriptivo de los datos con el
+objetivo de obtener una visión general de las características principales del
+conjunto de datos. El análisis incluye:
+
+\begin{itemize}
+ \item Resumen estadístico de las variables numéricas, que proporcion
+ medidas como la media, la mediana, la desviación estándar y otros
+ estadísticos relevantes.
+ \item Distribución de frecuencia de las variables categóricas, que muestra
+ la cantidad de registros en cada categoría.
+ \item Visualización de gráficos relevantes, como histogramas, diagramas de
+ dispersión o diagramas de barras, para representar las relaciones y patrones
+ de los datos.
+\end{itemize}
+
+Este análisis descriptivo permite identificar posibles valores atípicos,
+patrones interesantes y posibles problemas en los datos que requerirán atención
+durante la limpieza.
+
+\subsubsection{Limpieza de datos}
+
+En esta etapa, se realizaron las siguientes tareas:
+
+\begin{itemize}
+ \item Tratamiento de valores faltantes: Se identifican y gestion los
+ registros con valores faltantes, ya sea mediante imputación de valores o
+ eliminación de registros si es necesario.
+ \item Detección y manejo de valores atípicos: Se identificarán los valores
+ atípicos que puedan afectar la calidad de los resultados y se decide si se
+ deben corregir o eliminar.
+\end{itemize}
+
+\subsubsection{Medio de verificación}
+
+El medio de verificación para el resultado esperado 1.2 es la sección de
+análisis descriptivo y limpieza de los datos del código fuente, así como sus
+respectivas salidas, tanto en formato de texto, tabla, o gráficos. El archivo en
+formato Jupyter Notebook permite visualizar ambos de manera sencilla y cohesiva.
+
+Para validar el resultado esperado, se solicitó la aprobación del conjunto de
+datos por parte de un especialista en Ciencia de Datos. El documento denominado
+\enquote{Acta de Conformidad}, que ha sido firmado por el especialista, se
+encuentra adjunto como Anexo. % \autoref{appendix:IOV-R1.1}
+
+\subsection{R1.3 Transformación de datos}
+
+En la transformación de datos se trata de preparar los datos de manera adecuada
+para su análisis en el proyecto. Incluye 2 pasos principales:
+
+\begin{itemize}
+ \item Codificación de variables categóricas: Para las variables categóricas,
+ se lleva a cabo la codificación para que puedan ser utilizadas en análisis
+ posteriores.
+ \item Estandarización de datos: Se aplican técnicas de estandarización si
+ las escalas de las variables son diferentes, para que todas tengan una misma
+ escala y sean comparables entre sí. Esto es especialmente importante cuando
+ se utilizan algoritmos sensibles a la escala de las variables.
+\end{itemize}
+
+\subsubsection{Medio de verificación}
+
+El medio de verificación para el resultado esperado 1.3 es la sección de
+Transformación de datos del código fuente, y sus respectivas salidas tanto en
+formato de texto, tabla, o gráficos. El archivo en formato Jupyter Notebook
+permite visualizar ambos de manera sencilla y cohesiva.
+
+Para validar el resultado esperado, se solicitó la aprobación del conjunto de
+datos por parte de un especialista en Ciencia de Datos. El documento denominado
+\enquote{Acta de Conformidad}, que ha sido firmado por el especialista, se
+encuentra adjunto como Anexo. % \autoref{appendix:IOV-R1.1}
+
+\subsection{R1.4 Análisis de relación}
+
+El análisis de relación entre las variables del conjunto de datos y la variable
+objetivo permite ordenar a las variables independientes por su índice de
+correlación lineal respecto a la variable objetivo. En la \autoref{fig:analisis-relacion}, se puede
+observar que variables académicas como el ratio de cursos aprobados en el segundo y
+primer semestre están más fuertemente relacionadas linealmente con la variable objetivo.
+Mientas que otras variables como el estado de deudor y la edad del estudiante
+estan relacionadas inversamente con la variable objetivo.
+
+\begin{figure}[H]
+ \centering
+ \includegraphics[width=0.80\textwidth]{img/analisis_relacion.png}
+ \caption{Análisis de relación entre varibles independientes y variable objetivo}
+ % Caption can be placed above or below the list of figures
+ \label{fig:analisis-relacion}
+\end{figure}
+
+\subsubsection{Medio de verificación}
+
+El medio de verificación para el resultado esperado 1.4 es la sección de
+\enquote{análisis de relación} en el código fuente, así como sus
+respectivas salidas, tanto en formato de texto, tabla, o gráficos. El archivo en
+formato Jupyter Notebook permite visualizar ambos de manera sencilla y cohesiva.
+
+Para validar el resultado esperado, se solicitó la aprobación del conjunto de
+datos por parte de un especialista en Ciencia de Datos. El documento denominado
+\enquote{Acta de Conformidad}, que ha sido firmado por el especialista, se
+encuentra adjunto como Anexo. % \autoref{appendix:IOV-R1.1}
+
+\subsection{R1.5 Análisis de correlación}
+
+El análisis de corelación entre las mismas variables indipendientes del conjunto
+de datos permite identificar posibles correlaciones, asociaciones o patrones
+entre las variables, lo que puede proporcionar \textit{insights} valiosos para el
+proyecto.
+
+La manera usual de realizar el análisis es mediante una matriz de correlación
+coloreada como un mapa de calor. En la \autoref{fig:analisis-correlacion},
+se observa que las variables relacionadas con la eleccion de cursos del estudiante
+estan moderadamente correlacionadas entre sí.
+
+\begin{figure}[H]
+ \centering
+ \includegraphics[width=0.80\textwidth]{img/analisis_corelacion.png}
+ \caption{Análisis de correlación entre varibles independientes}
+ % Caption can be placed above or below the list of figures
+ \label{fig:analisis-correlacion}
+\end{figure}
+
+\subsubsection{Medio de verificación}
+
+El medio de verificación para el resultado esperado 1.5 es la sección de
+\enquote{análisis de correlación} en el código fuente, así como sus
+respectivas salidas, tanto en formato de texto, tabla, o gráficos. El archivo en
+formato Jupyter Notebook permite visualizar ambos de manera sencilla y cohesiva.
+Para validar el resultado esperado, se solicitó la aprobación del conjunto de
+datos por parte de un especialista en Ciencia de Datos. El documento denominado
+\enquote{Acta de Conformidad}, que ha sido firmado por el especialista, se
+encuentra adjunto como Anexo. % \autoref{appendix:IOV-R1.1}
\section{Discusión}
diff --git a/img/analisis_corelacion.png b/img/analisis_corelacion.png
new file mode 100644
index 0000000..e95b7d1
--- /dev/null
+++ b/img/analisis_corelacion.png
Binary files differ
diff --git a/img/analisis_relacion.png b/img/analisis_relacion.png
new file mode 100644
index 0000000..f38122d
--- /dev/null
+++ b/img/analisis_relacion.png
Binary files differ
diff --git a/thesis.bib b/thesis.bib
index 2d884bc..3d04bc2 100644
--- a/thesis.bib
+++ b/thesis.bib
@@ -817,3 +817,16 @@ URL = {https://doi.org/10.1007/BF02214313}
pages = {377--387}
}
+@dataset{valentim_realinho_2021_5777340,
+ author = {Valentim Realinho and
+ Jorge Machado and
+ Luís Baptista and
+ Mónica V. Martins},
+ title = {Predict students' dropout and academic success},
+ month = dec,
+ year = 2021,
+ publisher = {Zenodo},
+ version = {1.0},
+ doi = {10.5281/zenodo.5777340},
+ url = {https://doi.org/10.5281/zenodo.5777340}
+} \ No newline at end of file