aboutsummaryrefslogtreecommitdiffstats
path: root/chapter/41-objetivo1.tex
blob: adb7375b691e9c504bc9a7f3b48bd5571a12598c (plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
\chapter{Objetivo 1: Identificar los factores que influyen en la deserción
estudiantil universitaria usando técnicas estadísticas}

\section{Introducción}

En este capítulo se presentará el desarrollo de los resultados esperados
relacionados al primer objetivo específico: Identificar los factores que influyen
en la deserción estudiantil universitaria usando técnicas estadísticas.  

El objetivo está relacionado con la identificación de los diversidad de factores
que podrían ayudar a detectar la deserción estudiantil universitaria de forma
oportuna, que muchas veces no son aprovechados \autocite{9450735}.  A raiz de
esto, se propone en primer lugar identificar dichos factores utilizado técnicas
estadísticas.

\section{Resultados alcanzados}

En esta sección se describen cada uno de los resultados esperados relacionados
al objetivo específico.

\subsection{R1.1 Recolección de datos}

El conjunto de datos a emplear en el proyecto debe comprender registros de
estudiantes que contengan datos tanto académicos como socioeconómicos. Se ha
contemplado la posibilidad de solicitar a instituciones universitarias del país
la extracción de datos anónimos de sus estudiantes, provenientes de diversas
facultades. Sin embargo, en caso de que esto no sea factible, se ha considerado
como alternativa un método de contingencia que implica la búsqueda y utilización
de un conjunto de datos de acceso público en la Internet.

Se efectuó la solicitud de extracción de datos a la Dirección de Tecnologías de
Información (DTI) de la Pontificia Universidad Católica del Perú (PUCP). La DTI
ha señalado que para llevar a cabo solicitudes de esta naturaleza, estas deben
proceder de las unidades académicas y estar respaldadas por una solicitud formal
del decano. En la actualidad, la solicitud permanece en curso.  Por lo que se 
ha optado por poner en marcha el método de contingencia.

El conjunto de datos de acceso público en línea, que será utilizado, ha sido
publicado por \autocite{valentim_realinho_2021_5777340}. Este conjunto de datos
proviene de múltiples instituciones, entre las que se incluyen el "National
Competition for Access to Higher Education" (CNAES) y la "Contemporary Portugal
Database" (PORDATA). El conjunto de datos consta de un total de 4424 registros y
comprende 35 variables o atributos diferentes y se encuentra en formato CSV
(\textit{comma separated values}).

\subsubsection{Medio de verificación e IOV}

El medio de verificación para el resultado esperado 1.1 es el mismo conjunto de
datos.

Para validar el resultado esperado, se solicitó la aprobación del conjunto de
datos por parte de un especialista en Ciencia de Datos.  El documento denominado
\enquote{Acta de Conformidad}, que ha sido firmado por el especialista, se
encuentra adjunto como Anexo. % \autoref{appendix:IOV-R1.1}

\subsection{R1.2 Análisis descriptivo y limpieza de datos}

En esta subsección se describe el proceso de análisis descriptivo y limpieza de los
datos obtenidos.  Este primer paso es importante para comprender la calidad de los
datos y prepararlos adecuadamente para su posterior análisis en el proyecto.

Para llevar a cabo este objetivo, se utilizaron como herramientas el lenguaje
de programación Python, y librerías como Pandas, Matplotlib, y Seaborn.  Se puede
encontrar una descripción breve de cada una en la \autoref{sec:metodos-procedimientos}.
El ambiente de desarrollo utilizado fue Jupyter Notebooks.

\subsubsection{Análisis descriptivo de los datos}

En primer lugar, se llevó a cabo un análisis descriptivo de los datos con el
objetivo de obtener una visión general de las características principales del
conjunto de datos. El análisis incluye:

\begin{itemize}
    \item Resumen estadístico de las variables numéricas, que proporcion
    medidas como la media, la mediana, la desviación estándar y otros
    estadísticos relevantes.
    \item Distribución de frecuencia de las variables categóricas, que muestra
    la cantidad de registros en cada categoría.
    \item Visualización de gráficos relevantes, como histogramas, diagramas de
    dispersión o diagramas de barras, para representar las relaciones y patrones
    de los datos.
\end{itemize}

Este análisis descriptivo permite identificar posibles valores atípicos,
patrones interesantes y posibles problemas en los datos que requerirán atención
durante la limpieza.

\subsubsection{Limpieza de datos}

En esta etapa, se realizaron las siguientes tareas:

\begin{itemize}
    \item Tratamiento de valores faltantes: Se identifican y gestion los
    registros con valores faltantes, ya sea mediante imputación de valores o
    eliminación de registros si es necesario.
    \item Detección y manejo de valores atípicos: Se identificarán los valores
    atípicos que puedan afectar la calidad de los resultados y se decide si se
    deben corregir o eliminar.
\end{itemize}

\subsubsection{Medio de verificación}

El medio de verificación para el resultado esperado 1.2 es la sección de 
análisis descriptivo y limpieza de los datos del código fuente, así como sus
respectivas salidas, tanto en formato de texto, tabla, o gráficos.  El archivo en
formato Jupyter Notebook permite visualizar ambos de manera sencilla y cohesiva.

Para validar el resultado esperado, se solicitó la aprobación del conjunto de
datos por parte de un especialista en Ciencia de Datos.  El documento denominado
\enquote{Acta de Conformidad}, que ha sido firmado por el especialista, se
encuentra adjunto como Anexo. % \autoref{appendix:IOV-R1.1}

\subsection{R1.3 Transformación de datos}

En la transformación de datos se trata de preparar los datos de manera adecuada
para su análisis en el proyecto.  Incluye 2 pasos principales:

\begin{itemize}
    \item Codificación de variables categóricas: Para las variables categóricas, 
    se lleva a cabo la codificación para que puedan ser utilizadas en análisis 
    posteriores.
    \item Estandarización de datos: Se aplican técnicas de estandarización si
    las escalas de las variables son diferentes, para que todas tengan una misma
    escala y sean comparables entre sí.  Esto es especialmente importante cuando
    se utilizan algoritmos sensibles a la escala de las variables.
\end{itemize}

\subsubsection{Medio de verificación}

El medio de verificación para el resultado esperado 1.3 es la sección de
Transformación de datos del código fuente, y sus respectivas salidas tanto en
formato de texto, tabla, o gráficos.  El archivo en formato Jupyter Notebook
permite visualizar ambos de manera sencilla y cohesiva.

Para validar el resultado esperado, se solicitó la aprobación del conjunto de
datos por parte de un especialista en Ciencia de Datos.  El documento denominado
\enquote{Acta de Conformidad}, que ha sido firmado por el especialista, se
encuentra adjunto como Anexo. % \autoref{appendix:IOV-R1.1}

\subsection{R1.4 Análisis de relación}

El análisis de relación entre las variables del conjunto de datos y la variable
objetivo permite ordenar a las variables independientes por su índice de
correlación lineal respecto a la variable objetivo.  En la \autoref{fig:analisis-relacion}, se puede
observar que variables académicas como el ratio de cursos aprobados en el segundo y
primer semestre están más fuertemente relacionadas linealmente con la variable objetivo.
Mientas que otras variables como el estado de deudor y la edad del estudiante
estan relacionadas inversamente con la variable objetivo.

\begin{figure}[H]
    \centering
    \includegraphics[width=0.80\textwidth]{img/analisis_relacion.png}
    \caption{Análisis de relación entre varibles independientes y variable objetivo}     
    % Caption can be placed above or below the list of figures
    \label{fig:analisis-relacion}
\end{figure}

\subsubsection{Medio de verificación}

El medio de verificación para el resultado esperado 1.4 es la sección de 
\enquote{análisis de relación} en el código fuente, así como sus
respectivas salidas, tanto en formato de texto, tabla, o gráficos.  El archivo en
formato Jupyter Notebook permite visualizar ambos de manera sencilla y cohesiva.

Para validar el resultado esperado, se solicitó la aprobación del conjunto de
datos por parte de un especialista en Ciencia de Datos.  El documento denominado
\enquote{Acta de Conformidad}, que ha sido firmado por el especialista, se
encuentra adjunto como Anexo. % \autoref{appendix:IOV-R1.1}

\subsection{R1.5 Análisis de correlación}

El análisis de corelación entre las mismas variables indipendientes del conjunto
de datos permite identificar posibles correlaciones, asociaciones o patrones
entre las variables, lo que puede proporcionar \textit{insights} valiosos para el
proyecto.

La manera usual de realizar el análisis es mediante una matriz de correlación
coloreada como un mapa de calor.  En la \autoref{fig:analisis-correlacion},
se observa que las variables relacionadas con la eleccion de cursos del estudiante
estan moderadamente correlacionadas entre sí.

\begin{figure}[H]
    \centering
    \includegraphics[width=0.80\textwidth]{img/analisis_corelacion.png}
    \caption{Análisis de correlación entre varibles independientes}     
    % Caption can be placed above or below the list of figures
    \label{fig:analisis-correlacion}
\end{figure}

\subsubsection{Medio de verificación}

El medio de verificación para el resultado esperado 1.5 es la sección de 
\enquote{análisis de correlación} en el código fuente, así como sus
respectivas salidas, tanto en formato de texto, tabla, o gráficos.  El archivo en
formato Jupyter Notebook permite visualizar ambos de manera sencilla y cohesiva.

Para validar el resultado esperado, se solicitó la aprobación del conjunto de
datos por parte de un especialista en Ciencia de Datos.  El documento denominado
\enquote{Acta de Conformidad}, que ha sido firmado por el especialista, se
encuentra adjunto como Anexo. % \autoref{appendix:IOV-R1.1}

\section{Discusión}