aboutsummaryrefslogtreecommitdiffstats
path: root/chapter/90-anexos.tex
blob: ab3b413ae8a7f3a899382b0cf6e61fe97c8ce024 (plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
\chapter{Formulario de Extracción}

Se encuentra en la hoja de cálculo nombrada:
% \verb 20170895_RobertoTokumori_PatriciaNatividad_E2_Anexo1.xlsx \verb.
\begin{verbatim}20170895_RobertoTokumori_PatriciaNatividad_E2_Anexo1.xlsx\end{verbatim}.


\chapter{Plan de Proyecto}

\section{Justificación}

% TODO: Revisar coherencia en citas

% I've commented out some of the paragraphs.  Maybe add them in the future
% it depends if it's OK to add points related to the "methods".  I've only
% left the ones related to the "problem".

El desarrollo de un sistema de información que utilice técnicas de aprendizaje
automático para predecir la deserción de estudiantes universitarios y mejorar
las tasas de retención es un proyecto que puede ser justificado por las siguientes 
razones. 

\begin{itemize}
    \item 
    Uno de los principales objetivos de las universidades es asegurar el 
    éxito académico de sus estudiantes \autocite{Shilbayeh2021562}. 
    Al predecir con precisión las posibles deserciones, las
    universidades pueden intervenir temprano e implementar sistemas de
    apoyo específicos para abordar las causas raíz de la deserción de los
    estudiantes. Este enfoque proactivo puede permitiría las universidades
    apoyar mejor a los estudiantes con dificultades y mejorar sus posibilidades
    de completar sus títulos con éxito.

    \item 
    La deserción de los estudiantes no solo es perjudicial
    para los estudiantes individuales sino también para las propias universidades.
    Cuando los estudiantes abandonan la universidad, esto representa una pérdida de recursos
    invertidos en su educación, incluido el tiempo, la financiación y los esfuerzos
    del personal docente de la universidad \autocite{Alwarthan2022107649}.
    Al identificar con precisión a los estudiantes en riesgo,
    las universidades pueden asignar sus recursos de manera más efectiva, ofreciendo
    intervenciones personalizadas a quienes más las necesitan. Esta asignación
    optimizada de recursos puede generar ahorros de costos y una mayor eficiencia
    para las instituciones educativas.

    % Datos que cuentan las universidades son "underutilized". (Maybe in this one
    % include the points below)

    % Las técnicas de aprendizaje automático pueden
    % analizar múltiples factores que contribuyen a las tasas de deserción de
    % los estudiantes, incluido el rendimiento académico, el entorno socioeconómico,
    % y los niveles de compromiso.  Al aprovechar esta gran cantidad de datos, el
    % sistema de información puede identificar patrones y factores de riesgo asociados
    % con el comportamiento de deserción estudiantil universitaria.

    % Los métodos tradicionales para identificar posibles
    % abandonos a menudo se basan en medidas reactivas, como observar un rendimiento
    % académico deficiente o signos de desconexión \autocite{Alwarthan2022107649}.  Sin embargo, mediante el uso de
    % algoritmos de aprendizaje automático, el sistema de información puede analizar
    % grandes cantidades de datos históricos y crear modelos predictivos para
    % pronosticar las probabilidades de abandono escolar de los estudiantes en una
    % etapa temprana. Este enfoque proactivo permite a las instituciones intervenir
    % con prontitud, brindando recursos y orientación específicos para ayudar a los
    % estudiantes a superar los desafíos y aumentar sus probabilidades de permanecer
    % matriculados.
\end{itemize}

% Por lo tanto, se justifica el desarrollo de un sistema de información que
% pueda ayudar a predecir la deserción de los estudiantes universitarios y mejore
% las tasas de retención, ya que mejora el éxito de los estudiantes, optimiza la
% asignación de recursos y permite intervenciones proactivas basadas en análisis
% predictivos.  Este proyecto tiene el potencial de mejorar significativamente las
% tasas de retención y contribuir al éxito general de las instituciones
% educativas.

\section{Viabilidad}

\subsection{Viabilidad temporal}

El proyecto tendrá una duración de 7 meses, desde julio del 2023, hasta fines de 
diciembre del 2023.  Los plazos de los resultados esperados, resultado de la
planificación se pueden evidenciar en el cronograma de actividades del proyecto
(Ver tabla).

\subsection{Viabilidad técnica}

Se consideran 2 principales barreras técnicas para estimar la complejidad del
proyecto, y por tanto los plazos de tiempo para cada resultado esperado.  Por un
lado se encuentra la implementación de modelos de aprendizaje automático, y
por el otro se encuentra la implementación del sistema de información que
utilice estos modelos.

La implementación de modelos de aprendizaje automático es viable porque se
poseen los conocimientos base respecto a las técnicas (estadística, manejo de
bases de datos, análisis de datos, programación), y herramientas de software a
utilizar.  Sin embargo, se requerirá aprender a mayor profundidad las técnicas
de aprendizaje automático para lo cual se cuenta con el apoyo de especialistas
que puedan dar guía en el aprendizaje, y también realizar las revisiones
pertinentes para los resultados esperados.

Por otro lado, para la implementación del sistema de información también es
viable porque también se cuentan los conocimientos base para planear, definir, 
e implementar un sistema de información.  Y se cuenta con el apoyo 
de especialistas para la revisión de los resultados esperados.

\subsection{Viabilidad económica}

El proyecto no demanda una inversión económica significativa.  Las
herramientas de software necesarias no requieren una licencia especial que
implique gastos adicionales.  Y el conjunto de datos requerido para el análisis
puede ser solicitado a universidades locales.

\section{Alcance del proyecto}

El alcance de este proyecto está delimitado por los objetivos y resultados
esperados definidos en la \autoref{sec:objetivos}.  Para recapitular, el
objetivo general es: desarrollar un sistema, basado en técnicas de aprendizaje
automático, que permita predecir la deserción estudiantil en el ámbito
universitario, mejorando así la retención de estudiantes.  Con la intención de 
delimitar mejor el alcance, se describen en esta sección las actividades a alto
del proyecto.

Primero, se realizará el análisis descriptivo, limpieza, y 
preprocesamiento del conjunto de datos.  Se utilizará el lenguaje de
programación Python, y librerías especializadas para la realización de estas
tareas, como Pandas, NumPy, y Matplotlib.  El entorno de desarrollo será Visual
Studio Code y Jupyter Notebooks.  Todo se ejecuta en una laptop personal bajo el
sistema operativo Linux.  En cuanto a la metodología de trabajo para esta
parte del análisis de datos se utilizará KDD (Knowledge Discovery in Databases).

Luego, se generarán modelos de aprendizaje automático, utilizando algoritmos
ya implementados y de libre disponibilidad.  Una librería en Python muy 
utilizada que facilita el uso de dichos algoritmos es scikit-learn.  El output
de los algoritmos de aprendizaje automático son los modelos de predicción
entrenados, los cuales luego son utilizados para realizar predicciones en base a
nuevos datos (\textit{datapoints}).  La dificultad se encuentra en optimizar la
generación de estos modelos según las características del conjunto de datos.
Los pasos previos de limpieza y preprocesamiento son cruciales, así como también
la selección de algoritmos y la optimización de sus respectivos hiper-parámetros
\autocite{Kemper2020}.

Finalmente, se implementará un sistema de información que utilice el mejor
modelo de predicción de la deserción estudiantil universitaria.  El cual pueda
facilitar la utilización del modelo por parte del usuario.  Se utilizará el
marco Ágil para la captación de requisitos del sistema mediante User Story
Mapping.  Para el protitado de la solución se utilizará la herramienta Figma
(web).  Y para la implementación del sistema de información se utilizará
tecnología web, para que posteriormente pueda ser desplegado en un servidor de
algún proveedor de servicios en la nube, como por ejemplo AWS (Amazon).

El presente proyecto no contempla la implementación de nuevos algoritmos de
aprendizaje automático.  Ni tampoco la implantación del sistema en alguna
universidad del país.


\section{Restricciones}

El proyecto depende de la disposición de conjuntos de datos de las universidades.
Es posible que las universidades a quienes se les solicite estos datos no los compartan,
ya sea por la complejidad en extraer la información de sus sistemas
informáticos, o porque simplemente no está dentro de sus procedimientos
compartir estos datos.

Además, el proyecto depende de la disponibilidad de los especialistas en 
aprendizaje automático, sistemas de información, y usabilidad.  Quienes se 
encargan de validar los resultados esperados del proyecto.

\section{Identificación de riesgos}

En la \autoref{tab:riesgos-proyecto} se listan los riesgos identificados del
proyecto.  Se cuantifica la P (Probabilidad), I (Impacto), y S (Severidad), 
de cada riesgo, de acuerdo a las siguientes fórmulas:

\begin{itemize}
    \item P: Probabilidad del riesgo.  Número real del 0 al 1.  Intenta
    representar la probabilidad de que suceda el evento durante la
    realización del proyecto.
    \item I: Impacto del riesgo.  Número real del 0 al 1.  Donde \(I = 0\)
    representa un riesgo con consecuencias muy bajas o imperceptibles, mientras
    \(I = 1\) representa que el riesgo tiene consecuencias críticas para el
    éxito del proyecto.
    \item S: Severidad del riesgo.  Calculado como \(S = P*I\).
    \begin{itemize}
        \item Severidad baja si \(I < 0.05\) 
        \item Severidad media si \(0.05 <= I < 0.20\)
        \item Severidad alta si \(0.20 < I\)
    \end{itemize}
\end{itemize}

\begin{table} [H]    % htbp
    \centering
    \small
    \caption{Riesgos del proyecto}
    \label{tab:riesgos-proyecto}
        \begin{tabular} {*{2}{|p{0.20\linewidth}} *{3}{|p{0.025\linewidth}} *{3}{|p{0.15\linewidth}}|}
        \hline

        \textbf{Riesgo} &
        \textbf{Materialización del riesgo} &
        \textbf{P} &
        \textbf{I} &
        \textbf{S} &
        \textbf{Mitigación} &
        \textbf{Contingencia} \\
        \hline
        \hline

        Los expertos no se encuentran disponibles para revisar de los
        entregables a tiempo para cumplir con el cronograma &
        Demoras en el tiempo de respuesta de los expertos.  Dificultad para
        contactar algún experto. &
        .8 & .5 & .4 &
        Coordinar con la mayor anticipación posible con los expertos.  
        Contar con al menos 2 expertos de cada área en caso uno no se encuentre 
        disponible. &
        Buscar a más expertos del área requerida para que pueda revisar
        el entregable a tiempo \\
        \hline

        No contar con el conjunto de datos requerido para el análisis &
        Demoras en el tiempo de respuesta de las universidades contactadas
        para adquirir el conjunto de datos.  Dificultad por parte de las
        universidades para extraer la información requerida.  Las universidades
        contactadas no pueden compartir el conjunto de datos requeridos. &
        .5 & 1 & .5 &
        Coordinar con la mayor anticipación posible con las universidades.
        Contactar con al menos 3 universidades para requerir los conjuntos de
        datos. &
        Buscar en Internet si existe algún conjunto de datos de libre disponibilidad.
        Buscar a más universidades para adquirir el conjunto de datos. \\
        \hline

        Pérdida de información debido a pérdida equipos informáticos &
        Robo de la laptop.  Corrupción del disco duro.  &
        .2 & .8 & .16 &
        Mantener 2 copias de seguridad (\textit{backups}) de la información.
        Mantener una de esas copias en la nube.  Actualizar diariamente
        las copias de seguridad. &
        Restaurar la información utilizando la última copia de seguridad.
        Comprar nuevo equipo informático de reemplazo. \\
        \hline

        Planeamiento inadecuado de las actividades del proyecto &
        Se identifica una actividad significativa requerida para el desarrollo
        del proyecto.  Estimación del tiempo requerido para la actividad
        insuficiente &
        .4 & .4 & .16 &
        Realizar el planeamiento de actividades junto con el asesor.
        Contar con feedback de expertos para la estimación de tiempo
        de actividades fuera del expertise del tesista. &
        Reestructurar las actividades o el cronograma siguiendo el procedimiento
        especificado en el documento de Procesos de Tesis \\
        \hline
    \end{tabular}
\end{table}

% \section{Estructura de descomposición del trabajo (EDT)}

% \section{Lista de tareas}

% \section{Cronograma de actividades del proyecto}

% \section{Lista de recursos}