aboutsummaryrefslogtreecommitdiffstats
path: root/chapter/30-estado_del_arte.tex
blob: 28999bbb8d2430338260353d16333ca66a6824d2 (plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
\chapter{Estado del Arte}



\section{Introducción}

%[La revisión de la literatura establece lo que se sabe sobre el tema para
%construir sobre la sabiduría de trabajos anteriores. Lo que ya se ha establecido
%sobre un tema le ayuda a acotar un marco teórico específico. Esto significa que
%generalmente es necesario revisar la literatura antes de elegir un marco teórico
%específico.
%
%La revisión de la literatura puede dividirse por temas, por autores o
%cronológicamente. La división más común es por tema, ya que muestra una
%comprensión más compleja de la literatura. Una revisión de la literatura de los
%autores es una compilación de informes breves de libros. Esto significa que las
%revisiones de la literatura divididas por autores normalmente carecen de la
%comprensión global proporcionada por una descripción general de temas y, por lo
%tanto, no se consideran tan sofisticadas como las revisiones de temas. Las
%revisiones cronológicas suelen ser más útiles cuando el enfoque del artículo es
%de naturaleza histórica. La elección de la organización depende del objetivo del
%trabajo.]

% Reference Needed
% La deserción estudiantil universitaria es un fenómeno que afecta tanto a los
% estudiantes que abandonan su carrera profesional, como a la universidad de la
% cual desertan.  Se ven perjudicadas la economía del estudiante y la universidad,
% la calidad de la enseñanza, y la diversidad estudiantil en la universidad.  La
% identificación temprana de los estudiantes más propensos a abandonar sus
% estudios, aquellos que presentan los principales indicadores de deserción,
% podría ayudar a los centros de estudios en proporcionar apoyo a estudiantes
% propoensos a desertar de forma más oportuna.

% From 05-intro.tex
La deserción estudiantil universitaria es un fenómeno complejo que afecta a los estudiantes desertores y a su universidad.  La deserción estudiantil universitaria afecta significativamente en la economía del estudiante y en su bienestar psicológico, así como también en la reputación de la univerdad y de sus recursos que contará en el futuro \autocite{Fernandez2019}.  Para el año 2013,  en Estados Unidos, el ratio de deserción fue de 40\% por año para estudiantes que persíguen un pregrado, de los cuales el 30\% deserta en el primer año de estudios \autocite{Doll2013}.  Actualmente, las universidades cuentan con diversos programas de apoyo al estudiante; por ejemplo la PUCP, cuenta con la Oficina de Orientación y Apoyo al Estudiante (OOIA) y la Dirección de Asuntos Estudiantiles (DAES) las cuales proporcionan programas de tutorías, refuerzo académico en los cursos más demandantes de 1er y 2do año, mentoría, atención psicológica, y eventos informativos \autocite{PUCP2019SaludMental}.

Con el fin de investigar el estado del arte en el análisis de factores que
predicen la deserción estudiantil universitaria se realiza una revisión
sistemática de la literatura siguiendo principalmente los lineamientos
propuestos por \autocite{Kitchenham2007}.  De esta manera, se emplean los
criterios PICOC \autocite{Petticrew2006} para enmarcar las preguntas de
investigación, y subsecuentemente generar la cadéna de búsqueda apropiada para
los motores de búsqueda a utilizar.  Las siguientes secciones del capítulo
documentan el proceso de revisión de literatura realizado.

% "debe indicar tipo de revision"
% -> El tipo de revision es "sistematica" (en contraste con "narrativa",
%    "conceptual", "rapida", "realistica", "tradicional", etc.)
%
% Also, what does this mean?
% Además, el tipo esquema provisorio elegido será por temas, y no por autor.



\section{Objetivos de Revisión} \label{objetivos}

El primer paso para llevar a cabo una revisión sistemática del estado del arte
consiste en establecer claramente los objetivos que se persiguen con dicha
revisión. Estos objetivos serán abordados a través de las preguntas de
investigación que se planteen. Para el presente estudio, se definen
los siguientes objetivos de revisión:

\begin{itemize}
    \item 
        Identificar los principales factores y métricas que predicen la 
        deserción estudiantil universitaria, en la literatura.
    \item 
        Conocer las herramientas y metodologías que se emplean actualmente para
        analizar la deserción estudiantil, desde el punto de vista del análisis de datos
        y Aprendizaje Automático.
    \item 
        Conocer las metodologías algorítmicas basadas en
        de Aprendizaje Automático (\textit{Machine Learning}) más usadas
        para predecir la deserción estudiantil universitaria.
    \item 
        Comparar las debilidades y oportunidades de mejora
        en las metodologías y técnicas algorítmicas de análisis usadas actualmente
        para predecir la deserción estudiantil universitaria
\end{itemize}



\section{Preguntas de Revisión}

Con la intención de estructurar las preguntas de revisión y considerar varios puntos de vista,
se utilizan los criterios PICOC (\textit{population, intervention, comparison, outcomes,
context}) \autocite{Petticrew2006} para elaborar las preguntas de revisión.  Estos criterios 
son mayormente utilizados en el campo de investigación clínica y salud.  Sin embargo,
estos también se pueden aplicar al campos relacionados a la informática \autocite{Kitchenham2007}.
Para la presente revisión, no se utiliza el criterio de comparación, puesto que no es un objetivo
comparar la aplicación de la intervención (predicción de la deserción estudiantil universitaria) 
sobre un grupo de la población y un grupo de control.
% En el presente estudio no se utiliza el
% criterio de comparación, puesto que no se tiene como objetivo comparar el
% criterio de intervención a investigar con algún otro método de intervención en
% concreto.  Como recalca \autocite{Kitchenham2007}: es inadecuado comparar a los
% estudios que utilizan una técnica en específico contra los que no la utilizan.
Ver \autoref{tab:picoc}.

\begin{table} [htbp]
    \centering
    \caption{Criterios PICOC}
    \label{tab:picoc}
    \begin{tabular} {|p{0.19\linewidth}|p{0.79\linewidth}|}

        \hline
        Población &
        % Estudiantes universitarios de pregrado en instituciones tanto nacionales como extranjeras \\
        Sistemas para la predicción de deserción estudiantil universitaria \\ 
        \hline
        Intervención & 
        Técnicas modernas de Aprendizaje Automático para la predicción de deserción estudiantil universitaria \\ 
        \hline
        Comparación &
        % Soluciones y metodologías.  Técnicas de Aprendizaje Automático.  \\
        (No aplica) \\
        \hline
        Consecuencia &
        Predicciones de deserción estudiantil universitaria \\
        \hline
        Contexto &
        Estudiantes de pregrado, instituciones de educacion superior, nacional o internacional,
        tipo de grado académico perseguido, estatus socioeconómico del estudiante. \\
        % El contexto de la intervención es amplio.  Se espera
        % recolectar información de las técnicas de Aprendizaje Automático
        % más efectivas,  así como las metodologías utilizadas para la captura
        % de información, procesamiento, y aplicación del modelo. \\ 
        \hline

    \end{tabular}
\end{table}

A continuación, se listan las preguntas de revisión formuladas.

\begin{itemize}
    \item 
        P1. ¿Qué factores o métricas predicen de mejor manera la deserción
        estudiantil universitaria?
    \item 
        P2. ¿Qué herramientas y metodologías se emplean actualmente para
        analizar la deserción de los estudiantes, desde el punto de vista del análisis de datos
        y Aprendizaje Automático?
    \item 
        P3. ¿Qué soluciones algorítmicas basadas en Aprendizaje Automático son
        utilizadas actualmente para predecir la deserción estudiantil
        universitaria?
    \item 
        P4. ¿Qué debilidades y oportunidades de mejora existen en las
        metodologías y técnicas algorítimicas de análisis usadas actualmente
        para predecir la deserción estudiantil universitaria?
\end{itemize}



\section{Estratégia de Búsqueda}

En esta sección se describe el procedimiento utilizado para identificar la bibliografía relevante para responder a las preguntas de revisión formuladas.  Los criterios de inclusión y exclusión servirán para filtrar aún más la lista de documentos encontrados.  Para luego catalogarlos con fichas bibliográficas utilizando el formulario de extracción de datos definido en la sección \ref{formulario-extraccion}.

\subsection{Motores de búsqueda a usar.}

Para el levantamiento de información se utilizarán los siguientes motores de
búsqueda:

\begin{itemize}
    \item Scopus
    \item IEEE Xplore
\end{itemize}


\subsection{Cadenas de búsqueda a usar.}


% - cita a Kitchenham necesaria?
% - cita al paper de WordNet necesaria?  O mejor solo a la URL
%   https://wordnet.princeton.edu/
Se sigue el enfoque general de descomponer los criterios PICOC (\autoref{tab:picoc}) en términos de
búsqueda (\autoref{tab:picoc-terms}).  Seguido de encontrar sinónimos para cada término,
construir la cadena de búsqueda utilizando operadores booleanos, y finalmente
adaptar la cadena a la sintaxis de los motores de búsqueda elegidos.  Para la
búsqueda de sinónimos en inglés se utilizó el
diccionario WordNet, el cual es distribuido pública y libremente por Princeton
\autocite{Fellbaum2010}.

\begin{table} [htbp] \centering
    \caption{Términos de búsqueda derivados de los criterios PICOC}
    \label{tab:picoc-terms}
    \begin{tabular} {|p{0.19\linewidth}|p{0.79\linewidth}|}

        \toprule
        % \hline
        \textit{Criterio} & \emph{Términos de búsqueda} \\
        \midrule
        % \hline
        Población       & 
        system, tool, student dropout, student desertion, student attrition \\
        % undergraduate students, college students, higher education students \\ 
        \hline
        Intervención    & 
        machine learning, data mining, predictive modeling, supervised learning, classification, feature selection \\ 
        \hline
        Comparación     & 
        (No aplica) \\ 
        \hline
        Consecuencia    & 
        forecast models, prediction models \\ 
        \hline
        Contexto        & 
        undergraduate, higher education institutions, university, college, 
        degree types, socioeconomic status \\ 
        \hline

    \end{tabular}
\end{table}

Se utilizan el operador booleano $OR$ para concatenar los términos de
búsqueda pertenecientes al mismo criterio,  y luego se concatenan las cadenas de
cada criterio con el operador booleano $AND$ para obtener una única cadena de
búsqueda.  Para delimitar aún más la búsqueda, se restringe más el primer criterio
para que solo muestre herramientas o sistemas relacionadas al análisis de la deserción
estudiantil universitaria:

\begin{verbatim} 
( ( "system" OR "tool" ) AND ( "student dropout" OR "student desertion" OR
"student attrition" ) ) AND ( "machine learning" OR "data mining" OR "predictive
modeling" OR "supervised learning" OR "classification" OR "feature selection" )
AND ( "forecast models" OR "prediction models" ) AND ( "undergraduate" OR
"higher education institutions" OR "university" OR "college" OR "degree types"
OR "socioeconomic status" )
\end{verbatim}
% https://dl-acm-org.ezproxybib.pucp.edu.pe/action/doSearch?AllField=%28+%22university%22++AND++%22dropout+rate%22++AND++%22machine+learning%22+%29+
% simple one (57 scopus): https://www-scopus-com.ezproxybib.pucp.edu.pe/results/results.uri?sort=plf-f&src=s&st1=%22university%22+AND+%22dropout+rate%22+AND+%22machine+learning%22&sid=5b2e61989f4528bdfb0f8402c4327812&sot=b&sdt=b&sl=69&s=TITLE-ABS-KEY%28%22university%22+AND+%22dropout+rate%22+AND+%22machine+learning%22%29&origin=searchbasic&editSaveSearch=&yearFrom=Before+1960&yearTo=Present
% v4: asesora: 61 SCOPUS, 1 IEEE Xplore
% https://www-scopus-com.ezproxybib.pucp.edu.pe/results/results.uri?sort=r-f&src=s&nlo=&nlr=&nls=&sid=618985a1c0139a3919c2f00d7f4cce1f&sot=a&sdt=cl&cluster=scofreetoread%2c%22all%22%2ct%2bscopubyr%2c%222023%22%2ct%2c%222022%22%2ct%2c%222021%22%2ct%2c%222020%22%2ct%2c%222019%22%2ct%2bscosubtype%2c%22ar%22%2ct%2bscosubjabbr%2c%22COMP%22%2ct%2bscolang%2c%22English%22%2ct&sl=430&s=ALL+%28%28+%28%22system%22+OR+%22tool%22%29+AND+%28%22student+dropout%22+OR+%22student+desertion%22+OR+%22student+attrition%22%29+%29+AND+%28+%22machine+learning%22+OR+%22data+mining%22+OR+%22predictive+modeling%22+OR+%22supervised+learning%22+OR+%22classification%22+OR+%22feature+selection%22+%29+AND+%28+%22forecast+models%22+OR+%22prediction+models%22+%29+AND+%28+%22undergraduate%22+OR+%22higher+education+institutions%22+OR+%22university%22+OR+%22college%22+%29+%29+AND+PUBYEAR+%3e+2017+AND+PUBYEAR+%3c+2024+AND+NOT+%28%22MOOC%22%29&origin=resultslist&zone=leftSideBar&editSaveSearch=&txGid=6faae11c585e71bcb05039753ceb381c
% IEEE Xplore: (( ( "student dropout" OR "student desertion" OR "student attrition" ) ) AND ( "machine learning" OR "data mining" OR "predictive modeling" OR "supervised learning" OR "classification" OR "feature selection" ) AND ( "forecast models" OR "prediction models" ) AND ( "undergraduate" OR "higher education institutions" OR "university" OR "college" OR "degree types" OR "socioeconomic status" ))
% ALL ( ( ( "system"  OR  "tool" )  AND  ( "student dropout"  OR  "student desertion"  OR  "student attrition" ) )  AND  ( "machine learning"  OR  "data mining"  OR  "predictive modeling"  OR  "supervised learning"  OR  "classification"  OR  "feature selection" )  AND  ( "forecast models"  OR  "prediction models" )  AND  ( "undergraduate"  OR  "higher education institutions"  OR  "university"  OR  "college" ) )  AND  PUBYEAR  >  2017  AND  PUBYEAR  <  2024  AND NOT  ( "MOOC" )  AND  (  LIMIT-TO ( OA ,  "all" ) )  AND  ( LIMIT-TO ( PUBYEAR ,  2023 )  OR  LIMIT-TO ( PUBYEAR ,  2022 )  OR  LIMIT-TO ( PUBYEAR ,  2021 )  OR  LIMIT-TO ( PUBYEAR ,  2020 )  OR  LIMIT-TO ( PUBYEAR ,  2019 ) )  AND  ( LIMIT-TO ( DOCTYPE ,  "ar" ) )  AND  ( LIMIT-TO ( SUBJAREA ,  "COMP" ) )  AND  ( LIMIT-TO ( LANGUAGE ,  "English" ) )  
% v2: 1,374 SCOPUS, 6 IEEE Xplore
% v1:  > 1,000,000 results SCOPUS, 27,397 results IEEE Xplore
% ("system" OR "solution" OR "forecast" OR "student dropout" OR "student 
% desertion" OR "student attrition") AND ("machine learning" OR "data mining" OR 
% "predictive modeling" OR "supervised learning" OR "classification" OR "feature 
% selection") AND ("factors" OR "attributes" OR "metrics" OR "predict" OR "models" 
% OR "academic success") AND ("undergraduate" OR "higher education institutions" 
% OR "university" OR "college" OR "degree types" OR "socioeconomic status")
% v0:
% ("student desertion" OR student attrition OR "student dropout" OR "academic
% risk") AND ("machine learning" OR "data mining" OR techniques OR tools OR
% algorithms OR "classification algorithms") AND (model OR framework OR factors OR
% attributes OR metrics OR predict OR "predict student droput") AND (university OR
% academia OR peru OR latam OR "latin america" OR undergraduate OR "undergraduate
% studies" OR methodology OR review OR comparison OR "educational data mining") 

Finalmente, se adapta la cadena a la sintaxis
de cada uno de los motores de búsqueda bibliográficos.  
Para Scopus, se genera la siguiente cadena.  A la cual también
se le ha incorporado un criterio de exclución, limitando la antigüedad del
artículo (la lista completa de estos criterios se encuentra 
en la sección \ref{criterios-inclusion-exclusion}).

\begin{verbatim}
ALL ( ( "forecast system" OR "student dropout" OR "student desertion" OR
"student attrition" ) AND ( "machine learning" OR "data mining" OR "predictive
modeling" OR "supervised learning" OR "classification" OR "feature selection" )
AND ( "forecast models" OR "prediction models" ) AND ( "undergraduate" OR
"higher education institutions" OR "university" OR "college" OR "degree types"
OR "socioeconomic status" ) ) AND PUBYEAR > 2017 AND PUBYEAR < 2024 
\end{verbatim}

% El motor de búsqueda IEEE Xplore limita la búsqueda a un máximo de 25 términos.
Para IEEE Xplore, se utiliza la interfáz gráfica para limitar la antigüedad del artículo
a los últimos 6 años.  La cadena no requiere modficaciones adicionales de sintaxis.


\subsection{Documentos encontrados.}

La cantidad de documentos encontrados luego de utilizar las cadenas de búsqueda en los motores bibliograficos se sumariza en la \autoref{tab:documentos-encontrados}.  El número de documentos encontrados es especialmente elevado para Scopus; pero aplicando los criterios de inclusión y exclusión listados en la siguiente sección, se buscará reducirlo a un número más manejable para los documentos primarios para la investigación.

\begin{table} [htbp] \centering
    \caption{Documentos encontrados por motor de búsqueda}
    \label{tab:documentos-encontrados}
    \begin{tabular} {|p{0.2\linewidth}|p{0.2\linewidth}|}
    
        \hline
        Scopus & 
        1,374 \\ 
        \hline
        IEEE Xplore & 
        4 \\ 
        \hline
        
    \end{tabular}
\end{table}


\subsection{Criterios de inclusión/exclusión.} \label{criterios-inclusion-exclusion}

Se cuentan con los siguientes criterios de inclusión:

\begin{itemize}
    \item 
        El artículo incluye métricas o factores que ayudan a predecir la
        deserción estudiantil universitaria
    \item 
        El artículo explora y compara herramientas y metodologías para analizar
        la deserción estudiantil universitaria
    \item 
        El artículo incluye soluciónes algorítmicas de Machine Learning para el
        análisis de deserción estudiantil universitaria.
\end{itemize}

Y los siguientes criterios de exclusión:

\begin{itemize}
    \item 
        El artículo no tiene una antigüedad mayor a 6 años.  A excepción de si
        se trata a una referencia de conceptos o teoría.
    \item 
        El artículo no está relacionado al contexto de deserción estudiantil
        universitaria.
    \item 
        Las técnicas para el análisis de factores que influyen en la deserción
        estudiantil no están relacionadas con Aprendizaje Automático.
    \item 
        El artículo se encuentra en un idioma distinto al inglés o español.
    \item 
        El artículo no se encuentra disponible pasa su uso libre o licenciado
        con la biblioteca de la Pontificia Universidad Católica del Perú (PUCP)
        y no se considera que su aporte sería indispensable para el estudio.
\end{itemize}


\section{Formulario de Extracción de Datos} \label{formulario-extraccion}

Luego de aplicar los criterios de inclusión y exclusión a los documentos
encontrados, se categorizan los documentos utilizando el formulario de
extracción de datos.  Ver \autoref{tab:formulario-extraccion}.

\begin{table}[H]
    \centering
    \caption{Estructura del formulario de extracción}
    \label{tab:formulario-extraccion}
    \begin{tabular} {p{0.24\linewidth}|p{0.5\linewidth}|p{0.25\linewidth}}

        \toprule
        \emph{Ítem} &
        \emph{Descripción} &
        \emph{Pregunta} \\ 
        \midrule

        Id &
        Identificador &
        Información General \\

        Título &
        Título del artículo &
        Información General \\

        Autores &
        Autores &
        Información General \\

        Año &
        Año de publicación &
        Información General \\

        Motor de búsqueda &
        Motor de búsqueda donde se encontró el artículo &
        Información General \\

        Tipo de Fuente &
        Medio en que se publicó el documento.  Puede ser artículo, revista, libro,
        congreso. &
        Información General \\

        Métricas &
        Métricas o factores que influyen en la deserción estudiantil universitaria &
        P1 \\

        Herramientas &
        Herramientas o metodologías empleadas para analizar la deserción estudiantil
        universitaria &
        P2 \\

        Algoritmos de ML &
        Algoritmos actuales de Machine Learninng utilizados para analizar la
        deserción estudiantil universitaria &
        P3 \\

        Carencias &
        Carencias, falencias, y posibles mejoras en las técnicas actuales de
        análisis de deserción estudiantil universitaria &
        P4 \\

        \bottomrule

    \end{tabular}
\end{table}



\section{Resultados de la Revisión}

Luego de aplicar los criterios de
inclusión y exclusión, se obtienen 16 estudios primarios con los que se
responderán las preguntas de investigación.  Para ver la lista
completa de las fichas bibliográficas de los estudios primarios ver el Anexo 1.
% Añadir referencia Anexo1: Formulario de Extracción
En la \autoref{tab:p1papers} se sumarizan los estudios primarios y las preguntas de investigación a las que ayudan a responder.

% - Tabla
% - Resumen
% - Opcionalmente graficos y tablas

\begin{table} [H]
    \centering
    \caption{Artículos primarios y las preguntas de investigación que ayudan a
    responder}
    \label{tab:p1papers}
    \begin{tabular} {|p{0.14\linewidth}|p{0.70\linewidth}|
        *{4}{p{0.02\linewidth}|} }

        \hline
        \textit{Autor} &
        \textit{Título} &
        \textit{P1} &
        \textit{P2} &
        \textit{P3} &
        \textit{P4}
        \\ \hline

        \autocite{Shilbayeh2021562} &
        Predicting student enrolments and attrition patterns in higher educational institutions using machine learning &
          &       % P1
        x &       % P2
        x &       % P3
                  % P4
        \\ \hline

        \autocite{Perez202157} &
        Predicting Student Program Completion Using Naïve Bayes Classification Algorithm &
        x &       % P1
          &       % P2
        x &       % P3
                  % P4
        \\ \hline

        \autocite{Alwarthan2022107649} &
        An Explainable Model for Identifying At-Risk Student at Higher Education &
        x &       % P1
          &       % P2
          &       % P3
                  % P4
        \\\hline

        \autocite{Khan2021} &
        An artificial intelligence approach to monitor student performance and devise preventive measures &
          &       % P1
          &       % P2
        x &       % P3
        x         % P4
        \\ \hline

        \autocite{Sahlaoui2021152688} &
        Predicting and Interpreting Student Performance Using Ensemble Models and Shapley Additive Explanations &
        x &       % P1
          &       % P2
        x &       % P3
                  % P4
        \\ \hline

        \autocite{Segura2022} &
        Machine Learning Prediction of University Student Dropout: Does Preference Play a Key Role? &
        x &       % P1
          &       % P2
        x &       % P3
                  % P4
        \\ \hline

        \autocite{Latif20221051} &
        Identifying At-Risk Students: An AI-based Prediction Approach &
          &       % P1
        x &       % P2
        x &       % P3
                  % P4
        \\ \hline

        \autocite{Balaji2021} &
        Contributions of machine learning models towards student academic performance prediction: A systematic review &
          &       % P1
        x &       % P2
        x &       % P3
                  % P4
        \\ \hline

        \autocite{Suhaimi20191} &
        Review on Predicting Students’ Graduation Time Using Machine Learning Algorithms & 
        x &       % P1
          &       % P2
        x &       % P3
        x         % P4
        \\ \hline

        \autocite{Yağcı2022} &
        Educational data mining: prediction of students' academic performance using machine learning algorithms &
          &       % P1
        x &       % P2
        x &       % P3
                  % P4
        \\ \hline

        \autocite{Fernandez-Garcia2021133076} &
        A real-life machine learning experience for predicting university dropout at different stages using academic data &
        x &       % P1
          &       % P2
        x &       % P3
        x         % P4
        \\ \hline

        \autocite{Guzmán2022} &
        Comparative Analysis of Dropout and Student Permanence in Rural Higher Education &
        x &       % P1
          &       % P2
        x &       % P3
                  % P4
        \\ \hline

        \autocite{8820813} &
        Supervised Learning in the Context of Educational Data Mining to Avoid University Students Dropout &
        x &       % P1
        x &       % P2
          &       % P3
                  % P4
        \\ \hline

        \autocite{8484847} &
        Applying Data Mining Techniques to Predict Student Dropout: A Case Study &
        x &       % P1
          &       % P2
        x &       % P3
                  % P4
        \\ \hline

        \autocite{Kemper2020} &
        Predicting student dropout: A machine learning approach &
        x  &       % P1
        x  &       % P2
        x  &       % P3
        x          % P4
        \\ \hline

    \end{tabular}
\end{table}


\subsection{Respuestas a la pregunta P1.}

Los factores con los que se predice la deserción estudiantil universitaria
varían considerablemente para cada estudio,  esto es debido a que cada uno
cuenta con data distinta, contextos distintos, y con medios de recolección de
datos distintos.  Por ejemplo,  en \autocite{Shilbayeh2021562} se recolectó data
real, de 1600 estudiantes de la Abu Dhabi School of Management en los años 2019-2022
Universidad Pública de Ecuador.
Y se obtuvo 11 principales factores, siendo los más importantes la edad del alumno y
su rendimiento académico.  
Por otro lado, \autocite{Kemper2020} encuentra que el promedio de notas y la cantidad de
exámenes aprobados son los principales factores.  Las variables utilizadas en
\autocite{Kemper2020} se listan en \autoref{tab:Kemper2020-var}, con las cuales
lograron obtener un 95\% de precisión con data limitada hasta el tercer semestre
de estudios de cada estudiante, y más de 85\% de precisión luego del primer
semestre.

En el estudio por \autocite{Perez202157} se meciona que tanto variables personales (género, estatus socio-económico) y variables educativas (rendimiento académico, dificultad percibida en los cursos que lleva)
pueden ser buenos predictores de deserción estudiantil.

En \autocite{Alwarthan2022107649} se identifica que variables pre-admission (e.g., puntaje SAT, GPA, información demográfica) también son muy relevantes al predecir deserción estudiantil universitaria.  
Estas variables podrían ser de especial ayuda para las universidades para poder elegir y apoyar
a estudiantes prospectivos que tienen alto riesgo de desertar, identificandolos de forma temprana.


% \begin{table} [htbp]\centering
%     \caption{Variables independientes utilizadas en \autocite{Alban2019}}
%     \label{tab:Alban2019-var}
%     \begin{tabular} {|p{0.80\linewidth}|}

%         \hline
% %        \textit{Descripción}
% %        \\ \hline

%         Conocimiento limitado en el uso de software especializado de la carrera
%         \\ \hline
%         Embarazo deseado o no deseado 
%         \\ \hline
%         El compromizo de los profesores con el estudiante 
%         \\ \hline
%         Compromiso económico con la familia del alumno por ser hijo mayor 
%         \\ \hline
%         Bullying 
%         \\ \hline
%         Sexismo 
%         \\ \hline
%         Adicciones del estudiante 
%         \\ \hline
%         Número de hijos del estudiante 
%         \\ \hline
%         Adaptabilidad del estudiante al nivel de rapidéz de aprendizaje
%         requerido por la universidad 
%         \\ \hline
%         Carrera elegida 
%         \\ \hline
%         Perspectiva del estudiante en cuando su integración en el mercado
%         laboral 

%         \\ \hline

%     \end{tabular}
% \end{table}

\begin{table} [H]
    \centering
    \caption{Variables independientes utilizadas en \autocite{Kemper2020}}
    \label{tab:Kemper2020-var}
    \begin{tabular} {|p{0.80\linewidth}|}

        \hline
%        \textit{Descripción}
%        \\ \hline

        Fecha de ingreso a la universidad
        \\ \hline
        Género
        \\ \hline
        Origen (Nacional o Extranjero)
        \\ \hline
        Edad en el momento de ingreso a la universidad
        \\ \hline
        Promedio de notas en todos los exámenes
        \\ \hline
        Promedio de notas en todos los exámenes aprobados
        \\ \hline
        Promedio de notas en todos los exámenes desaprobados
        \\ \hline
        Cantidad de exámenes tomados
        \\ \hline
        Cantidad de exámenes aprobados
        \\ \hline
        Cantidad de exámenes desaprobados

        \\ \hline

    \end{tabular}
\end{table}


\subsection{Respuestas a la pregunta P2.}

De los artículos primarios revisados, \autocite{Khan2021} y
\autocite{Sahlaoui2021152688} utilizan la metodología \textit{Knowledge Discovery in
Databases} (KDD).  Por otro lado, en \autocite{Latif20221051} se utilizó la
metodología CRIPS-DM.  Además, \autocite{Kemper2020} propone una nueva
metodología para poner en práctica en otras instituciones y comparar resultados.

En cuanto a las herramientas utilizadas, \autocite{Agrusti2019} menciona que,
dentro de los estudios que analizaron, las más usadas son WEKA, SPSS, y R.  

Como parte de otras técnicas utilizadas, tanto \autocite{Segura2022} como
\autocite{Balaji2021} utilizaron técnicas como SMOTE para el balanceo de datos,
parte de la etapa de pre-procesamiento de datos. Y SHAP para el análisis de importancia
y explicación de las variables en los modelos de Aprendizaje Automático obtenidos.

En el estudio realizado por \autocite{Alwarthan2022107649} y \autocite{Kemper2020} 
se comparó el desempeño de múltiples algoritmos basados en Aprendizaje Automático.
Entre ellos: Random Forest (RF), Artificial Neural Network (ANN), y Support Vector Machine (SVM).


\subsection{Respuestas a la pregunta P3.}

En la literatura revisada se utilizan diversas técnicas de \textit{Machine
Learning}, como lo son \textit{Decision Tree}, clasificación bayesiana, redes
neuronales, y regresión logística.  Para cada técnica, se cuenta con varios
algorítmos, por ejemplo, C4.5, \textit{Random Forest}, \textit{Naïve Bayes}, y
\textit{Multilayer perceptron} \autocite{Alwarthan2022107649}.  En la
\autoref{tab:alg-comp} se sumariza el desempeño del mejor algorítmo para cada
artículo primario revisado. 

\begin{table} [htbp]\centering
    \caption{Desempeño de algoritmos de Aprendizaje Automático utilizados en
    los artículos primarios}
    \label{tab:alg-comp}
    \begin{tabular}
        {|p{0.20\linewidth}|p{0.30\linewidth}|p{0.15\linewidth}|p{0.25\linewidth}|}

        \hline
        \textit{Técnica} &
        \textit{Algoritmo} &
        \textit{Precisión} &
        \textit{Cita}
        \\ \hline

        Red neuronal &
        Multilayer perceptron &
        96.3\% &
        \autocite{Alwarthan2022107649}
        \\ \hline

        % revisar
        Decision Tree &
        Random Forest &
        96.7\% &
        \autocite{Alwarthan2022107649}
        \\ \hline

        Decision Tree &
        C4.5 &
        87\% &
        \autocite{Alwarthan2022107649}
        \\ \hline

        Red neuronal &
        Artificial Neural Network &
        83\% &
        \autocite{Kemper2020}
        \\ \hline

        % revisar
        Decision Tree &
        Random Forest &
        95\% &
        \autocite{Kemper2020}
        \\ \hline

        % revisar
        Decision Tree &
        Support Vector Machine &
        81\% &
        \autocite{Kemper2020}
        \\ \hline

    \end{tabular}
\end{table}


\subsection{Respuestas a la pregunta P4.}

% Tabla con los diferentes algoritmo usados.  Notar cual es el mejor segun los
% estudios citados.  Comparacion 

% Extension: ~ 1 pagina

% revisar eso de notas no estandarizadas, Kemper es crack
Se identifica la falencia de la confiabilidad de los datos trabajados,  por
ejemplo en \autocite{Alban2019} se utilizó data de encuestas a alumnos, que por
su naturaleza, están sujetas al enfoque subjetivo de cada encuestado.  La
segunda falencia identificada es el trabajar con notas no estandarizadas cuando
se procesan datos de varias carreras \autocite{Kemper2020}.  Distintos
estándares de calificación en cada carrera pueden afectar al modelo.
Finalmente, se identifica que algunos estudios no se cuenta con un
\textit{dataset} grande, \autocite{Alvarez2020} cuenta con data de solo 456
estudiantes, y \autocite{Moreira2022} con 331 estudiantes.

Debilidades:

\begin{itemize}
    \item
        Limitada capacidad para generalización.  Los modelos trabajados
        no pueden ser directamente aplicados a todas las instituciones y
        contextos educativos, ni a todas las poblaciones estudiantiles \autocite{Alwarthan2022107649}.
    \item
        Calidad de la data y disponibilidad.  La presición de los modelos de predicción
        dependen altamente de la calidad e integridad de la data disponible
        \autocite{Kemper2020, Alwarthan2022107649, Perez202157}.
    \item
        Limitada capacidad de explicación de los modelos.  Entender 
        la lógica detrás de cada predicción realizadas por algunos modelos de 
        Aprendizaje Automático, como una ANN, puede ser dificil \autocite{Alwarthan2022107649}
\end{itemize}

Oportunidades de mejora:

\begin{itemize}
    \item
        Incorporar fuentes de datos más diversas podría mejorar las predicciones \autocite{Alwarthan2022107649}.
    \item
        Utilizar modelos explicables de Aprendizaje Automático para mejorar
        la interpretación y confianza de las predicciones
        \autocite{Kemper2020, Alwarthan2022107649, Perez202157}.
    \item
        Desarrollar modelos que puedan ser adaptables a difrentes contextos educativos
        y poblaciones estudiantiles \autocite{Alwarthan2022107649}.
\end{itemize}



\section{Conclusiones}

% En base a los documentos revisados... (8 lineas, juntar en 2 parrafos)

En conclusión, la predicción de la deserción estudiantil universitaria es un tema de investigación complejo, ya que los factores que influyen en la deserción pueden variar considerablemente entre diferentes contextos y poblaciones estudiantiles.  Los estudios analizados en esta revisión han identificado diversas variables relevantes, como la edad del alumno, el rendimiento académico, el género, el estatus socioeconómico y las variables pre-admisión, como el puntaje SAT o el GPA.

En la literatura, se han empleado varias técnicas y algoritmos de aprendizaje automático para predecir la deserción estudiantil, incluyendo árboles de decisión, clasificación bayesiana, redes neuronales y regresión logística.  Obteniendo resultados bastante prometedores, con coeficientes de determinación de hasta 97 \% (como los mecionados en \autocite{Kemper2020}).  Sin embargo, estos modelos tienen limitaciones en cuanto a su capacidad de generalización y explicación (\textit{explainability}) y dependen en gran medida de la calidad e integridad de los datos disponibles.

Las debilidades identificadas en los estudios incluyen la limitada capacidad para la generalización de los modelos, la calidad y disponibilidad de los datos y la limitada capacidad de explicación de algunos modelos de aprendizaje automático.  Para abordar estas debilidades, se sugiere incorporar fuentes de datos más diversas, utilizar modelos explicables de aprendizaje automático y desarrollar modelos adaptables a diferentes contextos educativos y poblaciones estudiantiles.  Al abordar estas áreas de mejora, los investigadores y las instituciones educativas podrán desarrollar modelos de predicción más precisos y útiles para prevenir y abordar la deserción estudiantil universitaria.

% \begin{itemize}
%     \item
%         Los factores que mejor predicen la deserción estudiantil universitaria
%         son muy variados, y van a depender de la manera en la que se recolecten
%         los datos a analizar.
%     \item
%         Las precisiones alcanzadas en la literatura se encuentran alrededor del
%         90\%.  Se remarca que es posible llegar a una precisión de más del 85\%
%         tan pronto como finalizado el primer semestre del estudiante
%         \autocite{Kemper2020}.
%     \item
%         Las metodologías más utilizadas son KDD y CRISP-DM.  Sin embargo, varios
%         estudios describen la metodología que siguieron, pero no mencionan un
%         nombre en específico de su metodología.
%     \item
%         Los algorítmos más utilizados y con mejores resultados son
%         \textit{Random Forest}, \textit{C4.5}, y \textit{Multilayer perceptron}.
%         Siendo los dos primeros técnicas de clasificación utilizando
%         \textit{Decision Trees} y el tercero utilizando redes neuronales.
%     \item
%         Dentro de las falencias identificadas se recalca la importancia de la
%         confiabilidad y objetividad de los datos a analizar, y el tamaño del
%         \textit{dataset}.
% \end{itemize}