Test Aprendizaje Automático — Tests por temas

Autor: Ismael Sallami Moreno | Doble Grado en Ingeniería Informática y ADE

Batería de preguntas tipo test de la teoría de la asignatura Aprendizaje Automático. El cuestionario es acumulativo: cubre todos los temas de la asignatura y se amplía progresivamente conforme se avanza en el temario. Incluye el Tema 1 (Conceptos básicos), el Tema 2 (Aprendizaje supervisado, Partes I y II), el Tema 3 (Calidad de Datos, Partes I y II), el Tema 4 (Aprendizaje no supervisado), el Tema 5 (Aprendizaje profundo: fundamentos, Partes I y II), el Tema 6 (Aprendizaje profundo en distintos datos: redes convolucionales y Transformers) y el Tema 9 (Aspectos avanzados: XAI, AI Safety, OOD, causalidad y aprendizaje continuo).

Tema 1 - Conceptos básicos

1. ¿Qué describe mejor la validación cruzada k-fold?
2. En el aprendizaje por refuerzo, ¿cómo se denomina el sistema de aprendizaje?
3. ¿Cuál es la diferencia clave entre los enfoques Data Centric y Model Centric?
4. La tasa de error del modelo sobre casos nuevos no vistos se denomina...
5. La restricción de un modelo para simplificarlo y reducir el riesgo de sobreajuste se llama...
6. ¿Cuál de las siguientes es una tarea típica del aprendizaje no supervisado?
7. En el ejemplo del filtro antispam, ¿cuál suele ser la medida de rendimiento P?
8. Según Banko y Brill (2001), en un problema complejo de desambiguación del lenguaje natural...
9. ¿En qué tipo de problemas resulta especialmente útil el aprendizaje automático?
10. Descubrir que quienes compran salsa barbacoa y patatas fritas también suelen comprar filetes es un caso de...
11. Apriori y Eclat son algoritmos de...
12. Cuando solo una parte pequeña de los datos está etiquetada y el resto no, se habla de...
13. El AI Act es el marco regulatorio sobre inteligencia artificial impulsado por...
14. ¿Qué caracteriza al aprendizaje supervisado?
15. ¿Cuál es la descripción correcta del conjunto de datos Iris?
16. En la detección de anomalías, ¿cómo se entrena habitualmente el sistema?
17. ¿En qué consiste el aprendizaje basado en modelos?
18. PCA, Kernel PCA, LLE y t-SNE son técnicas de...
19. La exploración de grandes volúmenes de datos para descubrir relaciones no evidentes se denomina...
20. Cuando los datos de entrenamiento no representan bien los nuevos casos a los que se quiere generalizar, surge...
21. ¿Cuál es la proporción habitual para dividir los datos entre entrenamiento y test?
22. ¿Cuál de los siguientes es un algoritmo de agrupamiento (clustering)?
23. En la definición de Tom Mitchell (1997) con tarea T, experiencia E y rendimiento P, un programa aprende si...
24. ¿Qué afirma el teorema "No Free Lunch" (NFL) de David Wolpert?
25. En el aprendizaje por refuerzo, ¿cómo se llama la estrategia que indica qué acción elegir en cada situación?
26. ¿Cuál de los siguientes es un criterio para evaluar un modelo?
27. ¿Qué es el sobreajuste (overfitting)?
28. Según la definición de Arthur Samuel (1959), ¿qué es el aprendizaje automático?
29. En una tarea de regresión, las características de entrada (kilometraje, antigüedad, marca...) se llaman...
30. ¿Cuál es la diferencia entre clasificación y regresión?
31. ¿Cómo se denomina cada ejemplo individual del conjunto de entrenamiento?
32. La detección de fraudes con tarjetas de crédito se aborda habitualmente como un problema de...
33. ¿Qué caracteriza al aprendizaje no supervisado?
34. En clustering, ¿cuál es uno de los principales retos?
35. ¿Por qué es importante dedicar tiempo a la calidad y limpieza de los datos?
36. Segmentar a los clientes según sus compras para diseñar estrategias de marketing distintas es un caso de...
37. En el ejemplo del filtro antispam, ¿qué representa la experiencia E?
38. En la formalización del aprendizaje, ¿qué representa el riesgo R?
39. ¿Cuál de los siguientes es un algoritmo de aprendizaje supervisado?
40. Sobre el aprendizaje basado en instancias (por ejemplo, kNN), ¿qué afirmación es correcta?

Tema 2 - Parte I

41. En un clasificador binario, ¿cómo se define la precisión?
42. ¿Qué caracteriza a la ecuación normal en regresión lineal?
43. ¿En qué se diferencia el descenso de gradiente estocástico (SGD) del descenso por lotes?
44. El recall (sensibilidad o tasa de verdaderos positivos) se define como...
45. ¿Qué papel juega la tasa de aprendizaje (learning rate) en el descenso de gradiente?
46. ¿Cuál es la suposición característica del clasificador Naïve Bayes?
47. Sobre el compromiso precisión/recall al mover el umbral de decisión...
48. ¿En qué consiste la parada anticipada (early stopping)?
49. La regresión Softmax (logística multinomial)...
50. La regresión Elastic-Net (red elástica)...
51. Respecto al clasificador k-NN, ¿qué afirmación es correcta?
52. Sobre la regresión logística, ¿qué afirmación es correcta?
53. La curva ROC representa...
54. Una propiedad distintiva de la regresión Lasso es que...
55. ¿Por qué se garantiza que el descenso de gradiente alcance el mínimo global en regresión lineal?
56. ¿Qué es la puntuación F1?
57. La regresión Ridge se caracteriza por...
58. En la estrategia uno-contra-uno (OvO) con N clases, ¿cuántos clasificadores binarios se entrenan?
59. En un modelo de regresión lineal, ¿qué es el término de sesgo (θ₀)?
60. La estrategia uno-contra-todos (OvA/OvR) para clasificación multiclase consiste en...

Tema 2 - Parte II

61. Respecto a la complejidad computacional de las clases de SVM en Scikit-Learn...
62. ¿Por qué conviene escalar las características antes de entrenar una SVM?
63. En la regresión SVM, el objetivo es...
64. ¿Cuál es la diferencia entre bagging y pasting?
65. La idea central de un clasificador SVM lineal es...
66. Sobre Random Forests y Extra-Trees, ¿qué afirmación es correcta?
67. ¿Qué problemas presenta la clasificación de margen duro frente a la de margen blando?
68. El kernel RBF gaussiano se basa en...
69. En el contexto del boosting, un "aprendiz débil" (weak learner) es...
70. ¿En qué se diferencian Gradient Boosting y Stacking?
71. ¿En qué consiste el "truco del kernel" (kernel trick)?
72. Sobre la elección entre impureza de Gini y entropía en un árbol de decisión...
73. En una SVM de margen blando, ¿qué controla el hiperparámetro C?
74. ¿Por qué un árbol de decisión sin restricciones tiende a sobreajustar?
75. La eficacia de los métodos de ensemble se apoya en la idea de...
76. ¿Por qué los árboles de decisión se consideran modelos de "caja blanca"?
77. ¿Cómo funciona el algoritmo de entrenamiento CART?
78. ¿Qué caracteriza al algoritmo AdaBoost?
79. En la evaluación Out-of-Bag (OOB) de un ensemble de bagging...
80. En una SVM, ¿qué son los vectores de soporte?

Tema 3 - Parte I

81. Los filtros de ruido EF, CVCF e IPF comparten que...
82. El Iterative Partitioning Filter (IPF) se caracteriza por...
83. Convertir la edad numérica en categorías {joven, adulto, anciano} es un ejemplo de...
84. ¿Qué caracteriza a la normalización min-max?
85. ¿Cuál es el objetivo de la reducción de datos?
86. ¿Cuál es un objetivo de la etapa de limpieza de datos?
87. La normalización zero-mean (z-score) resulta especialmente útil cuando...
88. Totalizar las ventas mensuales en un único atributo de ventas anuales es un ejemplo de...
89. ¿Cuál de los siguientes es un método de imputación basado en aprendizaje automático?
90. ¿En qué consiste la normalización por escala decimal?
91. ¿Por qué es útil normalizar los atributos antes de aplicar ciertos algoritmos?
92. En el esquema de votación de un filtro de ruido, el voto por consenso...
93. En la integración de datos, ¿qué técnica permite detectar que un atributo es redundante?
94. ¿En qué se diferencia el Cross-Validated Committees Filter (CVCF) del Ensemble Filter?
95. ¿Qué caracteriza al Ensemble Filter (EF)?
96. ¿Cuál de las siguientes es una forma válida de tratar los valores perdidos?
97. ¿Cuándo se considera que un atributo es redundante?
98. En la limpieza de ruido, ¿cómo se clasifican los ejemplos respecto a la frontera de decisión?
99. La integración de datos consiste principalmente en...
100. Imputar los valores perdidos con la media del atributo...

Tema 3 - Parte II

101. ¿Cuál es un inconveniente del enfoque envolvente (wrapper)?
102. En selección de características, el enfoque de filtro (filter)...
103. ¿Cuál es el objetivo de la selección de instancias?
104. La incrustación lineal local (LLE) se caracteriza por...
105. ¿Por qué es útil la selección de características?
106. ¿Por qué no suele ser aceptable una búsqueda exhaustiva en selección de características?
107. El enfoque de proyección para reducir la dimensionalidad se apoya en que...
108. La búsqueda secuencial hacia delante (forward) en selección de características...
109. La búsqueda hacia delante (forward) suele ser preferible cuando...
110. ¿Cómo se evalúa habitualmente un algoritmo de selección de instancias para k-NN?
111. ¿Qué describe la "maldición de la dimensionalidad"?
112. La búsqueda secuencial hacia atrás (backward)...
113. ¿Cuál de los siguientes es un método de discretización supervisada?
114. ¿Qué hace el análisis de componentes principales (PCA)?
115. ¿Qué distingue a la discretización supervisada de la no supervisada?
116. La hipótesis de la variedad (manifold) sostiene que...
117. ¿En qué consiste la discretización?
118. El enfoque envolvente (wrapper) en selección de características...
119. ¿Por qué la discretización se considera también una técnica de reducción de datos?
120. La discretización en intervalos de igual frecuencia se caracteriza por...

Tema 4 - Aprendizaje no supervisado

121. ¿Cuál es una limitación conocida de k-means?
122. ¿Cómo define los clústeres el algoritmo DBSCAN?
123. El algoritmo mean-shift...
124. ¿Qué mide la inercia en k-means?
125. ¿Para qué escenario se diseñó específicamente el algoritmo BIRCH?
126. Una anomalía contextual se caracteriza por...
127. El clustering aglomerativo...
128. La estimación de densidad en aprendizaje no supervisado...
129. El índice Davies-Bouldin para evaluar un clustering...
130. ¿En qué se basa el Isolation Forest para detectar anomalías?
131. En DBSCAN, ¿qué es una instancia central (core)?
132. El índice de Dunn...
133. ¿Qué caracteriza al mini-batch k-means?
134. El coeficiente de silueta de una instancia...
135. ¿Cuál es una ventaja de DBSCAN frente a k-means?
136. La detección de anomalías basada en distancia (enfoque del vecino más próximo)...
137. ¿En qué consiste la tarea de clustering?
138. Una anomalía colectiva...
139. ¿Qué aporta la inicialización k-means++?
140. ¿Qué caracteriza a la propagación por afinidad (affinity propagation)?
141. La técnica del "codo" para elegir k consiste en...
142. El algoritmo Local Outlier Factor (LOF)...
143. El One-Class SVM (OCSVM) para detección de anomalías...
144. Una anomalía puntual es...
145. ¿De qué depende que k-means converja a una buena solución?
146. El clustering espectral...
147. ¿Por qué la inercia no sirve por sí sola para elegir el número de clústeres k?
148. ¿Cómo funciona el algoritmo k-means en cada iteración?

Tema 5 - Parte I

149. ¿Cómo calcula su salida una unidad lógica de umbral (TLU) del perceptrón?
150. Una capa en la que cada neurona está conectada a todas las entradas se denomina...
151. ¿Por qué es importante inicializar los pesos de las capas ocultas de forma aleatoria?
152. En el entrenamiento por retropropagación, una "época" es...
153. ¿Cómo se supera la incapacidad del perceptrón para resolver el XOR?
154. La función de activación ReLU...
155. ¿Por qué Rumelhart et al. sustituyeron la función escalón por la sigmoide en el MLP?
156. La función de activación tangente hiperbólica (tanh)...
157. ¿Cuál es una limitación fundamental de un perceptrón de una sola capa?
158. Para clasificación multiclase con clases excluyentes, la capa de salida del MLP usa...
159. La retropropagación (backprop) combina...
160. Un perceptrón multicapa (MLP) se compone de...
161. Para una clasificación binaria con un MLP, la capa de salida suele tener...
162. ¿Qué produce una neurona biológica para comunicarse con otras?
163. El paso hacia atrás (backward) de la retropropagación...
164. Para una regresión multivariante con un MLP...
165. El modelo de neurona artificial de McCulloch y Pitts...
166. La regla de aprendizaje del perceptrón (inspirada en Hebb)...
167. En el paso hacia delante (forward) de la retropropagación...
168. ¿Qué función de pérdida es habitual al entrenar un MLP de clasificación?

Tema 5 - Parte II

169. Un beneficio práctico de añadir batch normalization como primera capa es que...
170. La normalización por lotes (batch normalization)...
171. La función Leaky ReLU evita las neuronas muertas porque...
172. El gradiente acelerado de Nesterov se diferencia del momentum clásico en que...
173. La función de activación SELU resulta atractiva porque...
174. El optimizador con momentum mejora el descenso de gradiente porque...
175. La inicialización de He (Kaiming) está pensada especialmente para...
176. El recorte de gradiente (gradient clipping) se usa para...
177. El problema de las "ReLU moribundas" (dying ReLU) consiste en que...
178. El problema de los gradientes explosivos...
179. La técnica de regularización dropout...
180. El preentrenamiento no supervisado es útil cuando...
181. El problema de los gradientes que se desvanecen (vanishing gradients)...
182. AdaGrad y RMSProp se caracterizan por...
183. ¿Qué ventaja aporta la función de activación ELU frente a ReLU?
184. El MC dropout (Monte Carlo dropout)...
185. El aprendizaje por transferencia (transfer learning) consiste en...
186. La inicialización de Glorot busca que...
187. El optimizador Adam combina las ideas de...
188. Las funciones de activación GELU y Swish...

Tema 6 - Parte I (Redes convolucionales)

189. En una CNN, la profundidad de cada filtro convolucional...
190. El hiperparámetro stride en una convolución controla...
191. El resultado de aplicar un filtro convolucional sobre la entrada se denomina...
192. La conectividad dispersa de las capas convolucionales significa que...
193. El padding (por ejemplo, zero-padding) se utiliza para...
194. Para una entrada de tamaño N con filtro F, padding P y stride S, el tamaño de salida es...
195. Una capa convolucional es equivariante respecto a la traslación, lo que significa que...
196. La compartición de parámetros (weight sharing) en una CNN implica que...
197. ¿Qué es una operación de convolución en este contexto?
198. ¿Por qué se intercalan funciones de activación no lineales entre capas convolucionales?
199. Las capas totalmente conectadas (densas) en una CNN...
200. La operación de "flatten" en una CNN...
201. ¿Qué caracteriza a una red neuronal profunda (deep)?
202. Para un volumen de entrada de profundidad 3 y filtros de 3×3, ¿cuántos parámetros tiene cada filtro (con sesgo)?
203. Un autoencoder de eliminación de ruido (denoising autoencoder)...
204. La función softmax al final de una CNN de clasificación...
205. La "idea clave" de las CNN respecto a los filtros es que...
206. Una diferencia metodológica clave entre deep learning y machine learning clásico es que...
207. Una red neuronal convolucional (CNN/ConvNet) es...
208. La capa de pooling (por ejemplo, max-pooling)...

Tema 6 - Parte II (Transformers)

209. En la atención, a partir de cada embedding se generan tres vectores cuyo significado es...
210. La atención multi-cabeza (multi-head attention) permite...
211. Un bloque Transformer combina, esencialmente...
212. En self-attention...
213. En cross-attention...
214. ¿Qué distingue al decoder del encoder en un Transformer?
215. Las LSTM mejoran a las RNN gracias a...
216. La máscara causal de atención en la generación de texto sirve para...
217. El mecanismo de atención permite que...
218. El positional encoding se añade en un Transformer porque...
219. Antes de procesar una secuencia, una red neuronal convierte cada elemento en...
220. ¿Cuál es la principal dificultad de las RNN con secuencias largas?
221. La normalización de capa (Layer Normalization) en el Transformer...
222. Una red recurrente (RNN) procesa una secuencia...
223. Una secuencia (texto, audio, serie temporal) se caracteriza por...
224. Las conexiones residuales (Add) en el Transformer...
225. En la Scaled Dot-Product Attention, tras comparar queries con keys se aplica...
226. Una limitación que mantienen las LSTM es que...
227. ¿Cuál es un problema de usar una red densa para procesar secuencias?
228. Respecto al coste del mecanismo de self-attention...

Tema 9 - Parte I (Aspectos avanzados)

229. ¿Por qué se produce el olvido catastrófico?
230. La afirmación "AI safety ≠ AI security" significa que...
231. ¿Qué exige el EU AI Act a los sistemas de IA de alto riesgo?
232. La distinción entre OOD "near" y "far" se refiere a...
233. El método SHAP para explicabilidad...
234. ¿Cuál es uno de los motivos para usar XAI?
235. En el contexto de AI Safety, la robustez es...
236. Una idea habitual para detectar ejemplos OOD es que...
237. ¿Qué abarca el campo de la AI Safety (seguridad de la IA)?
238. El "shortcut learning" (aprendizaje por atajo) consiste en que el modelo...
239. ¿Cuál de los siguientes es una amenaza a la robustez de un sistema de IA?
240. La distinción local vs global en XAI se refiere a...
241. LoRA (Low-Rank Adaptation) aplicado al aprendizaje continuo...
242. El escenario "task-incremental" del aprendizaje continuo se caracteriza por...
243. ¿Por qué es importante la detección OOD?
244. En el caso clásico de helados y ahogamientos, la variable "calor" actúa como...
245. ¿Qué permite afirmar una relación causal más allá de la mera correlación?
246. ¿Por qué son peligrosas las correlaciones espurias en aplicaciones reales?
247. El machine unlearning aborda el problema de...
248. La técnica EWC (Elastic Weight Consolidation) combate el olvido...
249. La distinción pre-hoc vs post-hoc en XAI se refiere a...
250. El olvido catastrófico (catastrophic forgetting) ocurre cuando...
251. ¿Qué es la Inteligencia Artificial Explicable (XAI)?
252. La detección Out-of-Distribution (OOD) se ocupa de...
253. ¿En qué se basa el método LIME?
254. El causal discovery se utiliza cuando...
255. Que dos variables muestren una correlación positiva fuerte (como helados y ahogos) indica que...
256. La métrica Backward Transfer (BWT) en aprendizaje continuo...
257. La distinción agnóstico vs específico (model-agnostic vs model-specific) indica...
258. El escenario "class-incremental" es el más desafiante porque...
259. ¿Qué advierte el principio "correlación no implica causalidad"?
260. En el ejemplo de clasificar vacas y camellos, el modelo falla al predecir "camello" para una vaca en la playa porque...