“La nueva inteligencia artificial está basada en deep learning y este está casi totalmente fundamentado en el aprendizaje supervisado”. Yann Lecun acaba de entrar en escena. El premio Turing, profesor de la Universidad de Nueva York y científico jefe en el departamento de investigación en inteligencia artificial de Facebook se dispone a poner los puntos sobre las íes a esa inteligencia que tienen las máquinas modernas, que tan pronto nos maravilla como nos defrauda. No está despeinado ahora y no va a estarlo dentro de sesenta minutos, cuando concluya su intervención en las TechTalks que organiza periódicamente la Association for Computer Machinery (ACM): los entresijos de la inteligencia artificial son para él tan obvios como para el común de los mortales es el funcionamiento de una rueda.
Primera parada: aprendizaje supervisado
“La idea de esto es que entrenas a una máquina con ejemplos supervisados, para distinguir, por ejemplo, imágenes de coches o aviones”, explica Lecun. Después se pone a prueba el sistema. Si no acierta, se ajustan los parámetros de la máquina, de manera que en la siguiente vuelta aumente la precisión. Después de haber estado expuestos a suficientes ejemplos y haber recibido suficientes ajustes, alcanzan rendimientos decentes. “Este sistema es muy exitoso en las áreas para las que hay muchos datos o bien estos son fácilmente recopilables. Por ejemplo, reconocimiento de texto, imágenes, caras, traducciones…”.
El origen de esta técnica está en el perceptrón, un algoritmo para el aprendizaje supervisado de clasificadores binarios. En 1957, Frank Rosenblat, padre del perceptrón, -que estaba pensado más como una máquina que como un programa-, explicaba su criatura en estos términos: “Podríamos hacer que el perceptrón aprenda los conceptos de cuadrado y círculo, y que encienda la luz 1 para los cuadrados y la 2 para los círculos. Después procederíamos a mostrar al sistema un amplio conjunto de cuadrados de diferentes tamaños en diferentes entornos al tiempo que mantenemos la luz 1, forzando así al sistema a responder. Después le mostraríamos un conjunto de círculos manteniendo la luz 2”. Perceptrón acababa siendo efectivo en lo suyo, pero poco adaptable a formas y conceptos más complejos. “Era lo que hoy llamaríamos una red neuronal de una sola capa”, señala Lecun.
Más y mejor: redes neuronales multicapa
La respuesta a estas limitaciones fueron las redes neuronales multicapa. “La razón de estas múltiples capas es el hecho de que el mundo de la percepción es esencialmente compositivo. De modo que los objetos están hechos de partes y las partes de subpartes que están hechas de combinaciones de límites en una imagen que a su vez está hecha de píxeles”, explica el profesor de la Universidad de Nueva York.
Esta matrioska es lo que nos obliga a buscar arquitecturas de múltiples capas, capaces de detectar rasgos relevantes en distintos niveles. “Si quieres reconocer un coche, es probable que sea buena idea tener algo capaz de detectar formas redondeadas, para poder determinar si hay ruedas en la imagen”, continúa Lecun. “Y todo esto se llama deep learning, únicamente porque hay múltiples capas. Es así de sencillo”.
Sin pistas: aprendizaje por refuerzo
El aprendizaje supervisado no es la única aproximación a las máquinas moderadamente inteligentes. Otra posibilidad es lo que se conoce como aprendizaje por refuerzo: “Este sistema es fascinante porque a diferencia de lo que ocurre con el aprendizaje supervisado, no necesitas decir a la máquina cuál es la respuesta correcta”, precisa. La estrategia en este caso es que el sistema interactúe un gran número de veces con el entorno en cuestión para lograr el aprendizaje.
¿Dónde está el problema? En que estas cosas llevan tiempo, incluso para conceptos relativamente simples. “Por ejemplo, para entrenar a una red neuronal profunda para jugar a juegos de Atari, la pones a mirar la pantalla y a jugar muchos juegos y va deduciendo qué acciones tomar para maximizar la puntuación, pero toma unas 83 horas alcanzar el rendimiento que cualquier humano puede alcanzar en 15 minutos de juego”, explica Lecun. Incluso en los avances más recientes y sofisticados, como el caso de AlphaStar, el programa creado por DeepMind para jugar a Starcraft II, el tiempo de entrenamiento resulta desorbitado: la victoria costó el equivalente a 200 años de entrenamiento en tiempo real (el truco es que los agentes artificiales desarrollaron su aprendizaje en un entorno de juego con el ritmo acelerado).
“Estos sistemas son prácticos, por ejemplo, para enseñar a un robot a asir objetos, o a un coche a conducir solo. El coche tendría que conducir millones de horas y caer por un precipicio varios miles de veces para aprender a evitarlo”, precisa el profesor. El problema es que estas máquinas no nacen albergando en su interior un modelo del funcionamiento del mundo: lo construyen a base de ensayo y error. “Esto es una de las limitaciones de las aproximaciones actuales a la inteligencia artificial“.
¿Cómo lo hacen los humanos? Aprendizaje autosupervisado
La respuesta a esta cuestión es, tal vez, la clave para derrumbar la barrera que suponen las limitaciones del aprendizaje por refuerzo. “Los bebés aprenden fundamentalmente a través de la observación. Mi propuesta es lo que llamo aprendizaje autosupervisado. La idea es entrenar a una red neuronal muy grande para entender el mundo a través de la predicción”, avanza el experto.
Por ejemplo, ante una porción de un vídeo, este sistema tendría que ser capaz de determinar lo que va a ocurrir a continuación. “En este modelo no hay etiquetas externas asignadas por humanos”, señala Lecun. Parte del input sirve de entrenamiento para predecir el resto y avanzar en el aprendizaje.
El aprendizaje autosupervisado ya se emplea con cierto éxito en contextos de procesamiento del lenguaje natural, pero pierde fuelle cuando se enfrenta a imágenes. La clave es que en el caso del lenguaje, las posibilidades son en cierto sentido finitas, pero cuando la información es visual, aumenta la incertidumbre. Lecun pone el ejemplo de una niña que se dispone a soplar las velas de su tarta de cumpleaños. Cuando llega el momento de que el sistema proponga un resultado para la acción, la imagen se torna borrosa. “El sistema no sabe realmente qué va a ocurrir, así que predice la media de todos los futuros escenarios posibles”.
La imaginación de la máquina: entrenamiento adversarial
Para que la máquina aprenda lo que pasa cuando una niña rodeada de niños se inclina sobre una tarta coronada por una vela encendida, necesitamos el trabajo conjunto de dos redes neuronales. Una se encarga de generar escenarios y la otra de determinar cómo de probables o auténticos son. Ambas redes se entrenan mutuamente: una es cada vez más verosímil, la otra es cada vez más difícil de engañar.
Estos sistemas también los hemos visto en acción: inventando caras, creando nuevos patrones para estampados de ropa e incluso en los coches autónomos, determinando cuál es la trayectoria más probable para el resto de los vehículos. “La generación y reconstrucción de imágenes es un área fascinante, los modelos generativos de los últimos años han traído muchísimos progresos a este campo. Esto podría ser la clave para resolver el problema de la incertidumbre en los modelos predictivos. Si podemos resolver esto, tendremos una herramienta para hacer progresos significativos en el mundo de la inteligencia artificial”, explica Lecun. Según él, al final de todos estos avances las máquinas subirían un escalón clave en su aproximación al ser humano: podrían desarrollar algo parecido al sentido común.
Fuente: Retina