Divulgación de la Ciencia: Aprendizaje automático

Aprendizaje automático

The same post in English

By popculturegeek.com
Originally posted to Flickr as Comic-Con 2004
Terminator statue, CC BY 2.0
https://commons.wikimedia.org

Como dije en un artículo anterior, el aprendizaje automático es una de las áreas de la inteligencia artificial débil en la que se viene trabajando desde hace al menos 40 años. Estrictamente hablando, el aprendizaje automático, más que un campo de aplicación, es una metodología o técnica que utilizan otros campos de aplicación, como las redes neuronales, los sistemas expertos o el análisis de datos. El aprendizaje automático se divide en dos grandes ramas:

Aprendizaje automático supervisado: es el que se ha usado con más frecuencia hasta ahora y le vamos a dedicar casi todo este artículo.
Aprendizaje automático no supervisado: está relacionado con el campo denominado usualmente Minería de Datos y últimamente se le ha hecho mucha propaganda en los medios de comunicación, en relación con un programa (AlphaGo Zero) que ha alcanzado un nivel equiparable al del campeón del mundo del juego llamado Go, aprendiendo solo (al final de este artículo hablaré algo más respecto a esto).

Red neuronal de cuatro capas

Para explicar el aprendizaje automático supervisado voy a tomar como ejemplo un sistema experto concreto desarrollado por medio de esta técnica. Se trata de un sistema que está empezando a utilizarse en la práctica para ayudar a los jueces de primera instancia a decidir si deben enviar a prisión preventiva a los acusados de un delito, teniendo en cuenta la posibilidad de que dichos acusados cometan nuevos delitos si los dejan en libertad provisional, y también el coste de la prisión preventiva para las arcas públicas (ambos criterios son opuestos, pues cuantos más acusados sean enviados a prisión, menos reincidencias se producirán, pero mayor será el coste). El procedimiento que se utilizó para construirlo, y que voy a explicar aquí, fue ideado hace más de 30 años y se aplica también en otros campos, como por ejemplo, el de las redes neuronales.

El sistema de aprendizaje automático está formado por dos algoritmos:

Un algoritmo que intenta resolver el problema de que se trate (en nuestro caso, si se debe enviar al acusado a prisión preventiva o no) de forma determinista, en función de un conjunto de parámetros (pueden ser miles) cuyo valor concreto se deja abierto. Obviamente, si este algoritmo no está bien diseñado, el sistema final no podrá funcionar bien.
Un segundo algoritmo –llamado de aprendizaje− cuyo objetivo es ajustar los parámetros del primer algoritmo, cuyo valor quedó sin especificar, de tal modo que el sistema funcione de la mejor forma posible.
Para ayudar al segundo algoritmo a ajustar los parámetros del primero, se dispone de un conjunto de casos reales muy grande. En el sistema experto jurídico fueron cientos de miles. Todos esos casos se presentaron en algún momento ante un juez humano que tomó una decisión, y se posee también información sobre cuáles fueron las consecuencias (si dejó libre a un acusado, si reincidió o no durante su libertad provisional) junto con los datos personales del acusado y su historial.
Los casos históricos disponibles se dividen en dos grupos: los casos de entrenamiento, que se le proporcionan al primer algoritmo junto con el resultado obtenido, y el segundo algoritmo ajusta los valores óptimos de los parámetros del primero para que el número de casos cuyo resultado fue correctamente previsto sea lo mayor posible. El segundo grupo son los casos de validación. Una vez ajustados los parámetros del primer algoritmo, se le someten estos nuevos casos sin darle el resultado obtenido en la vida real, para ver si los resultados que predice son comparables a los reales. Si esto es satisfactorio, el primer algoritmo (en nuestro caso el sistema experto de ayuda a los jueces) puede considerarse completado y se puede utilizar en la práctica, desvinculado del algoritmo de aprendizaje, que ya no hace falta. Si el resultado no resulta aceptable, será preciso empezar de nuevo utilizando algoritmos diferentes, ya sea el de resolución o el de aprendizaje, de los que hay muchos tipos, aunque ninguno de ellos es mejor que los demás en todos los casos posibles, según demuestra el teorema del no-free-lunch, que podríamos traducir así: nada es gratis en este mundo.

Este tipo de aprendizaje se llama supervisado porque el ajuste de los parámetros tiene lugar a partir de un conjunto de casos cuya solución se conoce. En el caso de una red neuronal, los parámetros son los pesos de todas las conexiones de la red.

Veamos ahora el programa AlphaGo Zero, que alcanzó recientemente un nivel elevadísimo en el juego del Go. ¿Qué diferencia hay en este caso respecto al aprendizaje supervisado?

En primer lugar, los dos algoritmos, de ejecución y de aprendizaje, están unidos en uno solo.
En segundo lugar, en lugar de partir de un conjunto de datos de entrenamiento, el programa los genera automáticamente jugando contra sí mismo. Por eso precisamente se llama aprendizaje no supervisado.

El logro –que es importante− se ha presentado en la prensa como el principio de una revolución en los procedimientos de aprendizaje que se utilizan. Hay que tener en cuenta, sin embargo, que el campo de los juegos de ordenador es muy a propósito para este tipo de algoritmos. En primer lugar, el resultado de cada caso concreto es muy simple (la partida se gana o se pierde), y los casos de entrenamiento se pueden generar automáticamente de forma sencilla, haciendo que el programa juegue contra sí mismo.

Es de esperar que surjan programas parecidos especializados en juegos diferentes (¿quizá el ajedrez?). Pero es evidente que no se puede aplicar este procedimiento a casos más reales, como el sistema experto jurídico. ¿Cómo podría el programa generar sus propios casos, y cómo podría saber cuál fue el resultado práctico de la decisión? De ninguna manera. Lo que tenemos aquí es un nuevo procedimiento de aprendizaje, que sólo se puede aplicar en situaciones muy concretas y determinadas. Los medios, como de costumbre, han lanzado las campanas al vuelo antes de tiempo.

Hilo Inteligencia natural y artificial: Anterior Siguiente

Manuel Alfonseca

11 comentarios:

JL7 de diciembre de 2017, 13:39
En efecto y como bien señala el tipo de entrenamiento no supervisado solo es posible en mundos cerrados, cuyas reglas sean fijas y resultado univoco.

Esto es así incluso en juegos donde el azar intervenga en algún momento, como en el reparto de fichas en el juego del dominó, donde también se puede emplear con éxito esa técnica. Considero que siempre será mejor dotar al sistema de al menos una primera parte de aprendizaje supervisado, podríamos decir “leyes” casi sin excepción pero no explícitas en las reglas del juego, para que el aprendizaje sea mucho más rápido aunque como experimento el no supervisado exclusivo sea una opción interesante. Está claro que si al sistema le indicas que en el ajedrez regalar de principio la dama suele conducir al desastre se evitarán miles de millones de pruebas infructuosas y por tanto innecesarias.

En mi libro “El arte del dominó: teoría y práctica” (Paidotribo) introduje técnicas matemáticas y probabilísticas dentro del juego, con varios programas incluidos en el CD adjunto de simulación de IA creo que bastante convincentes. En el momento actual estoy trabajando en la resolución exacta de dicho juego, que por tanto sustituirá el tipo de aprendizaje estilo IA por puras ecuaciones a resolver, sin más.

Esto me ha parecido más complejo en otros juegos que he programado, como las damas, el othello, bag chal y otros, cuya explosión combinatoria hace más complejo el encontrar la “fórmula” que los resuelva; el dominó y por ejemplo los naipes (como quedó patente en mi juego múltiple “Cartas 2000”), son tipos de mundos más factibles para encontrar “fórmulas” aunque parezca más extraño dado que en ellos también interviene el azar, como en la vida misma.
Muy interesantes todos sus temas sobre IA, que estoy descubriendo ahora (solo hace días que conozco su estupendo blog) y seguiré leyendo con atención.

José Luis González Sanz
ResponderEliminar
Respuestas
JL8 de diciembre de 2017, 20:31
Saludos de nuevo,

Aunque fuera de tema propuesto le quiero preguntar si al respecto de sus artículos y trabajos publicados en revistas extranjeras, etc. (en su enlace UAM) con o sin colaboración, existen también traducidos al español y donde, lo que sería de gran ayuda.

Gracias por su atención.

José Luis González Sanz
ResponderEliminar
Respuestas
Marc Pesaresi9 de diciembre de 2017, 15:20
Profesor, estamos discutiendo aquí y queremos hacerle una consulta: ¿por què construir robots tan complicado que resulta su manufactura? ¿No sería mejor crear replicantes a base de ADN mejorado o algo por el estilo? Es que acabamos de ver la última de Blade Runner y estamos en ese dilema. Saludos desde la Patagonia.
ResponderEliminar
Respuestas

Añadir comentario

Los comentarios nuevos no están permitidos.