Predecir cuál será el mejor candidato para recibir un trasplante de órganos, saber si el cliente de un banco devolverá el préstamo que quiere pedir, conocer la tasa de curación de un medicamento, acertar las películas que mejor encajan con los intereses los consumidores o, incluso, elegir la pareja ideal para una persona que busca.

Son algunos ejemplos de lo que pueden hacer los algoritmos matemáticos, que analizan constantemente millones de datos, identifican patrones y hacen predicciones que se aplican a cualquier ámbito de la vida. Pero también tienen sus limitaciones: en la mayoría de los casos los resultados no van más allá de dar una predicción cerrada, que no se puede interpretar y muchas veces está condicionada por sesgos que ya existen en los mismos datos de origen.

Ahora, un equipo investigador del grupo de investigación SEES:lab, del departamento de Ingeniería Química de la Universitat Rovira i Virgili (URV) e ICREA, ha dado un paso adelante con el desarrollo de un nuevo algoritmo que es capaz de realizar predicciones más precisas y generar modelos matemáticos que, además, permiten comprender las propias predicciones y los resultados. Los resultados se publican en la revista Science Advances.

"El objetivo de nuestro estudio era crear lo que llamamos un robot científico, es decir, un algoritmo que pueda aplicar el conocimiento y la pericia que tiene un investigador a la hora de interpretar los datos", explica Marta Sales-Pardo, una de las autoras de esta investigación.

Los resultados que aporta el algoritmo tienen la particularidad de que son interpretables. "Es como si alguien hubiera elaborado una ley o una teoría sobre el sistema que se está estudiando. El algoritmo te da las relaciones matemáticas que hay entre las variables que ha analizado y lo hace de forma autónoma", añade Roger Guimerà, investigador ICREA del mismo grupo.

Probar modelos y aprendizaje automático

Cuando una empresa tiene muchos datos y los quiere explotar, puede hacerlo contratando a una persona experta que pruebe diferentes modelos, proponga fórmulas y vea qué funciona mejor a partir de los diversos experimentos que tendrá que hacer para validarlos. Con ello obtendrá una fórmula matemática que permitirá modelizar el sistema, pero implicará una inversión importante de tiempo y dinero.

Otra posibilidad es recurrir a una persona especialista en aprendizaje automático (machine learning), una disciplina científica del ámbito de la inteligencia artificial que crea sistemas que identifican patrones complejos entre millones de datos, aprenden de forma automática y dan como resultado un modelo de 'caja negra' que permite hacer predicciones. Pero estos sistemas no aportan ninguna otra información y si la predicción falla no se podrá saber dónde se ha producido el error ni qué se puede hacer para evitarlo.

El algoritmo desarrollado en la URV coge lo mejor de ambos casos: procesa los datos de forma automática, rápida y fiable, como hace el sistema de aprendizaje automático, y además da como resultado un modelo interpretable, como lo haría el científico.

Se puede aplicar para analizar e interpretar datos de cualquier ámbito en un proceso mucho más ágil y eficiente de los que existen hasta ahora, aunque el verdadero valor añadido es la información que este sistema aporta.

"En el ámbito de la medicina, por ejemplo, si tienes que tomar una decisión basada en datos es muy importante conocer el porqué de cada decisión y cuál es el riesgo de fallar", explica Guimerà.

"Aunque este algoritmo también ha demostrado que es muy preciso, lo más importante es la posibilidad de comprender los resultados, de haber desarrollado un científico automático que es capaz, sin ningún conocimiento previo, de coger una serie de datos y desarrollar una teoría que resuelve el problema que se le plantee", añade Ignacio Reichardt, también investigador del equipo.

En este estudio, el algoritmo se ha aplicado a un problema fundamental de física de fluidos con la colaboración del grupo de investigación Experimentación, Computación y Modelización en Mecánica de Fluidos y Turbulencia del Departamento de Ingeniería Mecánica de la URV.

Referencia bibliográfica:

R. Guimerà, I. Reichardt, A. Aguilar-Mogas, F. A. Massucci, M. Miranda, J. Pallarès, M. Sales-Pardo. "A Bayesian machine scientist to aid in the solution of challenging scientific problems". Sci. Adv. 6, eaav6971 (2020). DOI: 10.1126/sciadv.aav6971