La nueva técnica supera el problema de correlaciones espurias en la IA


Crédito: Steve Johnson/Universidad Estatal de Carolina del Norte
Los modelos de IA a menudo dependen de “correlaciones espurias”, tomando decisiones basadas en información poco importante y potencialmente engañosa. Los investigadores ahora han descubierto que estas correlaciones espurias aprendidas pueden rastrearse a un subconjunto muy pequeño de los datos de entrenamiento y han demostrado una técnica que supera el problema.
“Esta técnica es nueva porque se puede usar incluso cuando no tienes idea de qué correlaciones espurias confías la IA”, dice Jung-Eun Kim, autor correspondiente de A papel Sobre el trabajo y un profesor asistente de informática en la Universidad Estatal de Carolina del Norte.
“Si ya tiene una buena idea de cuáles son las características espurias, nuestra técnica es una forma eficiente y efectiva de abordar el problema. Sin embargo, incluso si simplemente tiene problemas de rendimiento, pero no entiende por qué, aún podría usar nuestra técnica para determinar si una correlación espuria existe y resuelve ese problema”.
Las correlaciones espurias generalmente son causadas por el sesgo de simplicidad durante el entrenamiento de IA. Los profesionales usan conjuntos de datos para entrenar modelos AI para realizar tareas específicas. Por ejemplo, un modelo de IA podría ser entrenado para identificar fotografías de perros. El conjunto de datos de entrenamiento incluiría imágenes de perros donde se le dice a la IA que un perro está en la foto.
Durante el proceso de entrenamiento, la IA comenzará a identificar características específicas que puede usar para identificar perros. Sin embargo, si muchos de los perros en las fotos usan collares, y debido a que los collares generalmente son características menos complejas de un perro que oídos o pieles, la IA puede usar collares como una forma simple de identificar perros. Así es como el sesgo de simplicidad puede causar correlaciones espurias.
“Y si la IA usa collares como el factor que usa para identificar perros, la IA puede identificar a los gatos con collares como perros”, dice Kim.
Las técnicas convencionales para abordar los problemas causados por correlaciones espurias dependen de que los profesionales puedan identificar las características espurias que están causando el problema. Luego pueden abordar esto modificando los conjuntos de datos utilizados para entrenar el modelo AI. Por ejemplo, los profesionales pueden aumentar el peso dado a las fotos en el conjunto de datos que incluyen perros que no usan collares.
Sin embargo, en su nuevo trabajo, los investigadores demuestran que no siempre es posible identificar las características espurias que están causando problemas, lo que hace técnicas convencionales para abordar las correlaciones espurias ineficaces.
“Nuestro objetivo con este trabajo era desarrollar una técnica que nos permita cortar correlaciones espurias incluso cuando no sabemos nada sobre esas características espurias”, dice Kim.
La nueva técnica se basa en eliminar una pequeña porción de los datos utilizados para entrenar el modelo AI.
“Puede haber una variación significativa en las muestras de datos incluidas en el entrenamiento. conjuntos de datos“Kim dice.” Algunas de las muestras pueden ser muy simples, mientras que otras pueden ser muy complejas. Y podemos medir cómo “difícil” se basa en cómo se comportó el modelo durante el entrenamiento.
“Nuestra hipótesis fue que las muestras más difíciles en el conjunto de datos pueden ser ruidosas y ambiguas, y es más probable que obligue a una red a confiar en información irrelevante que perjudica el rendimiento de un modelo”, explica Kim.
“Al eliminar una pequeña astilla del capacitación Datos que son difíciles de entender, también está eliminando las muestras de datos duros que contienen características espurias. Esta eliminación supera el problema de correlaciones espurias, sin causar efectos adversos significativos “.
Los investigadores demostraron que la nueva técnica logra resultados de última generación, mejorando el rendimiento incluso en comparación con el trabajo previo en modelos donde las características espurias eran identificables.
El documento revisado por pares, “separar correlaciones espurias con la poda de datos”, se presentará en la Conferencia Internacional sobre Representaciones de Aprendizaje (ICLR 2025), celebrado en Singapur del 24 al 28 de abril.
Más información:
Separación de correlaciones espurias con la poda de datos: OpenReview.net/pdf?id=bk13qfu8ru
Proporcionado por
Universidad Estatal de Carolina del Norte
Citación: La nueva técnica supera el problema de las correlaciones espurias en AI (2025, 10 de marzo) Recuperada el 11 de marzo de 2025 de https://techxplore.com/news/2025-03-technique-spurious-problem-ai.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.