
8 DICIEMBRE 2025-INTERNACIONAL- Un grupo de investigadores ha desarrollado una tecnología experimental llamada «mind captioning», que busca convertir en texto lo que una persona ve o recuerda, según se publicó en la revista Science Advances. El objetivo de esta técnica no es revelar secretos, sino describir de forma estructurada lo que ocurre en la mente del voluntario mientras observa imágenes o rememora escenas.
Cómo funciona la tecnología
En el estudio participaron seis voluntarios que se colocaron en un escáner de resonancia magnética mientras veían videoclips breves. La actividad cerebral registrada se conectó con modelos de lenguaje de inteligencia artificial, incluyendo ChatGPT 4o mini y 3.5, para generar descripciones en texto de lo que los participantes percibían. Estas frases detallan acciones, sujetos y ubicaciones, más allá de palabras individuales.

El proceso comienza con ejemplos de subtítulos asignados por observadores humanos, que luego se transforman en representaciones numéricas comprensibles para la IA. Cada voluntario tiene un decodificador personalizado que asocia los patrones de su actividad cerebral con estas representaciones, permitiendo que el modelo genere frases coherentes.
Los investigadores señalan que, aunque los textos generados no son perfectos, frecuentemente reflejan correctamente la estructura de las escenas. Por ejemplo, se puede identificar a un animal persiguiendo algo o a una persona sosteniendo un objeto, incluso si el modelo confunde algunos detalles, como llamar «lobo» a un perro. La técnica también permitió asociar correctamente los clips vistos, más allá del azar.
El estudio incluyó una fase en la que los participantes recordaban mentalmente escenas sin ver imágenes en pantalla. La tecnología pudo generar descripciones de los recuerdos, aunque con menor precisión que cuando observaban los videos. Esto muestra que el método puede reflejar contenidos mentales internos, además de percepciones visuales inmediatas.

Zonas cerebrales implicadas
El análisis indicó que las áreas visuales de alto nivel y zonas parietales del cerebro contienen información clave para decodificar el significado de las escenas. Las regiones sensoriales tempranas se asociaron con detalles visuales, mientras que las zonas superiores reflejaron relaciones y conceptos, lo que sugiere un procesamiento más semántico del cerebro.







