¿Te ha pasado que estás viendo una película o video y la voz sale desplazada y no concuerda con la imagen? Esto es frustrante, estamos escuchando bien, estamos viendo bien, pero aun así sentimos inconformidad. El mensaje auditivo no tiene ningún cambio, el visual tampoco. Solo es un desfase entre ambos estímulos que provoca que el cerebro no sepa si debe fusionarlos o dejarlos como elementos separados. Te cuento esto porque quiero que entiendas que no se trata solo de una buena agudeza visual o auditiva, sino también de un procesamiento sincronizado entre ambas vías. Y esto no es algo extraordinario, bueno, quizás en video lo detectemos rara vez, pero en realidad, los sonidos y las imágenes no llegan al cerebro al mismo tiempo, entonces ¿por qué no sentimos esa confusión siempre? Porque el cerebro desarrolló un mecanismo que le permite tolerar cierto destiempo entre lo que se oye y lo que se ve.
La luz viaja a una velocidad mucho mayor que la del sonido en el aire, por lo que puede haber desfase en la recepción de los estímulos. Imagina a un niño rebotando una pelota de básquet a 34 metros de distancia, vez la pelota rebotar pero el sonido de ese rebote llega 100 milisegundos después. Si el cerebro necesitara que los dos estímulos llegaran al mismo tiempo, muchas cosas que vemos en el entorno no se integrarían y nos causarían mucha confusión. Y no es solo la velocidad de desplazamiento la señal en el aire, el nivel de procesamiento así como las estaciones de análisis y filtrado son distintos en audición y visión, esto hace que también haya diferencia de tiempo entre lo que procesamos. Afortunadamente, el cerebro ha desarrollado un mecanismo que le ayuda a clasificar mejor los estímulos que provienen de una misma fuente y los que no, es un mecanismo cerebral que tolera un desfase de milisegundos entre uno y otro estímulo y que permite seguir percibiéndolos como de una misma fuente, es lo que se llama la Temporary Binding Window (ventada temporal de integración, TBW). Para entender a plenitud la TBW es necesario primero comprender el concepto de integración audiovisual.
¿Qué es la integración audiovisual y por qué el tiempo importa? La percepción, a nivel cerebral, no se trata de procesar información visual, auditiva, táctil, etc. por separado, se busca construir una respuesta unificada, una representación integral de nuestro entorno. Además de estrategias estadísticas, el cerebro se apoya en la fusión de estímulos bimodales que llegan con un desfase entre sí de determinados milisegundos. Es decir, para el cerebro, un estímulo visual y uno auditivo podrían entenderse de la misma fuente si llegan a ser percibidos dentro de un rango de tiempo corto, si pasa más tiempo entre un estímulo y el otro ya el cerebro no los verá como de una misma fuente sino como elementos individuales. Sobre este procesamiento y esta integración, se ha señalado que el colículo superior y las áreas temporales superiores son las regiones sustanciales de esta integración. Esa integración no es solo sumar canales y ya, se ha visto que la activación cerebral no es sumatoria cuando la señal es audiovisual en comparación a cuando es solo visual o solo auditiva, hay un reforzamiento de la señal cuando se integran las dos modalidades, se construye una representación unificada. Algo interesante es que la integración se da más fácilmente cuando los estímulos son débiles en su forma unimodal, es lo que los científicos llaman inverse effectiveness.
Entendiendo que la integración audiovisual es esa capacidad del cerebro para procesar estímulos visuales y auditivos como de una misma fuente, podemos hablar de ese lapso de integración, esa ventana de fusión sensorial, es lo que se conoce como la ventana temporal de integración (TBW). Este lapso, esta ventana, no es igual con todos los estímulos, por ejemplo, si la señal es simple como un flash y un bip el lapso de integración es más reducido, quizás de unos 160 ms aproximadamente, mientras que la ventana de integración con estímulos tan complejos como el habla puede ser de 250 ms. O sea, si el estímulo auditivo se detecta con un retraso menor a los 250 ms en comparación con el estímulo visual, el cerebro podrá identificarlos como de la misma fuente, pero si la señal auditiva tarda más tiempo, entonces no los integrará.
Hay dos tareas clásicas con las que se miden estos lapsos, esta integración audiovisual. Los juicios de orden temporal son un paradigma de evaluación en el que se presentan dos estímulos, uno auditivo y otro visual, casi al mismo tiempo, y se le pide que reporte cuál fue primero. Otro es el juicio de simultaneidad, se presentan estímulos bimodales de forma aleatoria, algunos se presentan al mismo tiempo y otros desplazados uno de otro, en este caso la persona debe indicar si fueron al mismo tiempo o no. La precisión de las respuestas dependerá de qué tan amplia o estrecha sea la TBW.
Hay un efecto, relacionado totalmente con la integración audiovisual, que fue el motivo de mi primer artículo en una revista académica, el efecto McGurk. Es un fenómeno que se ha estudiado cabalmente en el campo de las neurociencias cognitivas y de la percepción. Consiste en que se presenta el video de una persona articulando la sílaba «ga», mientras que lo que suena en el audio es la voz de esa persona pronunciando la sílaba «ba». Este desconcierto provoca que el sujeto del estudio perciba que se está diciendo «da». Algo muy relevante de este fenómeno es que demuestra que efectivamente la visión juega un papel importante proveyendo pistas necesarias para comprender el habla. Este efecto es útil como herramienta de estudio de la integración audiovisual porque es susceptible al desfase temporal, es decir, para que funcione el efecto, los estímulos tienen que estar dentro del TBW del individuo.
La ventana temporal de integración no es la misma en todas las personas, hay valores estándar pero también se ha visto que esta ventana se encuentra aumentada en casos de neurodivergencias, como en el trastorno del espectro autista (TEA). Es importante entender que en esta población las alteraciones sensoriales están hoy día reconocidas como parte del criterio diagnóstico, y no como un mero epifenómeno. Para entender por qué tendría sentido el encontrar una ventana temporal de integración alterada en el autismo, conviene revisar brevemente tres modelos neurobiológicos, que para mí son los que mejor explican la situación en el cerebro. No son teorías rivales entre sí, algunos las consideran complementarias, son tres miradas de un mismo fenómeno pero desde escalas diferentes, y curiosamente las tres convergen en el problema del tiempo.
El primer modelo es la hipótesis de la conectividad atípica, que propone pensar el autismo como una especie de síndrome de desconexión. Los estudios de neuroimagen han mostrado un patrón interesante: las conexiones de largo alcance (las «autopistas» que unen regiones distantes en el cerebro, como corteza frontal con sensoriales posteriores, o un hemisferio con el otro) tienden a funcionar con menor eficiencia. En contraste, las conexiones locales, las que comunican neuronas vecinas dentro de una misma región, parecen estar aumentadas. Este doble patrón, que pareciera contradictorio, ayuda a explicar una paradoja clásica en el autismo: el rendimiento tiene a ser superior en tareas que exigen detalle fino, y el rendimiento se encuentra comprometido cuando son tareas que requieren integrar información global. Esto tiene una consecuencia directa para el tema que estamos hablando aquí: la integración multisensorial depende de que las áreas auditivas, visuales y de asociación trabajen coordinadas en una ventana de tiempo muy precisa. Si esa comunicación, que suele darse entre áreas distantes, llega atenuada o desfasada, el cerebro tendrá más dificultad para poder decidir si dos señales pertenecen al mismo evento, y termina compensando con una ventana más ancha, más permisiva, y como decíamos más atrás, una ventana muy amplia provoca confusión.
El segundo modelo desciende a nivel celular. Es la hipótesis entre excitación e inhibición, formulada a inicios de este siglo. En un cerebro neurotípico, las redes neurales operan gracias a un balance finamente calibrado entre dos fuerzas: la excitación (mediada por glutamato), y la inhibición (mediada por GABA). Las neuronas inhibitorias no son meros frenos, son las que esculpen la actividad cortical, pues silencian lo relevante y, sobre todo, definen ventanas temporales precisas de disparo (señal neuronal). Son también las que sostienen las oscilaciones gamma, ese ritmo rápido que muchos consideran el mecanismo por el cual el cerebro «amarra» los rasgos de un mismo objeto o evento en una experiencia unificada. En el autismo, la evidencia genética, post mortem, espectroscópica y electrofisiológica apunta a un sesgo hacia la excitación: menos inhibición efectiva, oscilaciones gamma alteradas. Con esto entendemos algo: sin la inhibición adecuada, las neuronas permanecen activas más tiempo del necesario, y entonces la ventana de integración se ensancha casi por necesidad.
El tercer modelo es el del ruido neural aumentado. La idea es que el cerebro autista procesa información con mayor variabilidad intrínseca. Si uno mide la respuesta cerebral a un mismo estímulo que es presentado muchas veces, la respuesta promedio puede verse normal, pero la dispersión alrededor de esa media es mayor, hay más «ruido» en el sentido de que hay más fluctuación de fondo que compite con la señal relevante. El detalle crucial en estos casos es que ese ruido es acumulativo, es decir, se va amplificando a medida que la información asciende por la jerarquía del procesamiento. Es por esto que las dificultades unisensoriales puras en el autismo suelen ser sutiles, mientras que las dificultades integrativas se vuelven mucho más notorias, pues trabajan sobre señales ya degradadas en niveles previos. La ventana temporal de integración audiovisual es exactamente ese tipo de operación de alto orden que es vulnerable al ruido heredado de etapas anteriores o previas.
Me parece interesante que estos tres modelos, que salieron de forma independiente, terminan contándonos la misma historio pero en distintos idiomas. A nivel celular hay un desbalance entre excitación e inhibición. A nivel de redes, ese desbalance se traduce en una conectividad atípica. Y a nivel funcional, todo ello se expresa como un procesamiento más ruidoso. Los tres caminos conducen al mismo lugar: un procesamiento temporal menos preciso. Desde esta perspectiva, encontrar una ventana temporal de integración ampliada en el autismo no es un hallazgo caprichoso, es, más bien, la consecuencia perceptual que cabría esperar.
En el autismo, según se ha reportado ya de forma convincente, se da una ampliación de la TBW, principalmente cuando son relacionados con estímulos del habla. Esto quiere decir que su cerebro sigue uniendo estímulos que tienen un tiempo de desfase mayor, si el límite en una persona neurotípica es de 250ms, en una persona neurodivergente podría ser el doble. Esto significa que se estarían tomando como provenientes de un mismo evento estímulos que aparecen con mucho tiempo de diferencia uno de otro. Esto puede provocar dificultades en la comprensión del habla entre otras cosas. En los estudios, este fenómeno se ha visto más marcado cuando son estímulos complejos como el habla que cuando son simples (bip y flash).
Hasta el momento, el estudio de la integración audiovisual ha sido predominantemente abordada en la ciencia y en la investigación, pero no en el ámbito clínico. Y esto es importante considerarlo, pues una ventana imprecisa no es un dato de laboratorio, tiene implicaciones funcionales. Si el sistema une el audio y el «video» de dos estímulos que no pertenecen juntos, la percepción del habla se degrada (la lectura labiofacial pierde eficacia), la comunicación social se vuelve más costosa, y el aprendizaje que depende de asociar letras con sonidos (base para la lectura) se resiente. Este fenómeno también se ha descrito en la dislexia, y se podría sugerir alguna influencia de este en la capacidad lectora.
A nivel cerebral, una ventana ampliada podría presentar una conectividad atípica entre cortezas sensoriales primarias y las áreas de asociación, como el surco temporal superior (clave en la integración), también se reportan alteraciones del tálamo que es un centro de relevo multisensorial, con disrupciones en los osciladores neuronales que segmentan el tiempo perceptual. Esta es una muestra más de algo que vengo recalcando desde hace tiempo: Los problemas visuales no son exclusivos del globo ocular, hay un procesamiento complejo y susceptible que se da después de que la señal deja la retina. Un problema de integración audiovisual es un tema de percepción e incluso cognitivo, que debe ser abordado por profesionales que tengan conocimiento pleno de la percepción y del procesamiento sensorial. Es importante que haya una audiometría y logoaudiometría, así como un profundo examen optométrico que incluya desde lo refractivo y binocular, hasta las habilidades visuoperceptuales.
Y es que esto no es algo que solo se pueda evaluar, también se ha demostrado que es susceptible a entrenamiento. Hay evidencia de que entrenamientos sensoriales breves pueden estrechar la ventana temporal en adultos neurotípicos, y se ha explorado su aplicación en poblaciones clínicas. Un entrenamiento de la integración audiovisual se basa en la capacidad neuroplástica del cerebro, por lo que puede aplicarse a cualquier edad, aunque siendo conscientes de las limitaciones. Un nuevo abordaje en la rehabilitación neurovisual, y neuroauditiva. Me parece que es un inicio, para comenzar a llevar las intervenciones del síntoma de superficie al mecanismo subyacente.
Conviene hacer aquí una pausa y precisar algo importante, porque es fácil que estas ideas se malinterpreten. No estoy sugiriendo que el perfil del autismo (su manera particular de estar en el mundo, sus formas de comunicarse, sus intereses, sus desafíos) se explique por tener una ventana temporal de integración más amplia. El autismo no es una ventana ensanchada, del mismo modo que una persona no es su miopía ni su umbral auditivo. Reducir una forma de neurodivergencia tan compleja a un parámetro perceptual sería, además de incorrecto, profundamente injusto.
Lo que sí propongo es algo más modesto y, creo, más interesante: que esta particularidad en el procesamiento temporal nos ofrece una ventana, aprovechando esta palabra, para comprender mejor ciertos aspectos de la experiencia autista. Ayuda a entender, por ejemplo, por qué muchas personas en el espectro describen entornos sensoriales cotidianos como abrumadores o confusos: si los estímulos de distintas modalidades tienden a fundirse de maneras inadecuadas, el mundo puede volverse perceptualmente más denso, menos predecible. Ayuda también a pensar de otra forma las dificultades que a veces aparecen en el desarrollo del lenguaje y la comprensión del habla, sobre todo en contextos ruidosos, donde escuchar bien depende tanto del oído como de ver los labios moverse al mismo tiempo.
En otras palabras, la ventana temporal no nos explica el autismo, pero sí nos ayuda a iluminar desde la percepción algunos fenómenos que, vistos solo desde lo conductual o lo social, resultan más difíciles de entender.
