Tecnología de asistencia al final de la vista

Noticias

HogarHogar / Noticias / Tecnología de asistencia al final de la vista

Sep 16, 2023

Tecnología de asistencia al final de la vista

Ver sus palabras en la página impresa es muy importante para Andrew Leland, como lo es para todos los escritores. Pero la visión de sus pensamientos escritos es mucho más preciosa para él que para la mayoría de los escribas. Leland es

Ver sus palabras en la página impresa es muy importante para Andrew Leland, como lo es para todos los escritores. Pero la visión de sus pensamientos escritos es mucho más preciosa para él que para la mayoría de los escribas. Leland está perdiendo gradualmente la visión. debido a una condición congénita llamada retinitis pigmentosa, que mata lentamente los bastones y conos que son los receptores de luz de los ojos. Llegará un momento en que el tipo más grande, los rostros de sus seres queridos e incluso el sol en el cielo no serán visibles para él. Entonces, ¿quién mejor que haber escrito el libro recién publicado El país de los ciegos: una memoria al final de la vista, que presenta una historia de la ceguera que aborda acontecimientos y avances en los ámbitos social, político, artístico y tecnológico? Leland ha tejido maravillosamente los restos de tres años de deterioro de la vista. Y hay que reconocer que lo ha hecho sin mostrarse en lo más mínimo triste ni autocompasivo.

Leland dice que comenzó el proyecto del libro como un experimento mental que le permitiría descubrir cómo podría gestionar mejor la transición del mundo de los videntes a la comunidad de los ciegos y con discapacidad visual. IEEE Spectrum habló con él sobre el papel que ha desempeñado la tecnología para ayudar a las personas con discapacidad visual a navegar por el mundo que los rodea y disfrutar de la palabra escrita tanto como pueden hacerlo las personas videntes.

IEEE Spectrum: ¿Cuáles son las tecnologías básicas de las que dependen la mayoría de las personas con discapacidad visual para realizar las actividades de la vida diaria?

Andrés Leland: No son electrones como sé que estás buscando, pero la tecnología fundamental de la ceguera es el bastón blanco. Ese es el primer paso de la movilidad y orientación de las personas ciegas.

Es gracioso…. He escuchado a tecnólogos ciegos a quienes a menudo les presentan nuevas tecnologías y les dicen: "Oh, se nos ocurrió este bastón láser y tiene sensores lidar". Hay herramientas así que son realmente útiles para las personas ciegas. Pero he oído a personas ciegas muy tecnificadas decir: '¿Sabes qué? No necesitamos un bastón láser. Somos igual de buenos con la antigua tecnología de un palo realmente largo”.

Eso es todo lo que necesitas. Entonces, yo diría que ese es el número 1. El número 2 es sobre alfabetización. Braille es otra tecnología de la vieja escuela, pero, por supuesto, existe una versión moderna en forma de una pantalla Braille actualizable.

¿Cómo funciona la pantalla Braille?

Leland: Entonces, si imaginas un Kindle, donde pasas la página y toda la tinta eléctrica se reconfigura en una nueva página de texto. La pantalla Braille hace algo similar. Tiene entre 14 y 80 celdas. Supongo que necesito explicar qué es una célula. La forma en que funciona una celda Braille es que hay hasta seis puntos dispuestos en una cuadrícula de dos por tres. Dependiendo de la permutación de esos puntos, esa es la letra. Entonces, si es solo un punto en el espacio superior izquierdo, esa es la letra a. si son los puntos uno y dos, que aparecen en los dos espacios superiores de la columna de la izquierda, esa es la letra b. Y así, en una celda Braille de la pantalla Braille actualizable hay pequeños agujeros perforados, y cada celda es del tamaño de la yema de un dedo. Cuando aparece una línea de texto en la pantalla, aparecerán diferentes configuraciones de pequeños puntos suaves a través de los agujeros perforados. Y luego, cuando esté listo para desplazarse a la siguiente línea, simplemente presione una tecla de desplazamiento y todos se desplegarán y luego volverán a aparecer en una nueva configuración.

Lo llaman pantalla Braille porque puedes conectarlo a una computadora para que cualquier texto que aparezca en la pantalla de la computadora y, por lo tanto, en el lector de pantalla, puedas leer en Braille. Esta es una característica realmente importante para las personas sordociegas, por ejemplo, que no pueden utilizar un lector de pantalla con audio. Pueden realizar toda su informática a través de Braille.

Y eso trae a colación la tercera tecnología realmente importante para las personas ciegas, que es el lector de pantalla. Es un software que se instala en su teléfono o computadora y toma todo el texto en la pantalla y lo convierte en voz sintética o, en el ejemplo que acabo de mencionar, texto en Braille. Hoy en día, el discurso es una buena voz sintética. Imagina la voz de Siri o la voz de Alexa; es así, pero en lugar de ser una IA con la que estás conversando, mueve todas las funciones de la computadora desde el mouse. Si piensas en la persona ciega, sabrás que tener un mouse no es muy útil porque no puede ver dónde está el puntero. El lector de pantalla introduce la navegación de la página en el teclado. Tienes una serie de teclas de acceso rápido para que puedas navegar por la pantalla. Y dondequiera que esté el foco del lector de pantalla, lee el texto en voz alta con una voz sintética.

Entonces, si voy a mi correo electrónico, podría decir "112 mensajes". Y luego muevo el enfoque con el teclado o con la pantalla táctil de mi teléfono con solo deslizar el dedo y dice "Mensaje 1 de Willie Jones, enviado a las 2 p. m.". Todo lo que una persona vidente puede ver visualmente, puede oírlo auditivamente. con un lector de pantalla.

Confías mucho en tu lector de pantalla. ¿Cómo hubiera sido el esfuerzo de escribir su libro con su nivel actual de visión si hubiera intentado hacerlo en el mundo tecnológico de, digamos, la década de 1990?

Leland: Buena pregunta. Pero tal vez sugeriría retroceder aún más y decir, por ejemplo, la década de 1960. En la década de 1990, existían los lectores de pantalla. No eran tan poderosos como lo son ahora. Eran más caros y más difíciles de encontrar. Y habría tenido que trabajar mucho más para encontrar especialistas que lo instalaran en mi computadora. Y probablemente necesitaría una tarjeta de sonido externa que lo ejecutara en lugar de tener una computadora que ya tuviera una tarjeta de sonido que pudiera manejar toda la síntesis de voz.

Había un software de ampliación de pantalla, en el que también confío mucho. También soy muy sensible al resplandor y el texto negro en una pantalla blanca ya no me funciona.

Todo eso ya existía en la década de 1990. Pero si me hubieran hecho esa pregunta en los años 1960 o 1970, mi respuesta sería completamente diferente porque entonces podría haber tenido que escribir el libro a mano con un marcador mágico realmente grande y llenar cientos de cuadernos con letras gigantes, básicamente haciendo mi propia fuente DIY de 30 puntos en lugar de tenerla en mi computadora.

O quizás tuve que usar una máquina de escribir Braille. Soy tan lento con el Braille que no sé si realmente habría podido escribir el libro de esa manera. Quizás podría haberlo dictado. Tal vez podría haber comprado una grabadora de carrete a carrete realmente cara (o si estamos hablando de los años 80, una grabadora de casete) y grabar un borrador verbal. Luego tendría que transcribirlo y contratar a alguien para que me leyera el manuscrito mientras hacía las revisiones. Eso no es muy diferente de lo que tuvo que hacer John Milton [el poeta inglés del siglo XVII que escribió El paraíso perdido]. Escribía en una época incluso anterior a que se inventara el Braille, y componía líneas en su cabeza de la noche a la mañana cuando estaba solo. Por la mañana, venían sus hijas (o su prima o sus amigos) y, como él decía, lo “ordeñaban” y tomaban el dictado.

No necesitamos un bastón láser. Somos igual de buenos con la antigua tecnología de un palo realmente largo.

¿Cuáles fueron los avances importantes que hicieron posible el lector de pantalla que estás usando ahora?

Leland: Uno realmente importante se refiere al fenómeno de la Ley de Moore: el trabajo realizado sobre el reconocimiento óptico de caracteres u OCR. Ha habido versiones de ello que se remontan a tiempos sorprendentemente lejanos, incluso hasta principios del siglo XX, como las décadas de 1910 y 1920. Utilizaron un material sensible a la luz, el selenio, para crear un dispositivo en los años veinte llamado optófono. La técnica se conoció como impresión musical. En esencia, fue la primera tecnología de escáner en la que se podía tomar un fragmento de texto y ponerlo bajo el ojo de una máquina con este material realmente sensible y convertiría las formas de las letras basadas en tinta en sonido.

Me imagino que no salía ninguna voz de Siri o Alexa de esta máquina que estás describiendo.

Leland: Ni siquiera cerca. Imagínese la letra V mayúscula. Si la pasara bajo el ojo de la máquina, sonaría musical. Escucharías los tonos descender y luego subir. El lector podría decir “Oh, está bien. Esa fue una V”. y escucharían la combinación de tonos que indicaba la siguiente letra. Algunas personas ciegas leen libros enteros de esa manera. Pero esa es una forma extremadamente laboriosa y extraña y difícil de leer.

Investigadores, ingenieros y científicos estaban impulsando este tipo de tecnología de protoescaneo y creo que realmente supone un gran avance con Ray Kurzweil en la década de 1970, cuando inventó el escáner de superficie plana y perfeccionó esta tecnología OCR que estaba naciendo en ese momento. . Por primera vez en la historia, una persona ciega podría sacar un libro del estante, [no sólo lo que está] impreso en un tipo de letra especializado diseñado en un laboratorio [de informática], sino cualquier libro antiguo de la biblioteca. La máquina de lectura Kurzweil que desarrolló no fue instantánea, sino que en el transcurso de un par de minutos convirtió texto en voz sintética. Esto supuso un verdadero cambio para las personas ciegas, que, hasta ese momento, tenían que depender de la transcripción manual en Braille. Los estudiantes universitarios ciegos tendrían que contratar a alguien para que les grabara los libros (primero en carrete a carrete y luego en casetes) si no hubiera un audiolibro especial pregrabado.

Audrey Márquez, de 12 años, escucha una voz grabada de la máquina de lectura Kurzweil a principios de los años 80. Dave Buresh/The Denver Post/Getty Images

Entonces, con la máquina de lectura Kurzweil, de repente todo el mundo de la impresión comienza a abrirse. Por supuesto, en ese momento la máquina costaba alrededor de un cuarto de millón de dólares y no estaba ampliamente disponible, pero Stevie Wonder compró una y comenzó a aparecer en las bibliotecas de las escuelas para ciegos. Luego, con muchos otros avances tecnológicos de los cuales el propio Kurzweil fue una especie de profeta popular, esas máquinas se volvieron más eficientes y más pequeñas. Hasta el punto en que ahora puedo tomar mi iPhone y tomar una foto del menú de un restaurante, y realizará el OCR de ese menú automáticamente.

Entonces, ¿cuál es el siguiente paso lógico en esta progresión?

Leland: Ahora tienes la visión artificial ChatGPT, donde puedo sostener la cámara de mi teléfono y hacer que me diga lo que está viendo. Hay una aplicación de interpretación visual llamada Be My Eyes. La empresa homónima que produjo la aplicación se ha asociado con Open AI, por lo que ahora una persona ciega puede acercar su teléfono al refrigerador y decir "¿Qué hay en este refrigerador?" y dirá “Tienes tres cuartos de una jarra de 250 mililitros de jugo de naranja que caduca en dos días; tienes seis plátanos y dos de ellos parecen podridos”.

Entonces, esa es una especie de versión cápsula de la progresión de la visión artificial y el poder de la visión artificial para personas ciegas.

¿Qué crees o esperas que hagan los avances en IA a continuación para hacer que el mundo sea más navegable para las personas que no pueden confiar en sus ojos?

Virtual Volunteer utiliza la tecnología GPT-4 de Open AI.Be My Eyes

Leland: [El próximo gran avance vendrá de] la visión artificial de IA como la que vemos con Be My Eyes Virtual Volunteer que utiliza la tecnología GPT-4 de Open AI. En este momento, sólo está en versión beta y sólo está disponible para unas pocas personas ciegas que han estado sirviendo como probadores. Pero escuché un par de demostraciones que publicaron en podcast y a una persona. Hablan de ello como un momento decisivo en la historia de la tecnología para personas ciegas.

¿Es este esquema de intérprete virtual una idea totalmente nueva?

Leland: Si y no. Los intérpretes visuales han estado disponibles desde hace algún tiempo. Pero la forma en que tradicionalmente funcionaba Be My Eyes es, digamos que eres una persona totalmente ciega, sin percepción de la luz y quieres saber si tu camisa combina con tus pantalones. Usarías la aplicación y te conectaría con un voluntario vidente que luego podría ver lo que hay en la cámara de tu teléfono.

Entonces, levantas la cámara, te paras frente a un espejo y te dicen: “Oh, esos son dos tipos diferentes de cuadros. Tal vez deberías elegir un par de pantalones diferente”. Esto ha sido sorprendente para los ciegos. Conozco a mucha gente a la que le encanta esta aplicación porque es muy útil. Por ejemplo, si estás en un sitio web accesible, pero el lector de pantalla no funciona [según lo previsto] porque el botón de pago no está etiquetado. Entonces solo escucharás "Botón". No sabes cómo vas a comprobarlo. Puede abrir Be My Eyes, sostener su teléfono frente a la pantalla y el voluntario humano le dirá: “Está bien, vaya al tercer botón. Ahí tienes. Ése es el que quieres”.

Y el gran avance que ha ocurrido ahora es que Open AI y Be My Eyes han implementado esta tecnología llamada Voluntariado Virtual. En lugar de que te conectes con un humano que dice que tu camisa no combina con tus pantalones, ahora tienes IA de visión artificial GPT-4, y es increíble. Y puedes hacer cosas como lo que pasó en una demostración que escuché recientemente. Un ciego había visitado Disneylandia con su familia. Obviamente, no podía ver las imágenes, pero con las capacidades de reconocimiento de imágenes del iPhone, le pidió al teléfono que describiera una de las imágenes. Decía: "La imagen puede contener adultos parados frente a un edificio". Entonces lo hizo GPT: “Hay tres hombres adultos parados frente al castillo de las princesas de Disney en Anaheim, California. Los tres hombres llevan camisetas que dicen bla, bla”. Y puede hacer preguntas de seguimiento, como: "¿Alguno de los hombres tenía bigote?" o "¿Hay algo más de fondo?" Al probar las capacidades de reconocimiento de imágenes del GPT-4, es fácil entender por qué las personas ciegas están tan entusiasmadas con él.

IEEE Spectrum: ¿Cuáles son las tecnologías básicas de las que dependen la mayoría de las personas con discapacidad visual para realizar las actividades de la vida diaria?Andrés Leland:¿Cómo funciona la pantalla Braille?Leland: Confías mucho en tu lector de pantalla. ¿Cómo hubiera sido el esfuerzo de escribir su libro con su nivel actual de visión si hubiera intentado hacerlo en el mundo tecnológico de, digamos, la década de 1990?Leland:¿Cuáles fueron los avances importantes que hicieron posible el lector de pantalla que estás usando ahora?Leland:Me imagino que no salía ninguna voz de Siri o Alexa de esta máquina que estás describiendo.Leland:Entonces, ¿cuál es el siguiente paso lógico en esta progresión?Leland:¿Qué crees o esperas que hagan los avances en IA a continuación para hacer que el mundo sea más navegable para las personas que no pueden confiar en sus ojos?Leland:¿Es este esquema de intérprete virtual una idea totalmente nueva?Leland: