#ConVerso #FranciscoHurtado

No es solo hablar, sino conversar con las máquinas

En 1996, llegó a mis manos una caja blanca con el rostro impreso de una persona usando una diadema con micrófono, como las de los operadores de call center. Dentro había un disco de instalación para un software de reconocimiento del habla, que permitía dictar a la computadora en lugar de teclear. Era el VoiceType Simply Speaking de IBM, con un vocabulario de 42,000 palabras en inglés y español, además de un diccionario ortográfico de 100,000 palabras, era una maravilla tecnológica.

El reconocimiento del habla, también denominado reconocimiento automático del habla (ASR) o como Speech to Text, permite a un programa procesar el habla humana en texto escrito. Aunque es importante aclarar que este avance no debe confundirse con el reconocimiento de voz, que solo busca identificar al usuario mediante su voz. 

IBM ha jugado un papel crucial en esta tecnología desde el lanzamiento del «Shoebox» en 1962, una máquina que reconocía 16 palabras diferentes, lo que implicaba entonces una mejora sobre el trabajo inicial de Bell Labs en los años 50.

La comercialización de comandos de voz para computadoras comenzó con VOICE de IBM, que permitió a los usuarios dictar enunciados o textos completos a sus computadoras. Este sistema, aunque primitivo, marcó el inicio de una era donde las máquinas podían «entender» el habla humana. Los comandos de voz iniciales eran rudimentarios y producidos con lecturas robotizadas (lo que probablemente tenía su encanto entonces), pero la tecnología ha avanzado enormemente desde entonces.

Pero dando un brinco a la actualidad, gracias a los modelos de inteligencia artificial (IA) y el Internet de las Cosas (IoT), no solo podemos hablar con nuestras computadoras, sino también interactuar con una variedad de dispositivos periféricos: electrodomésticos, sistemas de aire acondicionado, iluminación, puertas de acceso y dispositivos de comunicación industrial pueden ser controlados mediante comandos de voz. Con estos “aparatos”, al integrar la IA, se crea una experiencia de usuario más fluida y eficiente. Casi como interactuar con otra persona.

Charla servicial

Un buen ejemplo se presenta en el ámbito de la atención al cliente. Los chatbots, impulsados por IA, están revolucionando la interacción inicial con los clientes, y ofrecen soluciones rápidas y eficientes que ahorran recursos significativos a las empresas. La transición crucial es que estos modelos no solo escuchan y responden, sino que se encuentran en un proceso de aprendizaje constante que les permite comunicarse de manera efectiva con las personas bajo un modelo de inteligencia implícito.

Pensemos en un cliente que llama para resolver un problema con su factura. En este entorno automatizado con IA, un asistente virtual no solo reconocerá las palabras del cliente (incluso su identidad), sino que también comprenderá el contexto y las emociones detrás de su voz. Esto permitiría al asistente ofrecer respuestas más precisas y empáticas, mejorando la experiencia del cliente y reduciendo el tiempo de resolución de problemas con información entregada en forma expedita. Para ello, debemos considerar que estos sistemas pueden integrarse con bases de datos empresariales para acceder rápidamente a la información del cliente y proporcionar soluciones personalizadas. Esto sin duda, aumentará la eficiencia operativa y, sobre todo, la satisfacción del cliente.

El habla en una línea de tiempo
Esta evolución tecnológica permite ahora establecer conversaciones más naturales y contextuales con las máquinas. Las bases de datos avanzadas, el IoT, la computación en la nube y la IA están transformando estos sistemas para cumplir con la promesa de establecer una comunicación más sofisticada y no solo de habla. 

En pocas palabras, hemos pasado de simplemente dictar comandos a nuestras computadoras, a tener conversaciones enriquecidas y significativas con una amplia gama de dispositivos inteligentes. Esta evolución representa un cambio de paradigma con respecto a la manera en que interactuamos con la tecnología, con lo que se busca hacer nuestras vidas más conectadas y eficientes.

Desde la invención del sistema «Audrey» de Bell Labs en 1952, que solo podía reconocer dígitos, hasta los avanzados asistentes digitales como Siri de Apple, el camino del reconocimiento del habla ha sido largo y lleno de innovaciones. En la década de los 60, IBM introdujo el «Shoebox», que podía entender 16 palabras, y en los años 80, con la introducción de los modelos ocultos de Markov, la tecnología dio un gran salto hacia adelante.

En los 90, Dragon Dictate se convirtió en el primer software comercial de reconocimiento del habla, aunque costaba $9,000 y requería que los usuarios pausaran entre cada palabra. La verdadera revolución llegó con Dragon Naturally Speaking en 1997, que permitió el dictado continuo sin pausas. Con la llegada de asistentes como Google Voice Search en 2007, Siri en 2011 y Alexa de Amazon, la tecnología de reconocimiento del habla se volvió omnipresente en nuestras vidas diarias.

El avance de la IA y el machine learning ha permitido que los sistemas actuales no solo reconozcan palabras, sino que también comprendan el contexto, haciendo que la interacción con las máquinas sea más natural y eficiente. Los dispositivos modernos utilizan una combinación de algoritmos de modelado acústico y lingüístico para interpretar el habla con alta precisión, lo que ha sido posible gracias a la disponibilidad de grandes cantidades de datos y la mejora en la capacidad de procesamiento.

El futuro del reconocimiento del habla promete aún más avances, con la posibilidad de que prácticamente el total de las transcripciones sean automáticas y los humanos intervengan solo para control de calidad y correcciones. La tecnología continuará evolucionando, facilitando interacciones más fluidas y contextuales entre humanos y máquinas, y sin duda revolucionará no solo la manera en que hablamos con nuestros dispositivos, sino también cómo nos comunicamos con ellos en un sentido más amplio.

Los comentarios están cerrados.