1. ¿QUÉ ES LA INTERACCIÓN MULTIMODAL?
2. PROCESOS DEL HABLA E INTERACCIÓN MULTIMODAL
2.1. PROCESAMIENTO DEL HABLA
2.2. INTERACCIÓN MULTIMODAL3.TECNOLOGÍAS DE RECONOCIMIENTO DE HABLA
4.TECNOLOGÍAS DE RECONOCIMIENTO DEL LOCUTOR
5. CONVERSORES DE TEXTO-VOZ
5.1. OBJETIVOS PARA MEJORAR
6. FUNCIONES PRINCIPALES DE LA INTERACCIÓN MULTIMODAL
7. COMPONENTES DE LA COMUNICACIÓN MULTIMODAL

La interacción multimodal es la comunicación directa entre personas y tecnología, más concretamente ordenadores, tablets, teléfonos móviles... Esta comunicación se puede llevar a cabo en cualquier momento, en cualquier sitio y desde cualquier dispositivo.
Se trata de un campo aún en investigación y que nace para solventar ciertas necesidades del usuario.
Esta interacción nos proporciona ciertas ventajas como:
- - Más natural: así, la interacción entre el usuario y el dispositivo es menos fría, artificial y mecánica y se convierte en algo ,más cómodo y humano.
- - Requiere menos conocimientos informáticos: Actualmente, para usar un ordenador hay que saber usar un ratón, hay que tener unos mínimos conocimientos sobre mecanografía para poder usar el teclado y es necesario saber algo sobre el sistema operativo del PC. Sin embargo, gracias a la interacción multimodal, no es necesario nada de esto, ya que, en algunos casos, el usuario puede usar simplemente la voz, gestos o incluso miradas para usar el ordenador.
- - Nuevas aplicaciones: Gracias a estos avances también se han podido desarrollar nuevas aplicaciones que no requieran la conexión directa del usuario, como, por ejemplo, que el ordenador apague las luces de una habitación si se han quedado encendidas.
- - Ayuda a discapacitados: Todo esto supone un gran avance en la inserción de personas con discapacidades físicas que les dificulten el uso de determinadas tecnologías.
Uno de los requisitos más importante de la
interacción intermodal es la buena sintonía de este nuevo paradigma
comunicativo con las tecnologías que lo permiten. Estas tecnologías deben
facilitar en todo lo posible el acercamiento al objetivo final de este tipo de
sistema: la comprensión y respuesta ante una comunicación verbal y no verbal
natural.
Dentro de las tecnologías que permiten la
creación de una interacción intermodal existen cuatro grandes bloques
diferenciados, ligados cada uno a una función distinta dentro de este proceso:
las tecnologías de reconocimiento de habla, reconocimiento de locutor,
conversión texto-voz y gestión de la interacción hombre-máquina. A
continuación definiremos con detalle cada una de estas tecnologías.
2. PROCESOS DEL HABLA E INTERACCION MULTIMODAL
2. PROCESOS DEL HABLA E INTERACCION MULTIMODAL
Para hablar
de esto mismo, antes debemos definir que es la interacción ``tradicional``. La interacción
tradicional es la clásica relación entre el uso de la pantalla, el teclado y el ratón, que requiere que el usuario posea unos conocimientos base acerca del
funcionamiento del ordenador. Pero este tipo de interacción supone una barrera
para los que posean discapacidades.
Para
superar estas limitaciones se han propuesto distintas técnicas con el uso de
dispositivos, que reducen la necesidad de conocimientos informativos. A esto se
le ha llamado técnicas del Procesamiento
del Habla Interacción Multimodal.
PROCESAMIENTO DEL HABLA
El habla es
la forma más natural que posee el ser humano, por ello se convierte en la
herramienta más atractiva para que los sistemas informáticos sean capaces de
procesarla y generarla de forma automática. Entre las distintas aplicaciones
del procesamiento del habla están, la traducción entre idiomas, dictados,
entornos inteligentes…etc. Un sinfín de posibilidades.
INTERACCION MULTIMODAL
Con esta se
intenta superar las limitaciones propias del monitor, teclado y el ratón a la
hora de interactuar con el ordenador. Con ello se buscan modalidades de entrada
adicionales, de forma que con un micrófono, una cámara o similar sea
suficiente para actuar con el mismo. Esta es una gran ventaja para las personas
con discapacidades ya que pueden recurrir a las herramientas que estén a su
alcance para usar el ordenador.
Existen
diferentes aplicaciones como pueden ser los sistemas de dialogo multimodales y los
entornos inteligentes:
-
Sistemas de dialogo multimodales: interacción con un sistema informático que
emula el comportamiento de otro ser humano, en forma de interfaz con rostro
humano.
-
Entornos inteligentes: es la aplicación de esto último a
una vivienda, donde todo estaría conectado y se podría interactuar con la casa
con sencillos comandos de voz.
3. TECNOLOGÍAS DE RECONOCIMIENTO DE HABLA.
Con este término nos referimos a las
tecnologías de captura de sonido que recogen la señal sonora de la voz del
usuario de la interacción intermodal. Estas tecnologías además realizan una
función de descifrado de las palabras dichas por el usuario identificándolas
dentro de una base de datos o diccionario. Esta tecnología ha llevado un avance
vertiginoso durante los últimos años, pasando de reconocer un tipo de comandos
muy específicos a comenzar a captar la forma y entonación en la que eran
emitidos estos. Todo este avance tiene como fin último conseguir comprender el
habla natural, acercándose así más a una respuesta satisfactoria y realista
ante cualquier tipo de conversación y comunicación.
Dentro de este grupo de tecnologías
también se incluyen los sistemas de recogida y reconocimiento visual que captan
gestos y expresiones faciales. La mezcla de ambas modalidades, conocida como
AVSR (Audio-visual speech recognition) es el punto más cercano al habla natural de
la actualidad ya que aúna la información recibida mediante ambas fuentes para
descifrar la complejidad completa del mensaje.
Por otro lado, y como ya se ha señalado
antes, este tipo de tecnología busca cada vez más reconocer detalles ajenos a
las palabras en si, como tonos de voz. Esto está llevando a que se busque la extracción de información personalizada, es decir, reconocer a
usuarios concretos a través de peculiaridades en sus formas comunicativas como
pueden ser coletillas, uso de la ironía timbre y tono de voz… Además, como es
lógico, esta extracción busca también reconocer y saber descifrar el significado
de estas características intransferibles de cada persona.
Finalmente, destacar este campo dentro de
las tecnologías de la multimodalidad es muy utilizado para el enrutamiento
automático de llamadas, donde mediante comandos de voz un ordenador
es capaz de transferir una llamada a distintos departamentos o incluso a otros
números de teléfono (como sucede en las líneas de atención al cliente).
4. TECNOLOGÍAS DE RECONOCIMIENTO DEL
LOCUTOR
Este tipo de tecnologías está directamente
relacionado con el anterior ya que se basa, como ya hemos indicado
anteriormente, en la detección, identificación y reconocimiento de distintos
locutores o usuarios concretos. Este tipo de tecnología necesita alcanzar un
nivel de "lenguaje superior" mucho más humano, espontáneo y difícil
de identificar. Suele ser de una complejidad tal como para necesitar reconocer
detalles como la entonación, terminología, vocabulario, formas expresivas,
peculiaridades o variedades dialectales de los usuarios. Por ello, normalmente
estos sistemas de reconocimiento están tremendamente ligados al diseño de
sistemas de alta seguridad, muchas veces unidos a otros de autenticación
biométrica.
5.CONVERSORES DE TEXTO-VOZ
Como ya hemos visto, la
comunicación multimodal es aquella en la que intervienen los modos humanos
(voz, habla, ojos, movimientos, gestualidad...) para hacer más “natural” esa
interacción entre el hombre y la máquina. En este sistema de comunicación
tienen una especial importancia los sistemas de conversión texto-voz. Aunque
estos sistemas presentan un elevado nivel de inteligibilidad y naturalidad
debido a la mejora del proceso de selección de unidades de síntesis ('síntesis
por corpus'), la evolución de productos y servicios que utilizan estos sistemas
demandan una serie de mejoras a corto plazo:
-Mejoras
generales de inteligibilidad y naturalidad. Análisis lingüístico.
Todos aquellos aspectos relacionados con la prosodia,
es decir, mejoras en la inserción de pausas o en la entonación de las frases y
las palabras. Mayor flexibilidad y libertad para narrar los textos.
-Conversor
texto – voz orientado a situaciones específicas. Mejorar
el rendimiento de los conversores de texto-voz para texto no “neutros”
(conversaciones, diálogos, expresión de emociones, estados de ánimo,…). Buscar
una mayor rentabilidad en el campo de la domótica. Presentaciones virtuales,
narración de cuentos infantiles, etc.
-Evolución
de la síntesis multilingüe. Dotar a los conversores de
texto-voz de los elementos y mecanismos que nos permitan interpretar
adecuadamente nombres propios, siglas, títulos de películas y otros enunciados de
forma estándar.
-Síntesis
audio - visual. Integración de entradas acústicas y
visuales a través de la animación. Problema: extraer las representaciones
visuales de cada sonido --> VISEMAS. Ejemplo de uno de los primeros proyectos de sintesis audio-visual.
OBJETIVOS
PARA MEJORAR:
Buscar representaciones
semánticas de cada modalidad.
Buscar la
personalización de los sistemas para centrarnos en los hábitos de consumo de
cada usuario.
Tener en cuenta que los
futuros servicios automáticos se cimentarán sobre los principios cognitivos y
evolutivos del ser humano.
Evolución de los
sistemas tecnológicos.
Inteligencia
artificial.
Ontología vs
percepción-reacción mecánica.
6. FUNCIONES PRINCIPALES DE LA INTERACCIÓN MULTIMODAL
Para entender un poco más de todo esto, vamos a definir algunos estándares utilizados en esta organización:
- - VOICEXML: es un lenguaje que permite crear diálogos con los que podemos interactuar, es decir, convierte el habla en texto y para ello utiliza el SRGS.
- - SRGS (Gramática de reconocimiento de habla): permite que la aplicación de voz indique a un reconocedor qué es lo que tiene que escuchar, es decir, palabras, modelos, el lenguaje hablado de cada palabra, etc.
- - SISR (Interpretación semántica para el reconocimiento del habla): permite describir anotaciones sobre las reglas gramaticales para extraer resultados semánticos a través del reconocimiento del habla.
- - SSML (Síntesis de voz): es una aplicación que mejora la pronunciación, enfatizando algunas palabras, da pautas al diálogo, reproduce sonidos, etc.
- - EMMA (Lenguaje de anotación multimodal extensible): tiene como objetivo integrar las entradas de datos proporcionados por los usuarios desde diferentes recursos y darles forma para que sean procesados como una representación única, es decir, EMMA actúa como un mecanismo entre los dispositivos a través de los cuales el usuario introduce datos
Estos
son todos los elementos que intervienen en el proceso de la comunicación
multimodal, cada uno desempeña una función diferente desde:
RECONOCIMIENTO
Capturan
los datos desde el usuario y los transforman.
Habla
(Voice XML)
Escritura
(InkML)
Teclado
Dispositivos
de señalización
INTERPRETACIÓN
Continúan
el procesamiento de los datos resultantes de los componentes de reconocimiento.
Identifican
el significado o la semántica usando SISR.
INTEGRACIÓN
Combinan
la salida de datos desde los diferentes componentes de interpretación.
GENERACIÓN
Es
el modo de salida que será utilizado para mostrar la información desde el
administrador al usuario.
ESTILO
Añaden
datos sobre cómo será mostrada la
información.
CONVERSIÓN
Transforman
esa información proporcionada por el componente de estilo en un formato
entendible.
Cada
modo de salida tiene su correspondiente componente de estilo y componente de
conversión.
- Presentación: https://www.slideshare.net/secret/GLjlnsofsEv27
No hay comentarios:
Publicar un comentario