lunes, 9 de marzo de 2015

Interacción multimodal

1. ¿QUÉ ES LA INTERACCIÓN MULTIMODAL?
2. PROCESOS DEL HABLA E INTERACCIÓN MULTIMODAL
           2.1. PROCESAMIENTO DEL HABLA
           2.2. INTERACCIÓN MULTIMODAL
3.TECNOLOGÍAS DE RECONOCIMIENTO DE HABLA
4.TECNOLOGÍAS DE RECONOCIMIENTO DEL LOCUTOR
5. CONVERSORES DE TEXTO-VOZ
           5.1. OBJETIVOS PARA MEJORAR
6. FUNCIONES PRINCIPALES DE LA INTERACCIÓN MULTIMODAL
7. COMPONENTES DE LA COMUNICACIÓN MULTIMODAL





La interacción multimodal es la comunicación directa entre personas y tecnología, más concretamente ordenadores, tablets, teléfonos móviles... Esta comunicación se puede llevar a cabo en cualquier momento, en cualquier sitio y desde cualquier dispositivo.

Se trata de un campo aún en investigación y que nace para solventar ciertas necesidades del usuario.

Esta interacción nos proporciona ciertas ventajas como:

  1. - Más natural: así, la interacción entre el usuario y el dispositivo es menos fría, artificial y mecánica y se convierte en algo ,más cómodo y humano.
  2. - Requiere menos conocimientos informáticos: Actualmente, para usar un ordenador hay que saber usar un ratón, hay que tener unos mínimos conocimientos sobre mecanografía para poder usar el teclado y es necesario saber algo sobre el sistema operativo del PC. Sin embargo, gracias a la interacción multimodal, no es necesario nada de esto, ya que, en algunos casos, el usuario puede usar simplemente la voz, gestos o incluso miradas para usar el ordenador.
  3. - Nuevas aplicaciones: Gracias a estos avances también se han podido desarrollar nuevas aplicaciones que no requieran la conexión directa del usuario, como, por ejemplo, que el ordenador apague las luces de una habitación si se han quedado encendidas.
  4. - Ayuda a discapacitados: Todo esto supone un gran avance en la inserción de personas con discapacidades físicas que les dificulten el uso de determinadas tecnologías.
Uno de los requisitos más importante de la interacción intermodal es la buena sintonía de este nuevo paradigma comunicativo con las tecnologías que lo permiten. Estas tecnologías deben facilitar en todo lo posible el acercamiento al objetivo final de este tipo de sistema: la comprensión y respuesta ante una comunicación verbal y no verbal natural.

Dentro de las tecnologías que permiten la creación de una interacción intermodal existen cuatro grandes bloques diferenciados, ligados cada uno a una función distinta dentro de este proceso: las tecnologías de reconocimiento de habla, reconocimiento de locutor, conversión  texto-voz y gestión de la interacción hombre-máquina. A continuación definiremos con detalle cada una de estas tecnologías.

2. PROCESOS DEL HABLA E INTERACCION MULTIMODAL

Para hablar de esto mismo, antes debemos definir que es la interacción ``tradicional``. La interacción tradicional es la clásica relación entre el uso de la pantalla, el teclado y el ratón, que requiere que el usuario posea unos conocimientos base acerca del funcionamiento del ordenador. Pero este tipo de interacción supone una barrera para los que posean discapacidades.
Para superar estas limitaciones se han propuesto distintas técnicas con el uso de dispositivos, que reducen la necesidad de conocimientos informativos. A esto se le ha llamado técnicas del Procesamiento del Habla Interacción Multimodal.

PROCESAMIENTO DEL HABLA

El habla es la forma más natural que posee el ser humano, por ello se convierte en la herramienta más atractiva para que los sistemas informáticos sean capaces de procesarla y generarla de forma automática. Entre las distintas aplicaciones del procesamiento del habla están, la traducción entre idiomas, dictados, entornos inteligentes…etc. Un sinfín de posibilidades.

INTERACCION MULTIMODAL

Con esta se intenta superar las limitaciones propias del monitor, teclado y el ratón a la hora de interactuar con el ordenador. Con ello se buscan modalidades de entrada adicionales, de forma que con un micrófono, una cámara o similar sea suficiente para actuar con el mismo. Esta es una gran ventaja para las personas con discapacidades ya que pueden recurrir a las herramientas que estén a su alcance para usar el ordenador.
Existen diferentes aplicaciones como pueden ser los sistemas de dialogo multimodales y los entornos inteligentes:

-          Sistemas de dialogo multimodales:  interacción con un sistema informático que emula el comportamiento de otro ser humano, en forma de interfaz con rostro humano.


-          Entornos inteligentes: es la aplicación de esto último a una vivienda, donde todo estaría conectado y se podría interactuar con la casa con sencillos comandos de voz.

3. TECNOLOGÍAS DE RECONOCIMIENTO DE HABLA.

Con este término nos referimos a las tecnologías de captura de sonido que recogen la señal sonora de la voz del usuario de la interacción intermodal. Estas tecnologías además realizan una función de descifrado de las palabras dichas por el usuario identificándolas dentro de una base de datos o diccionario. Esta tecnología ha llevado un avance vertiginoso durante los últimos años, pasando de reconocer un tipo de comandos muy específicos a comenzar a captar la forma y entonación en la que eran emitidos estos. Todo este avance tiene como fin último conseguir comprender el habla natural, acercándose así más a una respuesta satisfactoria y realista ante cualquier tipo de conversación y comunicación.

Dentro de este grupo de tecnologías también se incluyen los sistemas de recogida y reconocimiento visual que captan gestos y expresiones faciales. La mezcla de ambas modalidades, conocida como AVSR (Audio-visual speech recognition) es el punto más cercano al habla natural de la actualidad ya que aúna la información recibida mediante ambas fuentes para descifrar la complejidad completa del mensaje.

Por otro lado, y como ya se ha señalado antes, este tipo de tecnología busca cada vez más reconocer detalles ajenos a las palabras en si, como tonos de voz. Esto está llevando a que se busque la extracción de información personalizada, es decir, reconocer a usuarios concretos a través de peculiaridades en sus formas comunicativas como pueden ser coletillas, uso de la ironía timbre y tono de voz… Además, como es lógico, esta extracción busca también reconocer y saber descifrar el significado de estas características intransferibles de cada persona.

Finalmente, destacar este campo dentro de las tecnologías de la multimodalidad es muy utilizado para el enrutamiento automático de  llamadas, donde mediante comandos de voz un ordenador es capaz de transferir una llamada a distintos departamentos o incluso a otros números de teléfono (como sucede en las líneas de atención al cliente).

4. TECNOLOGÍAS DE RECONOCIMIENTO DEL LOCUTOR

Este tipo de tecnologías está directamente relacionado con el anterior ya que se basa, como ya hemos indicado anteriormente, en la detección, identificación y reconocimiento de distintos locutores o usuarios concretos. Este tipo de tecnología necesita alcanzar un nivel de "lenguaje superior" mucho más humano, espontáneo y difícil de identificar. Suele ser de una complejidad tal como para necesitar reconocer detalles como la entonación, terminología, vocabulario, formas expresivas, peculiaridades o variedades dialectales de los usuarios. Por ello, normalmente estos sistemas de reconocimiento están tremendamente ligados al diseño de sistemas de alta seguridad, muchas veces unidos a otros de autenticación biométrica.


5.CONVERSORES DE TEXTO-VOZ
Como ya hemos visto, la comunicación multimodal es aquella en la que intervienen los modos humanos (voz, habla, ojos, movimientos, gestualidad...) para hacer más “natural” esa interacción entre el hombre y la máquina. En este sistema de comunicación tienen una especial importancia los sistemas de conversión texto-voz. Aunque estos sistemas presentan un elevado nivel de inteligibilidad y naturalidad debido a la mejora del proceso de selección de unidades de síntesis ('síntesis por corpus'), la evolución de productos y servicios que utilizan estos sistemas demandan una serie de mejoras a corto plazo:

-Mejoras generales de inteligibilidad y naturalidad. Análisis lingüístico. Todos aquellos aspectos relacionados con la prosodia, es decir, mejoras en la inserción de pausas o en la entonación de las frases y las palabras. Mayor flexibilidad y libertad para narrar los textos.
-Conversor texto – voz orientado a situaciones específicas. Mejorar el rendimiento de los conversores de texto-voz para texto no “neutros” (conversaciones, diálogos, expresión de emociones, estados de ánimo,…). Buscar una mayor rentabilidad en el campo de la domótica. Presentaciones virtuales, narración de cuentos infantiles, etc.
-Evolución de la síntesis multilingüe. Dotar a los conversores de texto-voz de los elementos y mecanismos que nos permitan interpretar adecuadamente nombres propios, siglas, títulos de películas y otros enunciados de forma estándar.
-Síntesis audio - visual.  Integración de entradas acústicas y visuales a través de la animación. Problema: extraer las representaciones visuales de cada sonido --> VISEMAS. Ejemplo de uno de los primeros proyectos de sintesis audio-visual. 





OBJETIVOS PARA MEJORAR:
Buscar representaciones semánticas de cada modalidad.

Buscar la personalización de los sistemas para centrarnos en los hábitos de consumo de cada usuario.

Tener en cuenta que los futuros servicios automáticos se cimentarán sobre los principios cognitivos y evolutivos del ser humano.

Evolución de los sistemas tecnológicos.
Inteligencia artificial.

Ontología vs percepción-reacción mecánica. 


6. FUNCIONES PRINCIPALES DE LA INTERACCIÓN MULTIMODAL
Para entender un poco más de todo esto, vamos a definir algunos estándares utilizados en esta organización:

  1. - VOICEXML: es un lenguaje que permite crear diálogos con los que podemos interactuar, es decir, convierte el habla en texto y para ello utiliza el SRGS.
  2. - SRGS (Gramática de reconocimiento de habla): permite que la aplicación de voz indique a un reconocedor qué es lo que tiene que escuchar, es decir, palabras, modelos, el lenguaje hablado de cada palabra, etc.
  3. - SISR (Interpretación semántica para el reconocimiento del habla): permite describir anotaciones sobre las reglas gramaticales para extraer resultados semánticos a través del reconocimiento del habla. 
  4. - SSML (Síntesis de voz): es una aplicación que mejora la pronunciación, enfatizando algunas palabras, da pautas al diálogo, reproduce sonidos, etc.
  5. - EMMA (Lenguaje de anotación multimodal extensible): tiene como objetivo integrar las entradas de datos proporcionados por los usuarios desde diferentes recursos y darles forma para que sean procesados como una representación única, es decir, EMMA actúa como un mecanismo entre los dispositivos a través de los cuales el usuario introduce datos 
7-COMPONENTES DE LA COMUNICACIÓN MULTIMODAL


Estos son todos los elementos que intervienen en el proceso de la comunicación multimodal, cada uno desempeña una función diferente desde:

RECONOCIMIENTO
Capturan los datos desde el usuario y los transforman.
Habla (Voice XML)
Escritura (InkML)
Teclado
Dispositivos de señalización

INTERPRETACIÓN
Continúan el procesamiento de los datos resultantes de los componentes de reconocimiento.
Identifican el significado o la semántica usando SISR.

INTEGRACIÓN
Combinan la salida de datos desde los diferentes componentes de interpretación.

GENERACIÓN
Es el modo de salida que será utilizado para mostrar la información desde el administrador al usuario.

ESTILO
Añaden datos sobre cómo será mostrada  la información.

CONVERSIÓN
Transforman esa información proporcionada por el componente de estilo en un formato entendible.
Cada modo de salida tiene su correspondiente componente de estilo y componente de conversión.




  • Presentación: https://www.slideshare.net/secret/GLjlnsofsEv27

No hay comentarios:

Publicar un comentario