Control por Voz • CASADOMO

En este artículo se trata el tema de control por voz del Hogar Digital teniendo en cuenta sus diferentes tipos de utilización en función del sistema utilizado y de su integración con las tecnologías de control domótico actuales. Se ha considerado el sistema de control por voz como un interfaz adicional a otros ya existentes en el Hogar Digital (pulsadores, pantallas táctiles, PDAs u ordenadores).

Sistemas de reconocimiento de voz

Desde hace años, el crecimiento de los sistemas de reconocimiento de voz ha ido en aumento. En un principio se comenzaron a usar voces pregrabadas con menús de opciones para aplicaciones telefónicas automáticas. Estas indicaban las opciones que el usuario podía elegir pulsando los botones del teléfono y más tarde como reconocedores de comandos de voz, en los que usuario podía indicar cualquiera de las palabras del menú de voz. Posteriormente las aplicaciones telefónicas se han desarrollado considerablemente permitiendo una mayor flexibilidad en el reconocimiento y en la síntesis de voz. A su vez, en el mercado informático, se han comercializado programas de reconocimiento y de síntesis de voz que se ejecutan sobre ordenadores personales, tanto comerciales, como de software libre. Estos programas permiten el dictado automático de documentos, el control de los sistemas operativos y la navegación WEB mediante órdenes de voz. Son independientes del locutor y permiten el entrenamiento previo del sistema, incrementando la precisión en el reconocimiento ya que el usuario puede corregir el error cuando este se produce. De esta forma, el sistema aprende dinámicamente, y cuanto más se usa, mejor es su eficiencia. La ventaja de estas técnicas para el usuario es la rapidez en la generación de documentos y la comodidad en el manejo de los sistemas operativos. Los inconvenientes que suelen encontrarse en muchas de las aplicaciones de control por voz, son el entrenamiento previo, que implica una pérdida de tiempo inicial y los fallos en el reconocimiento, que implican un retraso en el trabajo que se está realizando para indicar al sistema cuál es la palabra correcta.

Figura: Decodificador acústico-fonético

Los sistemas de reconocimiento de voz están basados, o bien en reconocimiento por comparación de patrones o bien en decodificadores acústico fonéticos. Estos últimos son muy complejos y no se usan en la práctica. De las técnicas de procesado basadas en patrones cabe destacar, por un lado, las que se apoyan en el uso de redes neuronales, y por otro, aquellas que realizan el procesado según los modelos ocultos de Markov. Existe un tercer tipo que realiza una combinación de ambas técnicas. En cualquier caso necesitan un entrenamiento previo del sistema para que el corpus de voz (base de datos) vaya adquiriendo más información y mejore la tasa de acierto del reconocedor.

Figura: Esquema de entrenamiento en una fase y reconocimiento.

Una reciente aplicación en las técnicas de voz es la de reconocimiento del hablante. Esta característica detecta una huella biométrica de cada persona, el timbre, siendo útil en sistemas de comprobación de identidad o para distinguir usuarios y aplicar perfiles de uso diferentes en el control de sistemas.

Figura: Aplicación de reconocimiento de voz con gestión de diálogo y síntesis de voz en respuesta a consultas telefónicas

La otra parte del diálogo con la máquina, el otro sentido de la conversación, es la generación de voz artificial, (text to speech) o síntesis de voz. En la actualidad, los sintetizadores de voz consiguen unas voces ”muy reales“ que simulan emociones y se acercan cada vez más a la forma de hablar humana. Los sintetizadores de voz permiten la personalización, pudiendo elegir tanto el género, como el acento o la velocidad del habla de la voz sintética.

Figura: Reconocimiento de voz que se divide en 3 partes: Pre-procesamiento, Reconocimiento y Comunicación.

Un tema a tener en cuenta en la comunicación hombre-máquina es el diseño del interfaz. Este debe ser amigable y natural y se debe adaptar a la forma de actuar de las personas. Para ello se estudia, como un paso posterior al reconocimiento de voz, la gestión inteligente del diálogo, un área de la inteligencia artificial que trata hacer natural la conversación entre el hombre y la máquina, extrayendo información mediante análisis sintáctico y semántico y relacionando el contexto de la conversación. Idealmente, además, el sistema debe ser capaz de adaptarse a diversos usuarios en función de su nivel de conocimiento del sistema en sí mismo, de sus preferencias anteriores, o del contexto en el que se encuentre. También se trata de imitar algunos fenómenos típicamente humanos: confirmaciones durante la conversación, inicio de conversación menos fluido, etc. Debe tener en cuenta que los diálogos entre humanos son variables con interrupciones frecuentes, solapamientos o frases incompletas o no estructuradas correctamente. La interacción con la máquina debe ser estructurada para que los objetivos del gestor de diálogo se realicen correctamente.

Figura: Topología de conexionado con cableado dedicado desde la unidad central hasta cada estancia en estrella.

El control por voz en el hogar digital puede realizarse de formas diferentes según el tipo de elementos captadores de voz a utilizar, y de la forma de transmitir las señales de audio entre los elementos que componen el sistema de control por voz. Desde el punto de vista técnico, el conexionado más simple es el realizado en estrella desde la central hasta cada elemento emisor o receptor. Esta conexión se puede realizar con señales analógicas o digitales. En este caso en el que se transmiten las señales digitalmente, se consigue aumentar la longitud del cableado respecto a señales analógicas sin perdida de calidad. El coste económico es mayor en este segundo caso ya que debe utilizar conversores A/D y D/A en el sistema de control y en los dispositivos hardware emisores respectivamente.

Figura: Topología de conexión mediante una red LAN cableada.

Una tipología recomendada es el uso de redes LAN para el transporte de las señales entre la central y los sistemas auxiliares de captación y emisión. En cada sistema de captación y emisión será necesario añadir un adaptador al BUS (tarjeta de red).

En el mercado actual podemos encontrar gran variedad de sistemas de reconocimiento de voz. A continuación se presenta un listado de los sistemas más representativos por su presencia en el mercado, su integración con el hardware actual y sus cualidades:

Software comercial para ordenadores personales:

Dragon Naturally Speaking de Nuance
Philips FreeSpeech
Protitle Live from NINSIGHT
Via Voice de IBM
Soluciones Loquendo
Voice Pro 11 de Linguatec

Sistemas telefónicos:

Nuance 8.5
Telefónica: Software vocal de Telefónica
Telisma (teliSpeech).

Software libre para ordenadores personales:

CVoiceControl Se graba la orden como entrenamiento.
PerlBox Sin entrenamiento, pero en inglés.
Sphinx, del Sphinx Group en Carnegie Mellon University
Open Mind Speech, antiguamente FreeSpeech

El interface del usuario

Al diseñar interfaces de usuario deben tenerse en cuenta las habilidades cognitivas y de percepción de las personas, y adaptar el interfaz o la forma de actuar del sistema a ellas.

Una de las cosas más importantes que una interfaz debe conseguir es reducir la dependencia de las personas de su propia memoria no forzándoles a recordar cosas innecesariamente (por ejemplo, información que apareció en una pantalla anterior) o a repetir operaciones ya realizadas (por ejemplo, introducir un mismo dato repetidas veces). Además es necesario estudiar el tipo de usuario que va a manejar el interfaz ya que los procesos cognitivos varían considerablemente en sectores diferentes de la población, así lo que para una persona acostumbrada a manejar tecnología puede resultar simple, para otra no acostumbrada puede suponer un serio problema. Sintetizando, se muestran a continuación los parámetros más importantes a la hora de diseñar una interfaz:

Velocidad de Aprendizaje: Se pretende que la persona aprenda a usar el sistema lo más pronto posible.
Velocidad de Respuesta: El tiempo para realizar una operación en el sistema.
Tasa de errores: Porcentaje de errores que comete el usuario.
Retención: Cuánto recuerda el usuario sobre el uso del sistema en un período. de tiempo.
Satisfacción: Se refiere a que el usuario esté a gusto con el sistema.
Características Físicas: Cada persona tiene diferentes características físicas.
Ambiente: El lugar donde va a ser usado el sistema. Cada interfaz tiene que adecuarse al lugar.
Personalidad: De acuerdo a la edad, nivel socio-económico, etc.
Cultura: Los japoneses no tienen las mismas pantallas, ventanas, etc. Este factor es importante si el mercado para el sistema es a nivel internacional.

Los interfaces diseñados para su uso en el hogar deben tener en cuenta en el diseño pensado en la accesibilidad. Este concepto se llama Diseño para Todos. Esto significa que al diseñar un sistema, un servicio o un producto, se debería tener en cuenta que tiene que ser fácilmente utilizable para personas también con discapacidades físicas e intelectuales.

Figura: Usuario de control de sistema de domótica por voz a través de un interface tipo reloj de la muñeca.

Sistemas de reconocimiento de voz en el Hogar Digital y su integración con instalaciones de domótica

Existen varios sistemas de control por voz de instalaciones de domótica de diferentes marcas, destacando las soluciones de: Fagor, Proinssa, Personica, Indistsys y Easy Life.

Entrando en las técnicas de captura y transmisión de la voz para aplicaciones de reconocimiento de voz aplicadas al Hogar Digital se comprueba que unos valores óptimos pueden ser:

Ancho de banda señal de voz: 8.000 Hz.
Filtrado mediante paso banda con frecuencias de corte de 100Hz y 8.000Hz.
Frecuencia de muestreo: 16 KHz
Codificación: 10 bits
Bit rate mínimo que debe asegurar el BUS: 1,6 Mbit/s

Según estas premisas, analizando los sistemas domóticos comerciales para el control del Hogar Digital las conclusiones a las que ha llegado son que la mayoría de los sistemas no soportarían la inclusión de una carga de datos con un Bit Rate alto en sus buses. Por tanto es conveniente que la aplicación de control por voz disponga de un bus independiente del sistema domótico.

Sólo en el caso en que el bus domótico funcione sobre una red LAN, WAN o PLC, se asegura un correcto funcionamiento. En estos casos se dispone de una velocidad binaria de BUS más que suficiente para el transporte de las señales del sistema de voz e incluso permite compartir dicho BUS con otros sistemas. En vivienda ya construida en la que resulta difícil introducir cableado nuevo, se pueden utilizar adaptadores de línea eléctrica-Ethernet (PLC) para la extensión de la red LAN.

De igual forma se valora el problema de la incorporación de cableado adicional para llevar alimentación eléctrica a los dispositivos emisores y receptores y se considera la utilización del cableado eléctrico como portador de señales mediante PLC. De esta forma se podrían instalar los elementos captadores y emisores en el techo de las estancias.

Se llega a la conclusión que el sistema de control por voz debe interconectarse con el sistema domótico mediante el uso de un interfaz o pasarela que permita el tráfico de datos en ambos sentidos.

Figura: Interface de sistema de domótica para comandos de voz.

Un problema común en el reconocimiento dentro de una vivienda es la presencia de ruido ambiente no deseable procedente de fuentes comunes en la vivienda: electrodomésticos, equipos de audio y video, mascotas, etc. Otro efecto no deseable es la reverberación de las estancias. Para reducir la influencia de estos efectos recomienda un estudio en la instalación de los elementos captadores: zonas de mayor probabilidad de reconocimiento del captador relacionadas con la ubicación del mobiliario de cada estancia y su utilidad. Con estas consideraciones se consigue mejorar sustancialmente la eficiencia del reconocedor, punto débil del sistema. En ocasiones el sistema fallará y será necesario actuar sobre la fuente de ruido: cerrar una ventana, bajar el volumen del televisor o mandar callar a la mascota. En estos casos el propio sistema debe ser capaz de realizar estas acciones si dispone de los actuadores necesarios: control del volumen de dispositivos de audio y video o motores de persianas. En otros casos debe ser capaz de indicar al usuario que hay un ruido que impide la correcta recepción y que sea el propio usuario el que trate de reducirlo.

Figura: Avatares desarrollados para el dialogo hombre-máquina.

Si el sistema se humaniza, la interacción resultará más natural para los usuarios. Desde el punto de vista técnico también resulta positiva la introducción de una palabra de atención y que permite “despertar” al sistema con una palabra clave que a su vez sirve como ajuste de los sistemas captadores de audio. Es recomendable el uso como palabra de atención de nombres poco comunes y de más de dos sílabas. También se valora positivamente la inclusión de aplicaciones de verificación del hablante, localización del usuario en la vivienda y el procesado de órdenes simultaneas por diferentes usuarios localizados en puntos diferentes de la vivienda.

Sobre el Autor

Fernando Martín de Pablos es Ingeniero Técnico deTelecomunicación por la Universidad de Alcalá y Máster en Hogar Digital por la Universidad Europea de Madrid. Su trabajo lo desarrolla como libre ejerciente realizando proyectos de ICT, Energía Solar y Hogar Digital. Datos de contacto: fmartindp@yahoo.es