La mayoría de los sistemas domóticos pueden gestionarse por comandos de voz con ayuda de los asistentes virtuales. Aunque esta tecnología sea muy cómoda, en ocasiones no funciona correctamente debido a la falta de vocabulario en los asistentes, ya que si no se reconoce alguna palabra no se obtendrá respuesta. Para solucionar este problema, la compañía japonesa Toshiba está trabajando en una solución para mejorar los comandos de voz.
El equipo de Toshiba ha conseguido desarrollar una tecnología con Inteligencia Artificial para la comprensión de las palabras desconocidas. Este avance ayudará a mejorar las comunicaciones y la eficacia de los sistemas domóticos al reconocer determinado vocabulario, como puede ser un término más técnico o una serie de palabras utilizadas de forma habitual.
Esta tecnología divide deliberadamente las oraciones habladas en partes clave y en partes de contexto, al tiempo que procesa atributos para palabras clave desconocidas y conocidas. Por ejemplo, si un usuario dice ‘ quiero comer comida japonesa’, el sistema reconoce la palabra clave conocida ‘comida japonesa’ y el atributo es comida.
Sin embargo, si la frase fuera ‘quiero comer un anillo esponjoso’ el sistema no puede reconocer la palabra clave desconocida ‘anillo esponjoso’ y termina sin poder distinguir los atributos, o la palabra clave se reconoce como ‘anillo’, juzgando erróneamente que el atributo es un accesorio.
Con la tecnología de Inteligencia Artificial de Toshiba, si un usuario dice ‘quiero comer un anillo esponjoso’, el sistema predice que el atributo es comida en el contexto de ‘quiero comer’ sin saber qué es el ‘anillo esponjoso’.
Funcionamiento de la extracción de la palabra clave
El método para detectar las palabras clave desconocidas y determinar sus atributos requiere de un aprendizaje. Durante este proceso, la parte de la palabra clave de la frase se reemplaza de forma aleatoria con varias palabras, generándose una red neuronal que detecta la posición de la palabra clave para aprender un modelo orientado al contexto.
Las redes neuronales se dividen en tres redes: extraer características de palabras clave; extraer características de contexto; y estimar atributos integrando las características. Utilizando los resultados de la detección de palabras clave, las oraciones pronunciadas se separan en partes de palabras clave y partes de contexto, y se extraen las características de palabras clave y las características de contexto.
Después, en la red neuronal que los integra, se analizan diferentes aspectos como qué características son importantes y se juzgan los atributos. En el caso de la oración ‘Quiero comer un anillo esponjoso’, se enfatiza el contexto ‘quiero comer’, y se determina que el atributo del ‘anillo esponjoso’ es comida.