Passa a Pro

L’IA convertit l’activité cérébrale en parole avec une précision de 97%

Singularityhub: L’idée d’une machine capable de déchiffrer vos pensées peut sembler effrayante, mais pour des milliers de personnes qui ont perdu la capacité de parler en raison d’une maladie ou d’un handicap, cela pourrait signifier un grand changement. Même pour les personnes non handicapées, il pourrait être très utile de taper un e-mail en pensant simplement ou en donnant des commandes par télépathie à leur assistant numérique.

Cette vision s’est peut-être rapprochée après que des chercheurs de l’Université de Californie à San Francisco ont montré qu’ils pouvaient traduire les signaux cérébraux en phrases complètes, avec un taux d’erreur de seulement trois pour cent, ce qui est inférieur au seuil de transcription professionnelle de la parole.

Bien que nous soyons capables de décoder des parties du langage à partir de signaux cérébraux depuis environ une décennie, la plupart des solutions ont été loin de traduire des phrases compréhensibles de manière cohérente. L’année dernière, en utilisant une nouvelle approche, les chercheurs ont obtenu certains des meilleurs résultats à ce jour en utilisant des signaux cérébraux pour animer un tractus vocal simulé, mais seulement 70% des mots étaient compréhensibles.

La clé de l’amélioration des performances obtenue par les auteurs du nouvel article de Nature Neuroscience a été leur découverte qu’il existe de forts parallèles entre la traduction des signaux cérébraux en texte et la traduction automatique entre les langues à l’aide de réseaux de neurones, ce qui est très précis pour de nombreuses langues aujourd’hui.

Alors que la plupart des efforts pour décoder les signaux cérébraux se concentraient sur l’identification des activités neuronales qui correspondent à certains phonèmes – les morceaux de son individuels qui composent les mots – les chercheurs ont décidé d’imiter la traduction automatique, dans laquelle la phrase entière est traduite en même temps. Cela s’est avéré être une approche puissante; parce que certains mots sont plus susceptibles d’être proches les uns des autres, le système peut compter sur le contexte pour combler les lacunes.

L’équipe a utilisé la même approche encodeur-décodeur que celle utilisée dans la traduction automatique. Un réseau neuronal analyse le signal d’entrée – généralement du texte, mais dans ce cas des signaux cérébraux – pour créer une représentation des données, et un deuxième réseau neuronal le traduit ensuite dans la langue cible.

Ils ont entraîné leur système en fonction de l’activité cérébrale de quatre femmes qui avaient des électrodes implantées dans leur cerveau pour surveiller les crises tout en lisant une série de 50 phrases, dont 250 mots individuels. Ainsi, le premier réseau a pu découvrir quelle activité neuronale est en corrélation avec quelles parties de la langue.

Dans les tests, il s’est appuyé uniquement sur les signaux neuronaux et a pu atteindre des taux d’erreur inférieurs à huit pour cent chez deux des quatre sujets, ce qui correspond à la précision des transcripteurs professionnels.

Bien sûr, il y a aussi des réserves. Premièrement, le système n’était capable de déchiffrer que 30 à 50 phrases spécifiques, en utilisant un vocabulaire limité à 250 mots. En outre, les électrodes doivent être implantées dans le cerveau des personnes, ce qui n’est actuellement autorisé que pour un nombre limité de raisons médicales très spécifiques. Cependant, il y a un certain nombre de signes que cette direction est très prometteuse.

Une crainte était qu’en raison du fait qu’il était testé avec des phrases incluses dans ses données d’entraînement, le système pourrait simplement apprendre à connecter certaines phrases à certaines signatures neuronales. Cela suggérerait qu’il n’apprend pas vraiment les composants de la langue, ce qui rendrait difficile la généralisation à des phrases inconnues.

Cependant, lorsque les chercheurs ont ajouté un autre ensemble de tirs aux données d’entraînement qui n’étaient pas inclus dans les tests, le taux d’erreur a diminué de manière significative, ce qui suggère que le système apprend des informations sur des sous-ensembles tels que des mots.

Les chercheurs ont également constaté que l’entraînement du système avec les données du sujet qui a atteint la plus grande précision avant l’entraînement avec les données de l’un des pires sujets réduisait considérablement les taux d’erreur. Cela suggère que dans les applications pratiques, une grande partie de la formation pourrait être effectuée avant que le système ne soit remis à l’utilisateur final, et l’utilisateur final n’aurait qu’à l’ajuster aux idiosyncrasies de ses signaux cérébraux.

Le vocabulaire d’un tel système est susceptible de s’améliorer considérablement s’il est construit sur cette approche – mais même une palette limitée de 250 mots pourrait être incroyablement utile pour un paraplégique et pourrait probablement être adaptée à un ensemble spécifique de commandes pour le contrôle télépathique d’autres dispositifs.

Maintenant, la balle est de retour dans le camp des entreprises qui tentent de développer les premières interfaces neuronales pratiques.