Brain interface поможет восстановить речь и голос

Опубликовано 06 March 2020
Используя ECoG и машинное обучение, исследователи расшифровывали произносимые слова и фразы в режиме реального времени из сигналов мозга, которые управляют речью. Эта технология в конечном итоге может быть использована, чтобы помочь тем, кто потерял голос, восстановить свой голос.

Источник: UCSF


Ученые из Калифорнийского университета в Сан-Франциско недавно показали, что мозговая активность, записанная во время выступления участников исследования, может быть использована для создания удивительно реалистичных синтетических версий этой речи, что позволяет надеяться, что однажды такие мозговые записи можно будет использовать для восстановления голоса людей, потерявших способность говорить. Однако, исследователям потребовались недели или месяцы, чтобы перевести мозговую деятельность в речь, что далеко от мгновенных результатов, которые потребуются для того, чтобы такая технология была клинически полезной.


Теперь, в дополнительном новом исследовании, снова работая с добровольцами, ученые впервые расшифровали произнесенные слова и фразы в режиме реального времени из сигналов мозга, которые управляют речью, с помощью нового подхода, который включает в себя определение контекста, в котором участники говорили.


«В течение многих лет мою лабораторию интересовали, в основном, фундаментальные вопросы о том, как мозговые цепи интерпретируют и воспроизводят речь», - сказал речевой нейробиолог Эдди Чанг, доктор медицинских наук, профессор нейрохирургии, биомедицинский исследователь Bowes и член Института нейробиологии им. Вейля при UCSF. «Благодаря достижениям, которые мы наблюдали в этой области за последнее десятилетие, стало ясно, что мы можем использовать эти открытия, чтобы помочь пациентам с потерей речи, которая является одним из самых разрушительных последствий неврологического повреждения».


Пациенты, которые испытывают паралич лица из-за инсульта ствола мозга, травмы спинного мозга, нейродегенеративных заболеваний или других состояний, могут частично или полностью потерять способность говорить. Однако области мозга, которые обычно контролируют мышцы челюсти, губ, языка и гортани для выработки речи, часто остаются нетронутыми и остаются активными у этих пациентов, что позволяет предположить, что можно использовать эти преднамеренные речевые сигналы для декодирования того, что пациенты пытаются сказать.


«В настоящее время пациенты с потерей речи из-за паралича ограничиваются тем, чтобы произносить слова очень медленно, используя остаточные движения глаз или мышечные сокращения для управления компьютерным интерфейсом», - объяснил Чанг. «Но во многих случаях информация, необходимая для беглой речи, все еще находится в их мозгах. Нам просто нужна технология, чтобы позволить им выразить это ».


Контекст улучшает речевое декодирование в реальном времени


Являясь ступенькой на пути к такой технологии, лаборатория Чанга потратила годы на изучение мозговой деятельности, которая контролирует речь, с помощью добровольных участников исследований в Центре эпилепсии UCSF.


У этих пациентов - у всех из которых есть нормальная речь - был небольшой участок крошечных записывающих электродов, временно размещаемых на поверхности их мозга на неделю или более, чтобы отобразить происхождение их судорог при подготовке к нейрохирургии. Это включает в себя метод, называемый электрокортикография (ECoG), который предоставляет гораздо более богатые и подробные данные о деятельности мозга, чем это возможно с неинвазивными технологиями, такими как ЭЭГ или МРТ. В то время как они находятся в больнице, некоторые из этих пациентов соглашаются позволить группе Чанга использовать уже имплантированные электроды ЭКоГ как часть научных экспериментов, не связанных непосредственно с их болезнью.


В новом исследовании, опубликованном 30 июля в журнале Nature Communications, исследователи из лаборатории Чанга во главе с доктором наук доктором Дэвидом Мозесом (David Moses) работали с тремя такими добровольцами-исследователями, чтобы разработать способ мгновенной идентификации устных ответов добровольцев на ряд стандартных вопросов. основанный исключительно на их мозговой активности, представляя первый в этой области.


Чтобы достичь этого результата, Моисей и его коллеги разработали набор алгоритмов машинного обучения, оснащенных усовершенствованными фонологическими речевыми моделями, которые были способны учиться декодировать определенные речевые звуки из мозговой деятельности участников. Данные о мозге записывались, когда волонтеры слушали набор из девяти простых вопросов (например, «Как твоя комната в настоящее время?», «От 0 до 10, как ты себя чувствуешь?» Или «Когда ты хочешь, чтобы я проверил тебя» ? ») И ответил вслух с одним из 24 вариантов ответа. После некоторого обучения алгоритмы машинного обучения научились определять, когда участники слышат новый вопрос или начинают отвечать, и определять, какой из двух десятков стандартных ответов участник давал с точностью до 61 процента, как только он закончил говорить ,


«Обработка мозговой активности в режиме реального времени использовалась для декодирования простых речевых звуков, но это первый раз, когда этот подход использовался для идентификации произнесенных слов и фраз», - сказал Моисей. «Важно помнить, что мы достигли этого, используя очень ограниченный словарный запас, но в будущих исследованиях мы надеемся повысить гибкость, а также точность того, что мы можем перевести из мозговой деятельности».


Одним из ключевых выводов исследования является то, что включение контекста, в котором говорили участники, значительно улучшило скорость и точность алгоритма. Использование мозговой активности добровольцев, чтобы сначала определить, какой из заранее определенных вопросов они услышали - что алгоритм сделал с точностью до 75 процентов - позволило значительно сузить диапазон вероятных ответов, поскольку каждый ответ был только подходящим ответом на определенные вопросы.


«Большинство предыдущих подходов были сосредоточены только на декодировании речи, но здесь мы показываем ценность декодирования обеих сторон разговора - как вопросов, которые кто-то слышит, так и того, что они говорят в ответ», - сказал Чанг.


«Это укрепляет наши предположения в том, что речь - это не то, что происходит в вакууме, и что любая попытка расшифровать то, что пытаются сказать пациенты с нарушениями речи, будет улучшена с учетом полного контекста, в котором они пытаются общаться».


Первая попытка восстановить речь в клинике


После десятилетия достижений в понимании мозговой деятельности, которая обычно контролирует речь, группа Чанга недавно решила выяснить, можно ли использовать эти достижения для восстановления коммуникационных способностей у парализованных пациентов.


В сотрудничестве с коллегой Карунеш Гангули, доктором медицинских наук, доцентом неврологии в UCSF, лаборатория Чанга начала исследование, известное как «BRAVO» (BCI Restoration of Arm and Voice), чтобы определить, имплантирует ли нейронный интерфейс ECoG те, которые используются в Исследование Моисея может быть использовано для восстановления различных двигательных и коммуникационных способностей у пациентов с параличом, вызванным инсультом, нейродегенеративным заболеванием или черепно-мозговой травмой.


Предыдущие исследования позволили парализованным людям управлять роботизированной рукой или компьютерным курсором через ряды острых электродов, которые физически вставляются в области мозга, контролирующие движение. Напротив, электроды ECoG мягко сидят на поверхности мозга, не проникая в ткани, и могут стать лучшим вариантом для долгосрочных ИМК. Такие нейронные интерфейсы уже использовались для мониторинга судорожной активности у пациентов с эпилепсией в течение многих лет без побочных эффектов.


Команда недавно зарегистрировала одного участника исследования со значительными нарушениями движений и речи в исследовании BRAVO, но проект находится на слишком ранней стадии, чтобы сообщать о каких-либо результатах.


Brain interface поможет восстановить речь и голос

Эдди Чанг (справа), доктор медицины, и Дэвид Мозес, доктор философии, в лаборатории Чанга в UCSF. Изображение Ноа Бергера.


Исследователи подчеркивают, что до сих пор неясно, могут ли подходы, которые в настоящее время используются в лаборатории для расшифровки мозговой деятельности субъектов исследования с неповрежденной речью - путем обучения компьютера на основе примеров их голосов - также работать для людей, которые не могут говорить , Вместо этого участникам исследования, возможно, придется научиться использовать имплантированные речевые протезы с течением времени, основываясь на постоянной обратной связи от их первоначальной работы - процесс, который сделает вид декодирования речи в реальном времени, продемонстрированный новым исследованием Моисея, еще более критическим.


Новое исследование Моисея финансировалось в рамках финансируемого несколькими учреждениями соглашения об академических исследованиях с Facebook Reality Labs (FRL), исследовательским подразделением в Facebook, которое занимается разработкой технологий дополненной и виртуальной реальности. Как описал FRL, цель их сотрудничества с лабораторией Chang, которая называется Project Steno, состоит в том, чтобы оценить возможность разработки неинвазивного, носимого устройства BCI, которое могло бы позволить людям печатать, представляя себя говорящим.


На последнем этапе проекта Steno в течение следующего года будет предоставлена ​​финансовая и техническая поддержка усилий лаборатории, чтобы дать возможность одному участнику исследования с потерей речи генерировать текст на экране компьютера в координации с более широким исследованием лаборатории BRAVO. Все данные об участниках исследования собираются UCSF и хранятся как конфиденциальные в компьютерных системах, принадлежащих UCSF, и не передаются третьим сторонам, включая FRL. Ограниченное число исследователей в группе BCI Facebook работают напрямую с исследователями лаборатории Чанга, чтобы внести свой вклад в этот проект и имеют ограниченный доступ к де-идентифицированным данным на месте в UCSF.


Финансирование: исследование BRAVO поддерживается за счет начального финансирования благотворительных фондов, и исследователи ищут дополнительную поддержку со стороны Национального института здоровья (NIH).


НЕЙРОТЕХНОЛОГИЧЕСКАЯ ЭТИКА


Когда ученые говорят о разработке технологии для расшифровки мозговой деятельности, лежащей в основе речи, легко думать, что они говорят о том, чтобы читать мысли людей со всеми серьезными этическими проблемами, которые могут подразумеваться. На самом деле любая зловещая попытка вторгнуться во внутренние мысли человека практически невозможна, в то время как расшифровка того, что они пытаются произнести вслух - клинически острая потребность в людях с параличом - просто очень трудна.


Тем не менее, сейчас самое подходящее время, чтобы этические проблемы были интегрированы в разработку новых технологий мозга с нуля, поэтому Уинстон Чионг и Эдди Чанг из UCSF возглавляют инициативу в области нейроэтики, финансируемую НИЗ, для решения именно этих вопросов.

Источник: UCSF

Оригинальное исследование: 

«Расшифровка в режиме реального времени речевого диалога с использованием корковой активности человека». Дэвид А. Моисей, Мэтью К. Леонард, Джозеф Г. Макин и Эдвард Ф. Чанг.

Природа Связи. DOI: 10.1038 / s41467-019-10994-4


Общие сведения

Расшифровка речевого диалога вопросов и ответов в режиме реального времени с использованием корковой активности человека.

Естественное общение часто происходит в диалоге, по-разному затрагивая слуховые и сенсомоторные области мозга во время слушания и речи. Тем не менее, предыдущие попытки декодировать речь непосредственно из человеческого мозга обычно рассматривали задачи прослушивания или речи изолированно. Здесь участники слушали вопросы и отвечали вслух с ответами, в то время как мы использовали записи электрокортикографии высокой плотности (ECoG), чтобы определить, когда они услышали или произнесли высказывание, и затем расшифровать идентичность высказывания. Поскольку определенные ответы были только правдоподобными ответами на определенные вопросы, мы могли динамически обновлять предыдущие вероятности каждого ответа, используя расшифрованные вероятности вопроса в качестве контекста. Мы декодируем произнесенные и воспринимаемые высказывания с точностью до 61% и 76% соответственно (вероятность составляет 7% и 20%). Контекстная интеграция вероятностей декодированного вопроса значительно улучшает декодирование ответов. Эти результаты демонстрируют декодирование речи в реальном времени в интерактивной диалоговой обстановке, что имеет важные последствия для пациентов, которые не могут общаться.