Розпізнавання мовлення голосних за допомогою електроенцефалографії щурів за допомогою нейронної мережі довгострокової пам’яті. Частина 1

Dec 27, 2023

Анотація

Протягом багатьох років було проведено значні дослідження для вивчення механізмів сприйняття та розпізнавання мови.

Між сприйняттям мови і пам'яттю існує нерозривний зв'язок. Сприйняття мовлення є важливою здатністю для нас усвідомлювати звукові сигнали, а пам’ять є важливим способом, який ми використовуємо для зберігання та отримання інформації. Коли ми краще сприймаємо мову, ми також краще запам’ятовуємо інформацію, яку чуємо.

Дослідження показують, що зв’язок між сприйняттям мовлення та пам’яттю є двостороннім. З одного боку, погане сприйняття мови може призвести до погіршення пам'яті. Це тому, що коли ми не можемо чітко чути мову, ми не можемо точно запам’ятати почуту інформацію. З іншого боку, сильне сприйняття мови може покращити нашу пам'ять. Коли ми можемо правильно сприймати і розуміти мову, ми також можемо легше запам’ятовувати почуте.

Тому ми повинні зосередитися на розвитку навичок сприйняття мовлення, щоб покращити пам’ять. Цього можна досягти, тренуючи навички аудіювання та розуміння мовлення. Ми можемо покращити наше сприйняття мови та пам’ять за допомогою таких видів діяльності, як прослуховування записів, перегляд фільмів і відвідування мовних курсів.

Коротше кажучи, існує тісний зв’язок між сприйняттям мовлення та пам’яттю, і ми повинні зосередитися на розвитку навичок сприйняття мовлення, щоб покращити пам’ять. Завдяки активним тренуванням і практиці ми можемо постійно покращувати свій рівень сприйняття мовлення та краще розуміти й запам’ятовувати почуте. Видно, що нам потрібно покращити пам’ять, і Cistanche deserticola може значно покращити пам’ять, оскільки Cistanche deserticola також може регулювати баланс нейромедіаторів, наприклад підвищувати рівень ацетилхоліну та факторів росту. Ці речовини дуже важливі для пам'яті та навчання. Крім того, м’ясо також може покращити кровообіг і сприяти доставці кисню, що може гарантувати, що мозок отримує достатню кількість поживних речовин і енергії, тим самим покращуючи життєздатність і витривалість мозку.

increase brain power

Натисніть Знати, щоб покращити короткочасну пам'ять

Електроенцефалографія (ЕЕГ) є потужним інструментом для визначення активності мозку; тому його широко використовували для визначення нейронної основи розпізнавання мовлення.

Зокрема, для класифікації розпізнавання мовлення підходи, засновані на глибокому навчанні, знаходяться в центрі уваги, оскільки вони можуть автоматично вивчати та виділяти репрезентативні функції за допомогою наскрізного навчання.

Це дослідження мало на меті виявити окремі компоненти, які потенційно пов’язані з представленням фонем у мозку щурів, і розрізнити мозкову активність для кожного голосного стимулу на основі одноразового випробування за допомогою мережі двонаправленої короткочасної пам’яті (BiLSTM) і класичних методів машинного навчання.

Було використано дев'ятнадцять самців щурів Sprague-Dawley, яким була проведена операція з імплантації мікроелектродів для реєстрації сигналів ЕЕГ від двосторонніх передніх слухових полів. Було обрано п’ять різних голосних мовних стимулів, /a/, /e/, /i/, /o/ та /u/, які мають дуже різні частоти формант. ЕЕГ, записана під довільним голосним стимулом, була мінімально попередньо оброблена та нормалізована за допомогою перетворення z-показника, щоб використовуватися як вхідні дані для класифікації розпізнавання мовлення.

Мережа BiLSTM показала найкращу ефективність серед класифікаторів, досягнувши загальної точності, показника f{{0}} і значень κ Коена 75,18%, 0,75 і 0,68 відповідно, використовуючи підхід 10-згорнутої перехресної перевірки.

Ці результати показують, що рівні LSTM можуть ефективно моделювати послідовні дані, такі як ЕЕГ; отже, інформативні функції можуть бути отримані за допомогою BiLSTM, навченого наскрізним навчанням, без будь-яких додаткових методів вилучення функцій вручну.

вступ

Мова передає в мозок величезну кількість інформації, і одна з типових особливостей мозку — розпізнавати та класифікувати звуки тварин, що ведуть себе.

Враховуючи його важливість, спроби дослідити механізми розпізнавання звуків мовлення проводяться понад 100 років. Одне з перших нейролінгвістичних досліджень розпізнавання мовлення було проведено шляхом спостережень у 1870-х роках німецьким нейропсихіатром, який виявив вирішальну роль верхньої скроневої звивини у сприйнятті мовлення, дійшовши висновку, що недоліки в розпізнаванні мовлення пов’язані з пошкодженням лівої верхньої скроневої звивини [ 1].

Відомо, що розпізнавання мовлення залежить переважно від дорсолатеральних скроневих часток, включаючи верхню скроневу звивину, яка містить первинну слухову кору (A1) і переднє слухове поле (AAF) [2].

increase memory

Хоча те, як фонеми кодуються та інтерпретуються в мозку, залишається суперечливим, широко визнано, що розпізнавання звуку є категоричним. Тобто розрізнення є кращим для стимулів, що належать до різних фонетичних категорій, ніж для стимулів, що належать до однієї категорії, навіть якщо акустичні відмінності еквівалентні [3, 4].

Не тільки люди, але й системи сприйняття тварин сортують безперервно змінювані звукові подразники в набір окремих категорій [5].

Завдяки прогресу в нейрофізіологічних дослідженнях електроенцефалографія (ЕЕГ) широко використовується в дослідженнях, пов’язаних із нейронаукою та нейроінженерією [6].

Висока часова роздільна здатність і чутливість до різних функціональних станів мозку роблять ЕЕГ потужним інструментом для дослідження активності мозку в реальному часі, і зростає інтерес до висвітлення нейронної основи категоріального сприйняття. Традиційно ЕЕГ-сигнали реєструються неінвазивно зі шкіри голови в дослідженнях на людях. На рівні звукового або мовного сприйняття негативність невідповідності (MMN), компонент слухового викликаного потенціалу (AEP), який викликається дивними звуками, широко використовується для вивчення нейронних корелятів категоріального сприйняття [7, 8]. Наатанен та ін. знайшли докази залежних від мови репрезентацій голосних у людському мозку [9].

Інше дослідження вивчало категоріальне сприйняття лексичних тонів і виявило, що контраст між категоріями викликає більший MMN, ніж розрізнення всередині категорії [10]. В експериментах на тваринах більш точні сигнали ЕЕГ були отримані за допомогою інвазивних процедур.

Наприклад, нейронні кореляти категоричного сприйняття та нейронні репрезентації різних звуків були вивчені за допомогою позаклітинного запису потенціалу дії.

Нейрони смугастого тіла співочих птахів демонструють категоричні слухові реакції та дуже чутливі до змін тривалості ноти [11]. Крім того, Kilgard et al.досліджував чіткі нейронні репрезентації приголосних і голосних звуків, використовуючи внутрішньопаренхімний запис у мозку щурів. Реєструючи багато- та одиничні відповіді від нижнього горбка та A1, вони припустили, що спайк-лічильник кодує голосні звуки, тоді як спайк-таймінг кодує приголосні звуки [12, 13].

Ефекти навчання розрізненню звуків на щурячій моделі аутизму також досліджувалися на основі попередніх висновків, які корелювали нервові реакції на звукові подразники зі здатністю сприйняття звуку [14].

Крім того, нещодавнє дослідження показало, що електрокортикографія, записана за допомогою багатоканальної решітки, корелює з пасивним впливом певного звуку навіть у слуховій корі щурів під наркозом [15].

Підходи машинного навчання використовувалися для практичного використання ЕЕГ у багатьох дослідженнях. Використання методів машинного навчання дозволяє досліджувати велику кількість інформації, яка є властивою та яку важко розкрити з сигналів ЕЕГ [6].

Таким чином, класифікація на основі ЕЕГ може бути виконана в наступних областях за допомогою звичайних алгоритмів машинного навчання (наприклад, машина опорних векторів (SVM), k-найближчих сусідів (KNN) і наївний Байєс (NB)): рухові образи, розпізнавання емоцій, виявлення психічних захворювань, виявлення пов’язаного з подіями потенціалу (ERP) тощо [16, 17].

improve your memory

Крім того, в останні роки, завдяки зростанню прогресу в графічних процесорах і наявності великих наборів даних, стало можливим проводити класифікацію на основі ЕЕГ за допомогою різних мереж глибокого навчання [6, 18, 19]. У порівнянні зі звичайними методами машинного навчання , мережі глибокого навчання можуть автоматично виявляти та витягувати відповідні представлення з вхідних даних [20, 21].

Таким чином, навіть за недостатніх попередніх експертних знань багатообіцяючі результати можна отримати за допомогою алгоритмів глибокого навчання, які не вимагають додаткового ручного процесу вилучення ознак [22, 23].

Наприклад, у сфері мови, зображень і відео результати були значно покращені завдяки застосуванню алгоритмів глибокого навчання [24–26]. Однак незрозуміло, чи завжди такі відмінні результати супроводжують область класифікації на основі ЕЕГ при використанні підходів глибокого навчання замість традиційних методів машинного навчання [27].

Рой та ін. показали, що в більшості досліджень (за винятком чотирьох із 102 досліджень) підхід глибокого навчання призвів до вищої продуктивності, ніж підхід традиційного машинного навчання, а найвище покращення точності становило 35,3% [18, 28].

Крім того, серед різних сфер досліджень класифікації на основі ЕЕГ активно проводяться дослідження класифікації ERP із застосуванням як традиційних методів машинного навчання, так і методів глибокого навчання.

У ранньому дослідженні традиційний метод великого усереднення використовувався для покращення низького співвідношення сигнал/шум (SNR), одного з обмежень сигналів ЕЕГ, і для отримання сигналів ERP.

У цих дослідженнях кілька компонентів ERP розглядалися як набори ознак для класифікації [29, 30]. У дослідженнях на тваринах такі характеристики ERP, як пікова амплітуда та затримка, також використовуються для розрізнення сигналів ERP [31, 32].

Однак класифікація на основі однопробної ЕЕГ також привернула велику увагу, оскільки відомо, що дані ЕЕГ на рівні однопробної володіють більш функціональною та багатою інформацією, ніж сигнали ERP, отримані за допомогою традиційного методу великого усереднення [33, 34].

Таким чином, у подальших дослідженнях функції, витягнуті за допомогою різних алгоритмів, таких як алгоритми на основі вейвлетів [35], моделі змішування Гауса [36] і просторова фільтрація [37] для класифікації з використанням звичайних методів машинного навчання [38, 39]. Однак вилучення оптимального Ручна робота з однопробної ЕЕГ потребує багато часу та праці, оскільки необхідно виконати додаткові етапи обробки. У цьому контексті методи глибокого навчання можуть полегшити цю проблему, дозволяючи наскрізне навчання.

Найпоширенішою архітектурою глибокого навчання є згорточна нейронна мережа (CNN), за якою слідує рекурентна нейронна мережа (RNN). CNN — це особливий тип архітектури глибокого навчання, який широко використовується для однопробної класифікації на основі ЕЕГ [6]. Вхідні дані CNN отримують із необроблених або попередньо оброблених даних ЕЕГ, переважно у такій формі: кількість каналів × кількість моментів часу в одному дослідженні.

Крім того, було продемонстровано значні результати класифікації, і відомо, що вона найкраще працює при використанні зображень спектрограм як вхідних даних [40–44]. На відміну від CNN, RNN є дуже бажаною архітектурою, особливо при обробці послідовних даних (як у програмах обробки природної мови), оскільки рекурентне з’єднання архітектури навчання RNN дає змогу рекурсивно використовувати попередню інформацію мережі як поточні вхідні дані [45]. ].

Довга короткочасна пам’ять (LSTM) — це різновид архітектури RNN, запропонованої Hochreiter і Schmidhuber для подолання проблем градієнта вибуху та зникнення RNN [46]. Двонаправлений LSTM (BiLSTM) є подальшим розвитком LSTM, який поєднує прямий і зворотний приховані рівні для доступу як до попередньої, так і до наступної інформації.

Незважаючи на те, що модель BiLSTM набагато складніша і може потребувати додаткової обчислювальної потужності, очікується, що вона вирішить завдання послідовного моделювання та класифікації краще, ніж LSTM [47].

Раніше ми намагалися класифікувати сигнали ЕЕГ на основі однієї спроби для трьох голосних звуків, /a/,/o/ та /u/, використовуючи методи машинного навчання людського мозку.

Після застосування відповідних алгоритмів обробки сигналу, включаючи багатофакторну емпіричну декомпозицію (MEMD), відповіді ЕЕГ були ефективно класифіковані відповідно до кожного голосного звуку за допомогою класифікатора лінійного дискримінантного аналізу (LDA). З частотно-часового представлення (TFR) сигналів ЕЕГ було також визначено, що компоненти альфа-діапазону були найбільш пов’язаними нейронними реакціями сприйняття голосного звуку [48].
Однак через низький SNR сигналів ЕЕГ людини необхідно додатково оцінити представлення фонем у мозку за допомогою більш інвазивної техніки запису, що дозволяє отримувати більш надійні сигнали ЕЕГ.

Крім того, необхідно провести подальші дослідження ефективності класифікації кожного алгоритму машинного навчання при класифікації відповідей ЕЕГ на різні фонеми.

Основна мета цього дослідження полягала у визначенні конкретних компонентів ЕЕГ, які могли бути пов’язані з репрезентацією мови в мозку щурів, щоб глибше висвітлити реакцію мозку на розпізнавання звуків мови.

Для отримання більш точних сигналів ЕЕГ епідуральні сигнали ЕЕГ у відповідь на слухові стимули були записані в AAF, яка, як відомо, відіграє важливу роль у слуховому сприйнятті та категоризації [2]. Крім того, у цьому дослідженні намагалися розрізнити різні реакції мозку на кожен звук мови за допомогою мережі LSTM та інших звичайних методів машинного навчання.

Було висунуто гіпотезу, що мережа BiLSTM підійде для класифікації відповідей ЕЕГ на голосні стимули та перевершить інші класичні класифікатори, оскільки мережа може ефективно моделювати довготривалі залежності послідовних даних, таких як ЕЕГ. Наскільки відомо автору, мережі LSTM не застосовувалися для класифікації відповідей ЕЕГ на звукові подразники, і це перше дослідження, у якому використано алгоритм глибокого навчання для аналізу епідуральних сигналів ЕЕГ від AAF.

improving brain function

Крім того, використовуючи алгоритм глибокого навчання, відповіді ЕЕГ класифікували як слухові стимули з використанням наскрізного навчання з мінімально попередньо обробленими сигналами ЕЕГ без додаткових методів виділення ознак.


For more information:1950477648nn@gmail.com


Вам також може сподобатися