Звоните на номер:

СӨЙЛЕУДІ АНЫҚТАУ ЖӘНЕ ТАНУ ЖҮЙЕСІН ҚҰРУ

Сұлтанбекұлы Дәуіржан, 4 курс студенті,
Кульмамиров Серик Алгожаевич,
доцeнт м. a., т. ғ. к., XAA aкaдeмигi
Әл-Фараби атындағы Қазақ ұлттық университеті
Қазақстан, Алматы қаласы
 
Аннотация: Бұл мақалада сөйлеуді анықтау және тану жүйесі қарастырылады. Тура немесе кері есепті жүзеге асыруға мүмкіндік беретін ақпаратты өңдеу схемалары ұсынылады. Сөйлеуді анықтау мен тануды жаңа сапамен біртұтас диалогтық жүйеге біріктіру тәсілі қарастырылады.
Кілттік сөздер: жүйе, сөйлеуді талдау, сөйлеуді тану, ақпаратты өңдеу.
Әртүрлі сөйлеу жүйелерін енгізу цифрлық ақпаратты өңдеуге (ЦАӨ) арналған алгоритмдік және бағдарламалық қамтамасыз етуді құру мәселелерін шешуге ықпал етеді. Бұл жағдайда ЦАӨ үлгілері жасалады және дұрыс бағаланады. Тіркелген сигналдардан пайдалы компоненттер алынады. Бірнеше құрамдас бөліктерден жоғары дәрежелі сигналдарды төменгі деңгейдегі шағын құрамдас бөліктерге бөлу әдісіне сәйкес жаңа ішкі жүйенің конфигурациясы қалыптасады [1].
Мысал ретінде сөйлеу параметрлерін синтездеудің жалпыланған моделін құрумен сипатталатын сөйлеуді тану жүйесінің құрылымын қарастырайық. Сөйлеу сигналының сытқы және ішкі компоненттері 1-суретте көрсетілген.
Сол жақ бөліктің блоктарында сөйлеудің барлық ақпараты бөлінеді, олардың негізінде конфигурациялар құрастырылады және оны тіркеу белгілері анықталады. Ортаңғы бөлігінде сөйлеуді түрлендіру кезеңі және оның орындалу нәтижесі туралы ақпарат (курсив – нәтиженің белгісі). Оң жақ бөліктің блоктары тілдің ережелері болып табылады және сол және орталық бөліктердің блоктарына кестелер, ережелер, заңдылық шарттары, өңдеу алгоритмдері түрінде тікелей енеді.
Мұндай схеманы сөйлеу синтезі жүйелерінің әдістемелік негізі ретінде пайдалануға болады. Бұл модель сөйлеу сигналын генерациялау моделінің болжамды параметрлерін сипаттайды, бұл жоғарыда келтірілген схемада кейбір кері байланыстардың жоқтығын білдіреді. Олар сөйлеу сигналын генерациялау процесінде өкпені және сөйлеуді қалыптастыру жолын оның орташа бақылау сатысында қосылады. 1-суреттегі диаграммаға және тіркелген практикалық нәтижелерге сүйене отырып, біз тілдік жүйелер үшін білім қорын ұйымдастыру бойынша ұсыныстарды тұжырымдай аламыз [2]:
1) Кез келген сөйлеу жүйесі нәтижеге әсер ететін ең ақпаратты блоктарды анықтау үшін алдын ала қарастырылуы керек. Талдау нәтижелері бойынша ақпаратты маңыздылық деңгейлері бойынша шектейтін критерийлер құрылуы керек. Атап айтқанда, берілетін ақпараттың тиімділік критерийін пайдалану қажет [3].
2) Түрлендіруге қажетті барлық ақпаратты негізгі ақпаратқа (кестелер мен сөздіктерге) және түрлендіру жүзеге асырылатын ережелерге сәйкес бөлген жөн.
3) Ереже түрінде көрсетуге болмайтын ресми емес ақпараттар үшін сөздіктер пайдаланылады. Сөздіктердің көлемі қажетті сапамен және объектілердің рұқсат етілген санымен шектеледі.
4) Объект арқылы бірегей сәйкестендірілген ақпарат үшін оның атрибуты қажетті объектімен анықталатын кестелерді қолданған жөн. Мысалы, ұзақтықтар кестесі.
5) Сөйлеу сигналының жалпы параметрлері адамның сөйлеуді қалыптастырушы жүйесінің физиологиялық параметрлеріне негізделуі керек. Бұл сөйлеу синтезі жүйесін динамикке баптап, табиғи сөйлеуді алуға мүмкіндік береді.
6) Тиімділік критерийлерін енгізу әртүрлі аралық кезеңде де, одан кейінгі кезеңде де қажет. Олардың міндеті шектеулер түрінде айқын да, жасырын да болуы мүмкін.
 
1-сурет – Басқару моделін құру схемасы
 
Осылайша, сөйлеуді анықтау процесін басқару жүйесін алуға болады. Сөйлеу сигналының генерациялау блоктарын зерттеу нәтижелері бойынша ең ақпараттылығы анықталды. Оларда сөйлеу сигналын қалыптастыруға қажетті барлық ақпарат ережелер түрінде жинақталған. Ережелерді жүзеге асыру үшін қажетті кіріс деректері бойынша кестелер құрылды, олардың негізі ақпараттық ақпарат болды [4–9].
Синтез алгоритмінің нәтижелері құрылған модельдің [8, 10, 11] берілген мәліметтерге сәйкестігін көрсетті. Сөйлеуді тану моделін құру тәсілін қарастырыңыз. Жалпылама сөйлеуді тану моделінен бастайық. Сөйлеу сигналын талдау процесін қарастыру кері байланысты енгізу қажеттілігін көрсетті [8]. Сөйлеу сигналын танудың жалпыланған моделі сөйлеу синтезіне ұқсас, тек ақпарат қозғалысы қарама-қарсы бағытта жүреді. Негізгі алгоритмдерді жүзеге асыру үшін қабылданған сөйлеу сигналының мағынасы мен мақсатын болжамды меңгеруді қалыптастыру қажет.
Осылайша, сөйлеу хабарламасының мағынасын алу схемасын көрсету қажет. 2-суретте просодикалық сипаттамаларды қалыптастыру үшін қолданылатын барлық сыртқы және ішкі деректер көрсетілген.
 
2-сурет – Баспа мәтінін алу үшін сөйлеу сигналын тану схемасы
 
Сол жақ бөліктің блоктарында барлық ақпарат бөлінеді, оның негізінде конфигурациялар салынып, белгілер анықталады. Ортаңғыда екі компонент бар: түрлендіру қадамы және оны орындаудың курсивпен белгіленген нәтижесі. Оң жақ бөліктің блоктары тілдің ережелері болып табылады және сол және орталық бөліктердің блоктарына кестелер, ережелер, заңдылық шарттары, өңдеу алгоритмдері түрінде тікелей енеді. Бұл схема сөйлеуді синтездеу жүйелері үшін әдістемелік негіз ретінде пайдаланылуы мүмкін. Жоғарыда келтірілген модель баспа мәтінін алуды сипаттайды, алайда бұл схемада хабарлама мен диалогтың семантикасы мен прагматикасының нақты алынуы жоқ. Бұл жағдайда адам мен машина әрекетіндегі диалогтың толық жүйесін қарастырған жөн.
Енді сөйлеу диалогының жалпыланған моделін қарастырамыз. Жоғарыда келтірілген тізбектер тек 3-суреттегі үздіксіз сызықтармен көрсетілген тікелей түрлендіру арнасын пайдаланады. Үзік-үзік көрсеткілер хабарламаны қалыптастыру мен талдауды келісу үшін байланысты толтыруға арналған болжамды көрсеткілерді көрсетеді.
 
3-сурет – ақпаратты түрлендірудің жеңілдетілген схемасы
 
4-сурет – сөйлеу және сөйлеуді қабылдаудың жалпылама схемасы
 
Ақпаратты түрлендіру жүйесінің тиімділігін арттыру үшін сөйлеуді синтездеу және танудың келесі жүйесі ұсынылады (4-сурет).
Осылайша, 4-суретте құрылған жалпыланған схема әртүрлі априорлық білімді ескереді: тілдік (фонетика, лексика, синтаксис, семантика, просодия) және тілдік емес (диалогтың пәндік саласын білу). Сөйлеу жүйелерінің сыртқы кіріс және шығыс деректері:
- берілген тіл мен пәндік аймақтың сөздері мен сөз тіркестерінің семантикалық кеңістігі;
- сөйлеу сигналы;
- синтез жүйесінің сигналы-сөйлеу жүйесінің параметрлері.
Адамның сөйлеуді қабылдауы кіретін ақпаратты өңдеудің бірнеше кезеңдерінен тұрады. Бұл кезеңдерді деңгейлер иерархиясы түрінде ұсынуға болады (4-сурет). Осы деңгейлердің әрқайсысында ақпаратты өңдеуді қамтамасыз ететін өзіндік мәліметтер мен ережелер жиынтығы бар. Тиісінше, жоғарғы деңгейлердің алдында тұрған мәселелерді шешу үшін (сөз тіркестерін, мәтінді тану) төменгі деңгейлердің есептерін шешу қажет.
Сөйлеу кезінде, керісінше, төменгі деңгейдегі мәселелерді шешу үшін жоғарғы деңгейдегі мәселелерді шешу қажет. Сөйлеуді қабылдау және сөйлеуді қалыптастыру жүйелерінің өзара әрекеттесуі иерархияның әр деңгейінде болатын осы жүйелер арасындағы кері байланыс арқылы қамтамасыз етіледі (4-сурет).
Мысалы, сөйлеуді синтездеу кезінде сөйлеу сигналының өзгергіш сипаттамаларына үнемі бейімделу қажет. Ол үшін кері байланыс сөйлеу сигналын қабылдау жүйесін қолдана отырып енгізіледі және оның параметрлері түзетіледі [12].
Жүйенің әрбір таңдалған объектісі тіл, қайта құру ережелері және басқа деңгейлермен байланыс туралы мәліметтер жиынтығымен анықталады. Сөйлеу жүйесі моделінің схемасы тек екі деңгейдің тікелей байланысын көрсетеді: жоғары және төмен. Шындығында, көп қатынастар бар.
Сонымен, жоғары деңгейлерде белгілі бір тілдің моделі туралы білім, яғни дыбыстық құрылым, морфология, синтаксис, сонымен қатар диалогтың қазіргі пәндік аймағы туралы ақпарат үлкен мәнге ие.
Төменгі деңгейлерде бұл білім маңыздылығын жоғалтады. Төменгі деңгейлерде тілдің кез-келген моделіне ортақ сөйлеу сигналы туралы Білім негізгі мәнге ие болады. Тілдердегі айырмашылықтардан бұл тәуелсіздік әртүрлі адамдардың сөйлеу жүйесі мен есту жүйесі құрылымының бірдей принциптеріне байланысты.
Төменгі деңгейде тану мәселелерін шешу үшін адамның есту жүйесінің құрылымы мен жұмысы, әртүрлі дыбыстардың қалыптасу заңдылықтары, әртүрлі тілдердің фонетикалық құрамы (фонемалардың жалпы кластарын анықтау үшін) және сөйлеу сигналдарының параметрлік сипаттамасы туралы ақпаратты пайдалану қажет. Ұсынылған ақпарат модельдерді толтырады (1 – 4 суреттер).
Мысалы, мәтінді транскрипциялағаннан кейін әріптер таңбалары қолданылмайды. Жеке мәліметтер базасы олардың қолданылуын шектейтін кезеңдерде ғана қолданылады. Сонымен, ақпараттың ұзақтығын бағалау кезеңінде шамамен 5% – ы қолданылады, ал екпіндерді орналастыру – 20%.
Мәтінді өңдеудің қарастырылған кезеңінде негізінен тілге тән заңдылықтар қолданылады. Диктордың параметрлері (өкпенің көлемі, сөйлеу түзуші трактінің учаскелерінің параметрлері, жынысы, артикуляциялық органдардың параметрлері, сөйлеу қарқыны) орташа мәндер мен шектеулер деңгейінде ғана ескеріледі.
Ескерілетін ерекшеліктерді деректер базасы (ДБ) түрінде ұсынуға және пайдалануға болады:
1) дыбыстардың ұзақтығы (дыбыстар саны тілмен, олардың нақты мәндері – диктормен анықталады);
2) біз екпін қоятын сөздер (сөздердің саны тілмен анықталады (мәтіндердің 70% қамту үшін), бірақ белгілі бір диктор немесе диалект үшін айырмашылықтар болуы мүмкін);
3) транскрипциялау (толығымен тілмен анықталған, бірақ сөйлеушілер мен белгілі бір диктор үшін кейбір өзгерістер болуы мүмкін);
4) типтік сөйлемдердің әуені (тіл үшін қалыптасады және диктордың жеке ерекшеліктерін, яғни өкпе параметрлерін, тұрақты уақытты, негізгі тонның жиілігі бойынша шектеулерді, орташа мәндерді ескереді).
Сөйлеуді синтездеу мен танудың әзірленген модельдері мен сызбаларын алгоритмдік (бағдарламалық) қамтамасыз ету түрінде іске асыруға болады. Олар сөйлеуді қалпына келтіру үшін оңалту кешенін іске асыруда осындай тиімділікті көрсетті [13].
Дауыс қалыптастыру процесінің сипаттамаларын ескеру пациенттердің дауысын зерттеу сапасын жақсартуға және логопедтің жұмысына қатысты оңалту кезеңін 2 - 3 есе қысқартуға мүмкіндік берді.
Авторлардың зерттеу нәтижелері мақалада келесі қорытындылармен қорытындыланады:
1) иерархиялық көп деңгейлі күрделі жүйелер теориясы тұрғысынан сөйлеуді синтездеу және тану жүйелері қарастырылады.
2) сөйлеу ақпаратын екі оқшауланған жүйе түрінде өңдеу алгоритмдері ұсынылған, бұл сөйлеу сигналын синтездеу мен танудың тікелей және кері есептерін шешуге мүмкіндік береді, олар аналогтардан дикторға және тілге байланысты ақпаратқа бөлінеді.
3) сөйлеуді синтездеу мен танудың екі ішкі жүйесін жаңа сапамен бірыңғай диалог жүйесіне біріктіру ұсынылады.
4) тілқатысу құрылымын қолданатын бірыңғай бағдарламалық және аппараттық кешен түрінде сөйлеуді синтездеу және тану алгоритмдерін жүзеге асырудың перспективаларын көрсетеді.
 
Пайдаланылған әдебиеттер
 
1 Гренандер У. Лекции по теории образов: Т. 1. Синтез образов / под ред. Ю.И. Журавлева; пер. с англ. – М.: Мир, 1979. – 383 с.
2 Мещеряков Р. В., Бондаренко В. П., Организация баз знаний в системе синтеза речи // Теория и практика речевых исследований (АРСОО99). Матер. конф. – М.: МГУ им. М.В. Ломоносова, 1999. – С. 37–38.
3 Флейшман Б. С. Элементы теории потенциальной эффективности сложных систем. – М.: Советское радио, 1971. – 223 с.
4 Златоустова Л. В., Потапова Р. К., Трунин-Донской В. Н. Общая и прикладная фонетика. – М.: Изд-во МГУ, 1986. – 304 с.
5 Математическая лингвистика. Сб. переводов / под ред. Ю. А. Шрейдера, И. И. Ревзина, Д. Г. Лахути, В. К. Финна. – М.: Мир, 1964. – 144 с.
6 Филичева Т. Б., Чевелева Н. А., Чиркина Г. В. Основы логопедии. – М.: Просвещение, 1989. – 223 с.
7 Потапова Р. К. Речь: коммуникация, информация, кибернетика. – М.: Радио и связь, 1997. – 528 с.
8 Сорокин В. Н. Синтез речи. – М.: Наука, 1992. – 392 с.
9 Трунин-Донской В. Н. Автоматический синтез звучащего текста // Звучащий текст. – М.: Институт научной информации по общественным наукам, 1983. – С. 218–250.
10 Потапова Р. К. Речевое управление роботом. – М.: Радио и связь, 1989. – 246 с.
11 Дмитриев Л. Б., Теляева Л. М., Таптапова С. Л., Ермакова И. И. Фониатрия и фонопедия. – М.: Медицина, 1990. – 272 с.
12 Бондаренко В. П., Мещеряков Р. В. Диалог как основа построения речевых систем // Кибернетика и системный анализ. – 2008. – № 2. – С. 30–41.
13 Бондаренко В. П., Квасов А. Н., Конев А. А., Мещеряков Р. В., Чойнзонов Е. Л., Чижевская C. Ю. Программные средства комплекса исследования речевого сигнала при злокачественных заболеваниях гортани // Медицинская техника. – 2009. – № 4. – С. 33–37.
Звоните на номер:
Напишите нам
По всем вопросам, просим написать на почту! 
Мы находимся по адресу:
M02E6B9

Казахстан, г. Караганда