СТАТЬИ УВЕР ЙОГЫН

Нейросеть: туныкташ исходный данныйым ямдылымаш   (марий йылме примереш)

Йылме-влакын чотышт кажне арнян эн шагалже ик-кокытлан шагалемеш. Специалист-влакын шымлымышт почеш, ончыкыжым тиде сӱрет эшеат писемеш, а шукышт ойлат: вашке тӱняште 200 деч шуко огыл йылме гына кодеш. Молан тыге? Гутенбергын книгам савыктымым шонен лукмыж деч вара XV-ше курымышто йылме-влак письменный да письменный огыллан шелалташ тӱҥалыныт. Тиде процесс 500 ий наре шуйнен. Кариб кризис деч вара (60-шо ийлаште) икте-весе ваштареш шогышо-влак кидысе «сапыштым» эшеат пеҥгыдемдаш тыршеныт. Тыге интернет шочын. Шуко жап тудын дене США-н военный ведомствыжо гына пайдаланен, вара гына тушко гражданский калыкым «пуртеныт», а икмыняр жап гыч моло кугыжаныш-шамычат ушненыт – ончычшо тӱҥ шотышто англичан йылме дене кутырышан-влак. Но нелылык деч посна лийын огыл: тунамсе интернетыште англичан алфавитын букваже-шамычым гына кучылтын кертыныт. Сандене европысо эл-влаклан тушко «пураш» кодировкышто «косметический ремонт» манметым ышташ кӱлын. А Совет Ушемын, варажым Российын ушнымекышт, умыленыт: тӱнясе чыла йылме-влакын алфавитысе знакыштым чын ончыктышо единый кодировко кӱлеш. Тыге 1990-ше ийлаште юникод шочын, но тиде кодировкым ончыктышо шрифт-шамыч шагал лийыныт. Адакшым операций системым ыштыше-влак кокла гыч шукынжо юникодлан «бойкотым» увертареныт. Но книгам да периодикым, мутлан, Российыште марий, татар, башкир, удмурт, якут, бурят да моло йылмыла дене савыкташ кӱлын. Сандене элна мучко стандартный огыл, шке гыч шонен ямдылыме шрифтлам кучылташ тӱҥалыныт.

21-ше курым тӱҥалтыште, интернет дене шукырак еҥ пайдаланаш тӱҥалмеке, миноритарный йылме-шамыч дене пашам ыштыше-влакет трук «цифровой неравенстве» манметым шижыныт. Шукышт тӱнямбал сетьыште шочмо йылмыштым йӧршынат кучылт кертын огытыл, нунын алфавитыштышт улшо южо букван юникодшат лийын огыл. Умыленыт: тачысе илышыште нунын ончыкылыкышт уке.

2011 ий апрельыште Россий Федерацийын Региональный вияҥмаш министерствыж ден Европо Советшын полшымышт дене Йошкар-Олаште «Компьютер технологийлаште изи чотан калык-влакын йылмышт: опытышт, задачышт да ончыкылыкышт» тӱнямбал конференций лийын. Лач тушто ик информаций кумдыкышто йылмылан пашам ышташ кӱлешан технический инструментым ойленыт, а лачшым:

  • национальный йылме-влакын да клавиатурын графический системыштлан стандартизоватлыме электрон ончалтыш;
  • электрон мутер-влак;
  • чын возымым тергыше системе;
  • автоматический кусарыме системе;
  • кычалме системе.

 Тыгак конференцийыште компьютер программым тунемме системым, электрон учебникым, национальный йылмыла дене контентым да молымат ышташ кӱлмӧ нерген палемденыт.

Участник-влак тунам «кычалме системе» пунктшым тыге умыленыт: кӱлеш материалым мут але ой полшымо дене гына огыл, а умылымаш дене кычалмаш. Чынжым гын, паша умбакыже ышталтеш гынат, тиде шонымаш тӱняште ик йылме денат илышыш тичмашнек пурталтын огыл.

Тиде конференций деч вара 10 ий эртен. Жап умбакыже кая. Палемдыме 5 пунктыш эн шагалже кумыт ешаралтын:

  • ойын синтезаторжо;
  • ойым пален налмаш;
  • искусственный интеллектым структурыш чумырыдымо данныйым обрабатыватлаш кучылтмаш.

Нейросеть-влакым кучылтмаш автоматический кусарыше-влакым да молым ыштыме пашам ятырлан куштылемден.

2016 ийыште республикысе Марий тӱвыра рӱдерыште марий йылмым да тӱвырам у семын вияҥдыме шотышто (инноваций) пӧлкам ыштыме. Тудын икымше задачыже тыгай лийын: марий йылмым (олыкмарлат, курыкмарлат) интернетысе Яндекс.Переводчик-ыш пурташ. «Яндекс» компанийын машина дене кусарыше пӧлкажын йодмыжо почеш, исходный данныйым ямдылаш тӱҥалме: руш да марий предложений-влакым тӧремден пуртышо формализованный грамматике ден параллельный корпусым. Марий кусарышым пашаш колтымо деч ончыч 250 тӱжем тыгай предложениян базым поген кертме, но кусарыше машина сайын пашам ыштыже манын, ик миллион кӱлеш. 2017 ийыште «Яндексыш» вашталтышым пуртымо, сандене Российысе национальный йылме-влак дене паша чыгынен шогалын, а марий йылме Яндекс.Переводчикыште таче марте «бета» значок дене палемдалтын – тудыжо мучаш марте ыштен шуктыдымым ончыкта. (Ныл ий эртымеке ынде ме умылена: пашам умбакыже шуйыман ыле, но тидын нерген варарак.)

2017 ий мучаш гыч 2021 ий 1 январь марте Марий тӱвыра рӱдерын марий йылмым да тӱвырам у семын вияҥдыме шотышто пӧлкаже (кок еҥ) ден Йылмым, литературым да историйым научнын шымлыше В.М.Васильев лӱмеш марий институт (ик еҥ) кучылталтше мутан марий йылме корпусым (эн шагалже 20 миллион мутан) ышташ ямдылалтыныт. Паша мучашке лишемын. 2020 ий кокымшо пелыште Российысе марий-влакын ФНКА-шт ФАДН-ын субсидийже кӱшеш марий ойлан синтезаторым ышташ темлен. Кӱлеш оборудованийым налыныт: нейросетьым почаш видеокартан серверым, йӱкым возаш студийлан профессионал техникым. Нейросетьым тунемаш TensorFlow, PyTorch, MXNet  ямде библиотеке-влакым кучылташ йӧн лийын. Программым пашаш колташ Python йылме дене икмыняр корнан код гына. Тидын нерген тунам, 2017 ийыште, палена ыле гын, параллельный корпусым ыштыме пашам огына шогалте да таче марте чыла кӱлеш ик миллион предложениетым погенат шуктена ыле. Опыт жап эртыме семын толеш.

Тугеже, эн неле паша: исходный данный-влакым ямдылаш. Ме mari-lab сайтыште нейросетьым тунемаш аудиокорпусым ыштыме пашан кузе кайымыж нерген калыкым палдарена. Кызытлан 13 шагат наре погымо. Тений шыжылан айдеме йӱкан 20 шагатым чумыраш палемденна. Варажым Марковын шылтыме моделян нейросетьшым туныктена, тыге марий ойын икымше синтезаторжым ыштена. 

Йӱкым палашланат аудиокорпус ышталтеш: ик текстымак тӱрлӧ верыште улшо йоча, пӧръеҥ, ӱдырамаш, илалше айдеме, удан але акцент дене ойлышо еҥ да молат диктофоныш лудыт. Аудиофайллаште йырым-йырысе йӱк (автомашинан кудалмыже да молат) лийшаш улыт – нейросеть марий йылме дене ойлышын йӱкшым палаш да тудын текстшым кусараш тунемшаш.

Шочмо йылмым вияҥдаш, ик информаций кумдыкыш лукташ, IT- да компьютер технологийлаште кучылташ тыршыше чолга еҥ-влаклан, компетенций рӱдерлаште пашам ыштыше-шамычлан  мемнан ой-каҥашна тыгай.  Нейросетьым палыше кӱкшӧ квалификациян программистда, сай видеокартан серверда уке гынат, кумылда ынже воло – тиде уло пашан 2-3 процентше гына. Эн тӱҥжӧ – исходный данный-влак. Кусарыше машинам ышташ манын, нуным кушто муаш? Кусарыме сылнымутым сканироватлыза да распознаванийым ыштыза: 1930-шо ийла гыч руш да тӱнямбал классик-влакын (А.С.Пушкинын, Н.А.Некрасовын, А.П.Чеховын, И.С.Тургеневын да молын) возымыштым национальный йылмылаш шагал огыл кусарыме. Параллельный текстым ышташ нунын рушла текстыштым интернетыште муаш лиеш. А 1950-ше ийлаште национальный йылмыла дене возымо книгам рушлаш поснак шуко кусараш тӱҥалыныт. Мутлан, марий йылмылан – М.Шкетан, Шабдар Осып, С.Г.Чавайн, А.Юзыкайн да молат.

Параллельный текст-влакын базыштым ышташ Abbyy Aligner, LF Aligner программылам кучаш але шке скриптым возаш возаш лиеш. Ик миллион предложениян базым параллель предложениян базым погымеке, тиде исходный данный-влак дене Яндексат, Googlат пайдаланаш тӱҥалеш… А тиде жаплан программист-влакат лийыт але нейросетьым туныкташ моло регион гыч специалистым йодын да шкендан кусарыше машинадам ыштен кертыда.

Ойын синтезаторжылан исходный данныйым ямдылыме пашат тыгаяк. Шке студийым почса, аудиокнига-влакым возыза, подкаст-шамычым ыштыза, электрон учебниклам йӱкаҥдыза. Произведенийым лудаш национальный театр-влакын артистыштым, радио ден телевидений пашаеҥ-влакым йодаш лиеш: пӧръеҥымат, ӱдырамашымат. Тыгодым начар тазалыкан еҥ-влак нергенат (поснак – начарын ужшо-шамыч) мондыман огыл. Нуно уверым, колыштын гына пален налын кертыт.

Ойлымым пален налме йӧным национальный йылмыла дене возышо журналист-влакат кучылтын кертыт: диктофоныш возымо икмыняр шагаташ интервьюм  вигак текстыш кусараш лиеш ыле. Искусственный интеллектын элементше-влакым кучылтын моштет гын, национальный йылмыла дене йӱкан полышкалышым ышташ лиеш, но тидыже – ончылно. А кызытеш, шокшым кергалтен, нейросеть-влаклан исходный данныйым погаш тӱҥалза: параллельный текстан базым ямдылыза, аудиокнигам возыза, нуныжо варажым аудиокорпусын негызше лийыт.

Палашлан, нейросеть (искусственный нейрон сеть) – айдеме вуйдорыкын принципше почеш пашам ыштыше компьютер программе: тудо «нейрон» системе (икте весе дене кылым кучышо простарак программе) гоч входной данный-влакым колта, вара тиде кыл негызеш результатым пуа. Кеч-могай нейросеть искусственный интеллектын шке гыч тунемше системыжлан шотлалтеш. Грек йылме гыч кусараш гын, «нейрон» шомак – «нерв».

                                                            МАРНИИЯЛИ-н шанче пашаеҥже АНДРЕЙ ЧЕМЫШЕВ.

                                                                                                                  Г.КОЖЕВНИКОВА марлаҥден.

 

 

Опубликовать в Одноклассники

Добавить комментарий