گۆڕینی دەق بۆ دەنگ (Text-to-Speech)

گۆڕینی دەق بۆ دەنگ (Text-to-Speech)

لە سەرانسەری جیهاندا، لە هەر شوێنێک تەکنۆلۆژیا لە ژیانی ڕۆژانەمان بە شێوەیەکی بەرچاو گەشە بکات، دروستکردنی دەنگ لە کۆمپیوتەر دەبێتە بەشێک لەو گەشەکردنە. ئامانجی سەرەکیی سیستەمی گۆڕینی دەق بۆ دەنگ (TTS) کردارێکە بۆ بەرهەمهێنانی دەنگێکی نزیک لە دەنگی مرۆڤ کە لە دەقێکی نووسراوەوە بەرهەم هاتووە، بەرهەمهێنانی قسەکردنێک کە هاوشێوەی قسەکردنی مرۆڤە. لە ساڵانی ڕابردووشدا لەڕێگەی بەکارهێنانی زیرەکیی دەستکردەوە توانراوە دەنگی زۆر سروشتیتر و نزیکتر بە دەنگی مرۆڤ دروست بکرێت. گرنگترین خزمەتەکانی ئەم سیستەمانە بریتین لە گەشەپێدانی زمان لە دونیای کۆمپیوتەردا و یارمەتیی خاوەن پێداویستیی تایبەت (بەتایبەت بۆ ئەو کەسانەی کە نابینان یان لە بینین یان خوێندنەوەدا کێشەیان هەیە).

مۆدێلی سەنتەسایزەری قسەکردن کە لە کارەکانی ئێستادا لەبەر چاو گیراوە، سیستەمی کۆئەندامی دەنگی مرۆڤ و تایبەتمەندییە جیاوازەکانی دەنگی مرۆڤ بە کار دەهێنێت بۆ دروستکردنی دەرەنجامە دەنگییە مرۆیییە تەواو «دروستکراوەکان» کە هاوتایە لەگەڵ دەقە هاتووەکان. لە ئێستادا سیستەمی TTS لە زۆر شوێن بە کار دێت، بە پلەی یەکەم، ئەم سیستەمە لە یاریدەدەری کەسیدا (personal assistants) بە کار دەهێنرێت و زۆرترین یاریدەدەری کەسی کە بە شێوەیەکی گشتی بە کار دەهێنرێت بریتین لە Siri و Alexa و Google Assistant. هەموو ئەو خزمەتگوزارییانەی باس کراون لەگەڵ دروستکردنی دەنگدا یەکگرتوون بۆ وەڵامدانەوەی بەکارهێنەران.

مێژووی سیستەمی گۆڕینی دەق بۆ دەنگ:

سیستەمی گۆڕینی دەق بۆ دەنگ مێژوویەکی زۆر کۆنتری هەیە بە بەراورد لەگەڵ مێژووی خودی دروستبوونی کۆمپیوتەر و دەتوانین بیگەڕێنینەوە بۆ ساڵی ١٧٨٠ کە سیستەمێکی میکانیکی بۆ دروستکردنی دەنگ دروست کرا. لە ساڵی ١٩٣٦ یەکەمین سیستەمی خوێندنەوەی دەقی ئینگلیزی دروست کرا، کە سیستەمێکی میکانیکی بوو بەناوی سەعاتی قسەکەر (Speaking clock) کە تەنیا توانای گوتنەوەی چەند دانە لە کاتژمێرەکانی هەبوو. پاشان پەرەی پێ درا و لە ساڵی ١٩٣٩ ڤۆدەری دودڵی (Dudly) دروست کرا کە بە شێوەیەکی ئەلیکترۆنی دەنگی دروست دەکرد و بۆ ئەو کاتەی ئەمریکا سیستەمێکی بەرچاو بوو. لە ساڵی ١٩٨٧دا Klat دروست کرا کە لەسەر بنەمای Formant بوو، واتە نزیک بوو بە مۆدێلی چۆنیەتی دروستبوونی دەنگ لە مرۆڤەکاندا و بە شێوەیەکی ئەلیکترۆنی لەڕێگەی دانانی کۆمەڵە ڕێسایەکەوە دەنگەکانیان دروست دەکرد. لە نەوەدەکان بەدواوە، کار بە تەکنیکی Concatenation کرا بۆ دروستکردنی TTSەکان. پاشان لە ناوەڕاستی نەوەدەکان کار بە تەکنیکی پارامێتریی ئاماری (Statistical Parametric) کرا کە بۆ ئەو کاتە ژاپۆنییەکان هاتن کاریان لەسەر مۆدێلی Straight کرد بۆ دروستکردنی دەنگ. لە پاش ساڵی ٢٠١٠ەوە تەکنیکەکانی فێربوونی قووڵ (Deep Learning) بە کار هێنراون.

دەتوانین بڵێین کە نزیک بە یەک سەدەیە TTS بۆ زمانی ئینگلیزی هەیە. ئەگەرچی سەرەتاکانی گەشەسەندنی ئەم سیستەمە کوالێتییەکەی زۆر لە خوارەوە بوو، بەڵام لەگەڵ پێشکەوتنی کۆمپیوتەر، ئەمیش گەشەی سەند بۆ ئاستی زۆر پێشکەوتوو. ئێستا بۆ ئینگلیزی دەتوانین بڵێین کە گوێگری ئاسایی ناتوانێت دەنگی مرۆڤ و دەنگی دەستکرد جیا بکاتەوە. بەداخەوە، هێشتا زمانی کوردی لە سیستەمەکانی گۆڕینی دەق بۆ دەنگدا زۆر لە دواوەی زمانەکانی دیکەیە.

یەکێک لە سیستەمە هەرە کۆنەکانی TTS بریتییە لە (Formant-based)، مۆدێلێکە زۆر نزیکە بە مۆدێلی چۆنیەتی دروستکردنی دەنگ لە مرۆڤەکاندا، لەڕێگەی دانانی کۆمەڵە ڕێسایەکەوە، بۆ نموونە دەنگی /a/ چۆن دروست دەبێت لە مرۆڤەکاندا مۆدێل دەکەن.

پاشان لەدوای ئەم سیستەمە کار لەسەر تەکنیکێکی دیکە کرا بۆ دروستکردنی سیستەمی (TTS) ئەویش تەکنیکی Concatenation بوو، واتە لکاندنی بەشەکان بەیەکەوە. نموونەی زۆر سادەی ئەم سیستەمە ئەوەیە کە لە سیستەمە بانکییەکاندا بە کار دەهێنرێت بۆ سەرەگرتن. کە چەند دەنگێک دانە دانە ڕیکۆرد دەکەن و پاشان ئەو دەنگانەی کە پێویستە بگوترێن دەلکێنن بە یەکەوە. بەڵام پێویستە ئاماژە بەوە بدەین کە ئەم سیستەمانە کۆمەڵێک کێشە و کەموکوڕییان هەیە. یەکێک لە کێشەکان ئەوەیە کە ئەو دەنگەی کە دروست دەبێت سروشتی نییە چون لەنێوان وشەکاندا ڕاوەستانێک دروست دەبێت. هەرچەندە هەوڵ درا بۆ دۆزینەوەی چارەسەر بۆ ئەم کێشەیە لەڕێگەی بەکارهێنانی (unit selection) واتە لکاندنی یەکە (unit) ـەکان بەیەکەوە، کە دەشێت ئەو یەکانە فۆنیم (phoneme) بێت یان وشەیەک بێت. نموونەی زۆر دیاری ئەم سیستەمانە Festival و Festvox ـە.

کێشەیەکی دیکەی (Concatenation) ئەوەیە کە (flexible) نییە واتە ئەگەر دەنگەکان بە دەنگی پیاو ڕیکۆرد کرابوون، ناتوانین بیگۆڕین بۆ دەنگی ژن یان منداڵ واتە ناتوانین دەنگی هەمەجۆری لێ بەرهەم بهێنین. بۆ چارەسەرکردنی ئەم کێشەیە تەکنیکێکی نوێ بە کار هێنرا بە ناوی پارامێتریی ئاماری (Statistical Parametric) کە پشتی بەستووە بە مۆدێلی شاراوەی مارکۆڤ (Hidden Markov Model یان HMM)، بۆ تاک تاکی فۆنیمەکان یان یەکەی گەورەتر لە فۆنیم وەکوو بڕگە (syllable) یان چەند فۆنیمێک بەیەکەوە مۆدێلێکی پارامێتری ئاماری فێر دەکەن کە (HMM-based) و ئەو مۆدێلە دابەشبوونێکی کرداری (Distribution Function) ێکە بۆ نموونە (Distribution Function) ی /a/ فێر دەکەن بە داتا، کە ئەمە جۆرێکە لە (Machine Learning) پاشان لەڕووی ئەم مۆدێلەوە داتا دروست (generate) دەکرێت. بە هەمان شێوەی سیستەمەکانی پێشوو ئەم سیستەمانەش کۆمەڵێک کەم و کورتی هەیە و ئەو دەنگەی کە دروست دەبێت دەنگێکی سروشتی نییە.

لە دوای ساڵانی ٢٠١٠ ەوە بۆ دروستکردنی TTS لەسەر تەکنیکەکانی فێربوونی قووڵ (Deep Learning) کار کراوە. گرووپی Deepmindی گووگڵ کاریان لەسەر کرد و ئەو مۆدێلانەی کە دروستیان کردووە بریتین لە مۆدێلی WaveNet، مۆدێلی Tacotron و وەشانە نوێیەکانی، SpeedySpeech و هتد. بۆ دروستکردنی مۆدێلی TTS بە دیپ لێرنینگ، پێویستمان بە ڕێژەیەکی زۆری داتای دەقی و داتای دەنگی هەیە کە پێویستە دەقەکان لەدوای ئەوەی کە لە سەرچاوە جیاوازەکانەوە کۆ دەکرێنەوە، ڕستە ڕستە دابەش بکرێن و پاشان لە شوێنێکی ئارام وەک ستۆدیۆ کەسێک هەموو ڕستەکان بخوێنێتەوە و دەنگەکان تۆمار بکرێن. پاشان ئەم داتایانە دەدەین بەو پلاتفۆرمانەی کە پێشتر ئاماژەیان بۆ کرا بۆ ئەوەی دەنگمان بۆ دروست بکەن. بۆ زمانی کوردی زۆر بە ئاسانی دەتوانین ئەم کارە بکەین.

قازانج یان کەڵکەکانی سیستەمی گۆڕینی دەق بۆ دەنگ

  • یارمەتیی ئەو کەسانە دەدات کە لە خوێندنەوەی دەقدا کێشەیان هەیە (نابینایان، کەسانی کەمخوێندەوار، نەخوێندەوار و بەتەمەن): باوترین بەکارهێنانی سەنتەسایزەری دەنگ وەک یارمەتی خوێندنەوە و پەیوەندیکردنە بۆ ئەو کەسانەی کە کێشەی بینینیان هەیە. لەبەر ئەوەی ئەم کەسانە ناتوانن ڕێکوپێکی دەقەکانی هاتوو ببینن لە کاتێکدا گوێیان لێ دەگرن بە سەنتەسایزەری دەنگ، یەکێک لە گرنگترین ئەرکەکان بریتییە لە دابینکردنی کۆمەڵێک زانیاری دەربارەی دەقەکان بۆ ئەوەی پێشوەختە بخوێننەوە.
  • جێبەجێکردنی لە پەروەردە یان قوتابخانەکاندا: گۆڕینی دەق بۆ قسەکردن ئامرازێکی بەهێزە بۆ باشترکردنی فێربوونی زمانەکان. کۆکردنەوەی دەق بۆ قسەی کوالێتی بەرز زۆر جار بە هاوبەشی لەگەڵ تەکنیکەکانی فێربوون بە یارمەتی کۆمپیوتەر بە کار دەهێنرێن، و سەرچاوە پێشکەش دەکەن بۆ یارمەتیدانی منداڵان یان فێرخواز بۆ فێربوونی چۆنیەتی بێژەکردنی وشەکان یان دەستەواژەکان بە دروستی. لەوانەیە TTS بە شێوەیەک دیزاین بکرێت کە بە ئامێری جۆراوجۆر کار بکات بۆ ئەوەی خزمەتگوزاری وانەگوتنەوەیەکی بەردەوام پێشکەش بە خوێندکاران بکات. هەروەها دەتوانرێت TTS بە کار بهێنرێت بۆ ئەوەی دۆزینەوەی زانیاری گرنگ ئاسانتر بێت. چارەسەرە دەنگییەکان ژیان بۆ زۆرێک لە بەکارهێنەران سادەتر دەکەن بە دروستکردنی زانیاری بۆ ئەو کەسانەی کە کەم بینان و ئەوانەی ناتوانن بخوێننەوە یان بنووسن: لەگەڵ قسەکردنی دەنگی سروشتی، دەنگی بەکارهێنەر جێگەی شاشەکە دەگرێتەوە.
  • بەکارهێنانی بۆ کەسانی کەڕ و کەمئەندامی دەنگی: ئەوانەی کێشەی قسەکردنیان هەیە دەتوانن پەیوەندی لەگەڵ ئەو کەسانەدا بکەن کە کێشەیان هەیە یان ناتوانن لە زمانی ئیشارەت تێ بگەن بە بەکارهێنانی دەنگی دەستکرد.
  • بۆ ئۆتۆمبێل: ئامێری سەنتەسایزەری دەنگ یەکێکە لە ئاسانترین و باشترین ڕێگاکانی پشتبەستن بۆ پەیوەندیکردن بە پاراستن لە هەمان کاتدا دەستەکانمان لەسەر تایەی ئۆتۆمبێل و چاوەکانمان لەسەر شەقام دەهێڵینەوە. کێشەکانی جێگری گەشتیاری، زانیاری هاتووچۆی ڕێگاوبان، خوێندنەوەی ئیمەیل، زەنگی ئاگادارکردنەوە، تەکنیکەکانی دەستنیشانکردن، حجزکردنی ئۆنلاین و پەیوەندی ئینتەرنێت چارەسەر دەکات.
  • بەکارهێنانی لە پەیوەندییەکان: دەق بۆ قسەکردن لە پەیوەندییەکاندا بە کار هێنراوە بۆ گەیاندنی پەیامێکی گرنگ بە بەکارهێنانی سیگناڵە دەنگییەکان کە لە وشەی دەقیدا دروست کراون. بۆ دەیان ساڵە، قسەکردنی کۆکراوە لە چەندین سیستەمی شیکاری تەلەفۆندا بە کار دەهێنرێت بۆ وەرگرتنەوەی زانیاریی هاوبەش، لەوانەش ژمارەی تەلەفۆنی پەیوەندیکەر و پشکنینی باڵانسی ئەکاونتەکان.
  • بەرنامەکانی ماڵتی میدیا: یوتیوبەرەکان ساڵانێکە TTS بە کار دەهێنن بۆ دروستکردنی قسەکردن لە دەقە نووسراوەکانەوە و ئەم زانیاریانە لە ڤیدیۆکانیاندا وەک بەدیلێک بۆ خوێندنەوەیان بە کار دەهێنن. ئەمەش سەرنجڕاکێشیی ڤیدیۆکەیان باشتر دەکات و لە هەمان کاتدا کاتیش پاشەکەوت دەکات. فێرکاری زمان، کات بەسەربردن، کارەکتەرە قسەکەرەکان، خوێندنەوەی ڕاستکردنەوە و بەرنامەکانی بەرهەمهێنان، هەروەها یارمەتیدەری قسەکردنی ئۆنلاین، وێبگەڕی قسەکردن و زۆر شتی تر، ئەمانە هەموویان سوودمەندن لە TTS.

چۆنێتی کارکردنی سیستەمەکانی گۆڕینی دەق بۆ دەنگ:

بە شێوەیەکی گشتی لە سیستەمی گۆڕینی دەق بۆ دەنگدا، ئەوەی کە دێتە ژوورەوە بۆ سیستەمەکە بریتییە لە دەق و دەرچوون یان ئەو دەرەنجامەی کە بە دەست دێت بریتییە لە دەنگ. لە هەموو سیستەمێکی TTSدا دوو هەنگاوی سەرەکی هەیە: یەکەمیان هەنگاوی شیکاریی دەقە، کە بریتییە لە نەخشەکێشانی هاتنەژوورەوەی دەق بۆ فۆنیم یان نوێنەرایەتییە زمانییەکانی تر. پرۆسێسی زمانی سروشتی (NLP) ناوێکی دیکەیە بۆ ئەم ڕێکارە. دووەم: شیکاریی قسەکردن، کە شێوەی شەپۆلی قسەکردن بە بەکارهێنانی داتای فۆنەتیک و پڕۆسۆدیکس بەرهەم دەهێنێت. پرۆسێسی سیگناڵی دیجیتاڵی (DSP) ناوێکی دیکەیە بۆ ئەم ڕێکارە. لە وێنەی خوارەوەدا تەلارسازی سیستەمی گۆڕینی دەق بۆ دەنگ نیشان دراوە.

وێنە: تەلارسازی سیستەمی گۆڕینی دەق بۆ دەنگ

لە بەشی پرۆسێسی زمانی سروشتی (NLP)، یەکێک لەو کارانەی کە ئەنجام دەدرێت بریتییە لە پرۆسێسکردنی دەقەکان، واتە ئەو دەقەی کە داخڵی دەکەین یەکەم هەنگاو بە شیکاری دەقدا (Text Analysis) دا تێپەڕ دەبێت، کە لێرەدا پێویستە ئەگەر ژمارەمان هەبوو، بۆ نموونە «١٠٢٤»، پێویستە بزانین ئایا ئەم ژمارەیە پارەیە یان ژمارەی تەلەفۆنە یان ژمارەی هەرچییەک بێت پێویستە ژمارەکان بکرێنە سەر شێوەی نووسین. پاشان لە هەنگاوی یەکدەستکردنی دەقەکاندا (text normalization) کە بە مانای خاوێنکردنی دەق یان ستانداردکردنی بەپێی ڕێساکانی ڕێنووس و ئەلفوبێ. پاشان لە هەنگاوی شیکاری زمانەوانیدا (linguistic analysis) پێویستە وشەکان بەپێی جۆرەکەیان (کە ئایا ناوە یان کار) وە هەروەها ئەو وشانەی کە بە یەک شێوە دەنووسرێن بەڵام لە یەک مانا زیاتریان هەیە (homograph)، پێویستە حیسابیان بۆ بکرێت.

بەشێکی تری پرۆسێسی زمانی سروشتی (NLP) بریتییە لە شیکاریی فۆنەتیکی (Phonetic Analysis). لێرەدا پێویستە وشەکان لەسەر شێوەی نووسینەوە بکرێنە سەر شێوەی گوتنەوە لە ڕێگەی بەکارهێنانی ئەلگۆریسمی گرافیم بۆ فۆنیم (G2P)، یان کەڵکوەرگرتن لە وشەدانێک کە بێژەکردنی هەموو وشەکانی تێدا نووسرابێت یان لەڕێگەی مۆدێلی شاراوەی مارکۆڤ (HMM) و فێربوونی قووڵیش ئەم کارە دەکرێت.

بەشێکی تر (prosody) واتە ئینتۆنەیشنی خوێندنەوەی ڕستەکان، ئایا ڕستەکە دەربڕینەکەی لەسەر شێوەی پرسیارە یان هەر ئاسایییە بۆ نموونە ڕستەی «ئەمڕۆ دەچیت بۆ بازاڕ؟» بە بەراورد لەگەڵ هەمان ڕستە کە پرسیاری نەبێت، واتە «ئەمڕۆ دەچیت بۆ بازاڕ.» لەڕووی دەربڕینەوە جیاوازن و پێویستە ڕەچاوی ئەم حاڵەتانە بکرێت. وە هەروەها هەندێک بڕگە یان وشە هەیە کە هێز (stress)یان لەسەرە یان وشە هەیە بەپێی ماوە (duration) ماناکەی دەگۆڕێت کە ئەمانە دەتوانرێت لەڕێگەی فیچەری لەرینی قوڕگ (pitch) کۆنترۆڵ بکرێن.

ئەم کێشانەی کە باس کران لە زمانی کوردیدا تا ڕادەیەک کەمترن بە بەراورد بە زمانەکانی تر لەبەر ئەوەی زمانی کوردی خاوەن ماپینێکی تا ڕادەیەک یەک بە یەکە هەم لە ڕووی نووسین وە هەم لە ڕووی قسەکردنەوە.

بەشی دووەمی سیستەمەکە، پرۆسێسی سیگناڵی دیجیتاڵی (DSP) کە سێنتەسایزی دەنگەکە دەکات لەڕێگەی ئەو تەکنیکانەی کە لە بەشی پێشەوە باسمان کرد وەکوو: formant based و concatenation و statistical parametric و deep learning.