Системи з самоорганізацією та самонавчанням
Лабораторна робота №8

АІ синтез та переклад

Мета роботи. Набути навичок у навчанні нейромережі розпізнавати зображення, звуки та пози без написання коду машинного навчання. Набути знань, як використати отриману модель у власних проектах, на сайтах, у програмах тощо.

AI генератори голосу зі штучним інтелектом

Генератори голосу штучного інтелекту — це інструменти синтезу мовлення (Text-To-Speech, TTS), які доступні майже на будь-якому пристрої. Їх можна використовувати для перетворення будь-якого типу тексту в аудіофайли, які звучать точно як людські голоси за допомогою технології AI. Створення голосу є однією з багатьох причин, чому вони настільки популярні.

Програми для синтезу голосу є основними інструментами для людей з вадами читання, електронного навчання, вимови, голосових помічників, творців контенту та тих, хто просто не хоче читати текст самостійно.

Переваги використання високоякісних голосів, згенерованих ШІ

  • Використання технології синтезу мовлення або інструментів штучного інтелекту має численні переваги, вони полегшують життя. Якщо людина має будь-які проблеми з читанням, програми TTS стануть порятунком.
  • Багато людей навчаються на слух. Їм легше запам’ятовувати нову інформацію, якщо вони її чують, а використання високоякісних генераторів голосу дозволить їм створювати власні озвучення.
  • Ці програми здатні перетворювати текст на природне мовлення, і багато з них є зручними для користувача. В результаті вони зможуть заощадити час і підвищити якість навчання.
  • Вибір найкращого генератора голосу зі штучним інтелектом для індивідуальних потреб.

Метою користувача є знайти генератор тексту в мовлення, який має природне звучання голосів. Це зробить легке занурення у промову, і можна краще зосередитися на вмісті. Багатьом користувачам не подобається роботизований голос, який є в деяких програмах, але це не проблема для програм TTS вищого рівня.

Деякі з цих додатків є безкоштовними, а для інших потрібно буде платити щомісячну підписку. Преміум-версії запропонують більше функцій і вищу якість.

Синтез мови і клонування голосу Play.ht

У світі програм синтезу тексту в мовлення (TTS) Play.ht є одним із провідних варіантів. Це потужне програмне забезпечення, яке перетворює будь-який текстовий вміст у голосову промову. Свідченням його якості є кількість провідних світових брендів (від Hyundai до Samsung), які користуються його послугами. Play.ht це також програма для початківців авторів відео на YouTube і нових компаній.

Інтерфейс сервісу Play.ht
Рис.1. Інтерфейс сервісу Play.ht

Play.ht — це інструмент генерації голосу AI. Користувач пропускає через нього текст, а програма читає його йому вголос. Це робиться за допомогою акторів голосу зі штучним інтелектом. Існує понад 800 природних голосів і понад 130 різних мов і акцентів.

Звичайно, все можна налаштувати. Можна змінювати гучність, швидкість читання, емоційне забарвлення та регулювати висоту голосу. Play.ht також може працювати як інструмент клонування голосу, скануючи голос користувача і бездоганно відтворюючи його. Після введення тексту і налаштування параметрів, аудіо буде готове для завантаження. Його можна отримати у форматах MP3 та WAV, тобто високоякісні аудіофайли.

Play.ht має розширення для браузера, яке без проблем працює з багатьма популярними платформами, такими як Medium, WordPress і Google Docs. Ця функція надає змогу додавати аудіоверсію веб-ресурсів. Це доцільний спосіб зробити вміст доступнішим для широкої аудиторії, особливо для тих, хто надає перевагу слуханню, а не читанню. Розширення для браузера Play.ht просте у використанні: встановити розширення і воно автоматично визначить текст на сторінці. Далі натиснути піктограму Play.ht і прослухати текст, який читається вголос.

Play.ht — це потужний інструмент, який може допомогти заощадити час і зробити вміст веб-проекту доступнішим для ширшої аудиторії.

Синтез мови Murf

Додаток є одним із найпопулярніших варіантів професійного озвучування. Murf дозволяє ознайомитися з безкоштовним тарифним планом, і хоча він досить обмежений, можна отримати уявлення про те, що може запропонувати цей додаток. Після цього можна перейти до одного з тарифних планів.

Інтерфейс сервісу Murf
Рис.2. Інтерфейс сервісу Murf
Синтез мови і клонування голосу ElevenLabs

ElevenLabs побудовано на моделі глибокого навчання для синтезу мовлення. Ця технологія спеціалізується на синтезі мовлення з природним звучанням і програмному забезпеченні перетворення тексту в мовлення. Використовує штучний інтелект і глибоке навчання для створення реалістичного мовлення шляхом синтезу вокальних емоцій та інтонації. Програмне забезпечення може регулювати інтонацію та темп подачі на основі контексту використаної мови введення. Ця передова технологія штучного інтелекту зробила революцію в аудіо- та відеоіндустрії, зокрема в кіноіндустрії, забезпечивши швидший і економічніший дубляж аудіо різними мовами.

Інтерфейс сервісу ElevenLabs
Рис.3. Інтерфейс сервісу ElevenLabs

Цю технологію можна застосовувати в різних додатках, таких як створення аудіокниг і дубляж фільмів різними мовами. Модель штучного інтелекту може перетворювати текст на мовлення будь-яким голосом і емоцією, працює з багатьма мовами, зокрема і з українською. Компанія прагне розширити своє рішення, зробивши його доступним усіма мовами світу.

Як влаштовано ElevenLabs

АІ сервісу аналізує нюанси, інтонації та відмінні характеристики природного мовлення та використовує складні алгоритми для відтворення реалістичних голосів, які практично не відрізняються від людських.

Однією з найбільш вражаючих особливостей АІ Eleven Labs є можливість клонування голосу, яка дозволяє відтворити голос людини лише за кілька хвилин аудіозапису. Інструмент аналізує голос мовця та створює модель голосу, яка може бути використана для генерування мови, схожої на промовця.

Сервіс text-to-speech.online

Функція перетворення тексту в мовлення використовує потужну бібліотеку мовлення Microsoft AI для синтезу унікального аудіо для читання, наближеного до голосу реальної людини. Нейронні мережі перетворення тексту в мовлення підтримують різноманітні стилі читання, включаючи випуски новин, обслуговування клієнтів, крики, шепіт та емоції, такі як щастя та смуток.

text-to-speech.online
Рис.4. Інтерфейс сервісу text-to-speech.online
  • Реалістичне синтезоване мовлення: досягається плавне, природнє звучання тексту в мовлення, яке відповідає інтонації та емоціям людського голосу.
  • Налаштування голосу диктора: створення унікального генератору голосу AI, який відображає бренд.
  • Точні засоби керування перетворенням тексту в мовлення: оптимізація мовлення для сценарію, легко регулюючи швидкість мовлення, висоту, артикуляцію, паузи тощо.
  • Багатомовна підтримка: охоплення глобальної аудиторії за допомогою понад 330 голосів нейронної мережі на 129 мовах і варіантах.
Синтез мови OddCast

OddCast є багатомовним синтезатором, тексти зачитують чоловічим або жіночим голосом анімовані диктори. На безкоштовне використання є обмеження: в браузерній версії можна відтворити не більше 300 символів.

Інтерфейс сервісу OddCast
Рис.5. Інтерфейс сервісу OddCast
Синтез мови LinguaTec

Компанія Linguatec представила на ринку нове покоління програмного забезпечення для перетворення тексту в мовлення за допомогою нової програми для виведення мовлення Voice Reader на більш ніж 45 мовах!.

Доступний у чотирьох версіях:

  • Voice Reader Home: TTS для приватних користувачів.
  • Voice Reader Studio: TTS для професійних користувачів.
  • Voice Reader Web: TTS для автоматичного дублювання веб-сайтів.
  • Voice Reader Server 15: TTS для використання в компаніях.

Voice Reader Home 22 — це програма для перетворення тексту в мовлення для приватних користувачів. Він легко перетворює будь-який текст (документи Word, електронні листи, електронні книги чи PDF-файли) на аудіо. Можна прочитати їх вголос безпосередньо на комп’ютері або зберегти як аудіофайли (.mp3 або .wav) для мобільного використання. Voice Reader Home 22 містить велику колекцію фонової музики, щоб налаштувати прослуховування відповідно до уподобань користувача.

Інтерфейс сервісу Voice Reader Home 22
Рис.6. Інтерфейс сервісу Voice Reader Home 22

Сервіси для перекладу мови з аудіо в текст

Нейронні мережі для перекладу з тексту (Speech-to-Text, STT) є інноваційними системами, які дозволяють автоматично перетворювати аудіозаписи та мовлення в текстовий формат. Ці нейромережі мають широкий спектр застосувань та відіграють важливу роль у сучасних технологіях, таких як голосові помічники, системи розпізнавання мовлення, автоматичні транскрибування та багато іншого.

  • Whisper – нейромережа спеціалізується на перекладі аудіозаписів у текст та розпізнаванні різних діалектів та акцентів. Вона підходить для розмов, інтерв'ю та диктувань.
  • AITranscription – сервіс для автоматичної транскрибації, підтримує понад 100 мов, відокремлює мовлення різних людей у діалозі та проставляє таймкоди.
  • Podsift – це безкоштовний інструмент, який завдяки AI надсилає короткі анотації зазначених подкастів на пошту користувача.
  • Transkribieren – сервіс дозволяє користувачам швидко та легко транскрибувати аудіофайли у форматах, таких як mp3, mp4, mpeg, mpga, m4a, wav або webm.
  • Deciphr – платформа полегшує роботу подкастерів, дозволяючи їм економити час та створювати детальні записи та тимчасові мітки з транскриптів своїх подкастів або аудіофайлів.
  • VoxSigma Speech-to-Text – мовна технологія забезпечує безперервне і точне розпізнавання мови на безлічі мов з великим словниковим запасом, що підходить для різних видів аудіоматеріалів.

Голосові помічники

Сьогодні голосові помічники стали невід'ємною частиною життя. З кожним днем все більше людей вибирає віртуальних асистентів, замінюючи мишку та клавіатуру. Штучний інтелект допомагає вирішувати прості завдання за допомогою голосового діалогу. Після введення інформації, помічник розпізнає сказану мову і починає функціонувати. Для того, щоб асистент зрозумів і виконав запит, слід говорити чітко та повільно. Асистент може підказати маршрут, новини дня, знайти музику, показати погоду, відповісти на просте запитання.

Повсякденне життя давно оточили голосові помічники: Siri від Apple, Аліса від Яндекса та багато інших... Але чи замислювалися ви про те, що це ті самі нейромережі, які щодня відповідають на наші "промпти" в стилі "Яка погода в Москві і як обстановка на дорогах".

Технологія голосових помічників працює так:

  • Нейронка отримує голосову команду у вигляді аудіофайлу;
  • Відбувається аналіз аудіодоріжки на наявність фрагментів, які відповідають певним звукам;
  • Виявлення фонем – тих самих відповідних фрагментів;
  • Зіставлення їх із літерами з текстового словника, а вже ґрунтуючись на цьому збирається готовий текст.

Тобто весь процес закладено всередині однієї моделі, що складається з кількох компонентів. Далі, для покращення якості та швидкості обробки запиту відбувається навчання моделі.

А ще, алгоритм роботи моделі при розпізнаванні голосу та її навчання поділяється на кілька модулів. Так наприклад, якщо користувач буде розмовляти з помічником кількома мовами - він, помічник, спочатку застосує модуль розпізнавання мови, а потім переключиться на розпізнання конкретних фонем.

Розумні асистенти покликані спростити взаємодію користувачів з високотехнологічними складними пристроями і мають 5 основних функцій:

  • Голосове введення. Дозволяє людині ставити команди машині без використання додаткових інструментів
  • Інтерпретація природної мови. Користувачеві не треба вчити команди, підбирати правильні слова і вирази для команд. Асистенти навчені на величезних вибірках діалогів розуміти природну повсякденну мову людини.
  • Голосова відповідь. Замість тексту на дисплеї асистенти озвучують відповідь, що ще більше спрощує взаємодію.
  • Вміння враховувати контекст. Розумні асистенти враховують ймовірний зміст та контент діалогу за значенням слів, поведінку користувача, історію минулих запитів, ситуацію, в якій відбувається запит, щоб точніше зрозуміти намір користувача.
  • Самостійні дії. Система самостійно виконує певні завдання, ґрунтуючись на попередній поведінці користувача.

Вміння враховувати контекст і виконувати самостійні дії вимагають від асистента постійного вивчення користувача, його поведінки і дій в різних ситуаціях. Саме так асистент вчиться змінювати свою поведінку і оптимізувати його під потреби конкретної людини. Асистенти не завжди використовують всі 5 функцій. Так, якщо екран пристрою вільний, то віртуальний помічник може вивести текст відповіді на екран замість голосової озвучення.

Впровадження віртуальних асистентів має дві незаперечні переваги:

  • Можливість створювати складні інтерфейси без шкоди для зручності використання. Достатньо навчити помічника швидко знаходити потрібну інформацію для користувача за голосовою командою. Тоді сам користувач не зіткнеться з проблемою «довгого шляху» до потрібної функції або даними.
  • Підвищити точність взаємодії. Завдяки здатності прогнозувати дії користувача розумні помічники знаходять точну відповідь.

Розумні асистенти перебувають на початковій стадії розвитку. Вони здатні допомогти людині в ситуаціях, коли зайняті руки або коли голосовий запит набагато швидше відправити, ніж друкувати текст. Асистенти справляються лише з простими завданнями, використовують вбудовані функції не в повному обсязі, часто не взаємодіють зі сторонніми додатками.

Найпоширеніші голосові помічники для комп'ютера

Cortana для Windows

Голосовий помічник створено компанією Microsoft та інтегровано в операційну систему. Призначений перш за все для Windows, але в якості додатків працює на платформах iOS, Android, Xbox One, Microsoft Phone, Microsoft Band. «Cortana» допоможе систематизувати і розпланувати завдання на певний період, нагадає про виконання будь-яких дій, за запитом надає інформацію. Має вбудований функціонал для відповідей на загальні питання, використовуючи пошук Bing. У функціонал входить прокладання маршруту, інформація про стан доріг, нагадування про зустрічі. Вводити інформацію можна за допомогою голосу та клавіатури в текстовій формі. Асистент підтримує розмову: співає пісні, надсилає анекдоти.

Ok Google для комп'ютера

Ok Google - голосовий помічник і одночасно частина пошукової системи. У програми є багато функцій: планування подій (встановлення нагадувань), відстеження поштового листування, перехід на певний сайт, пошук музичних композицій, знаходження адрес тощо. Особливість програми: після виконання команди, програма самостійно доповнює інформацію. Програма є безкоштовною і стабільно працює, її можна налаштувати під конкретного користувача. Асистент вбудований в браузер Google Chrome, доступний для ПК, Android, iOS.

Siri на комп'ютер

Siri - голосовий асистент, який працює на пристроях від компанії Apple: iOS, iPhone, iPad і iPod touch і ноутбуках з macOS Sierra. На «яблучних» гаджетах Siri встановлено за замовчуванням, тому її потрібно лише активувати в налаштуваннях пристрою.

За допомогою емулятора можна встановити на Windows. Програма розуміє запити користувача, виконує їх або надає користувачеві рекомендації. Асистент може виконувати прості команди, для роботи необхідно під'єднання до Інтернету.

Голосові асистенти для мобільних пристроїв

Сьогодні майже кожен смартфон має розумного помічника. Віртуальний асистент може мати власне ім'я як Siri або залишатися безіменним помічником від Google, в кожного з них є власні особливості, недоліки і переваги.

Google Assistant для Android

Google Assistant відрізняється від Siri. В нього менше індивідуальності, але більше функціональності. Хоча це невід'ємна частина Android, Google Assistant також може бути встановлений через додаток на iOS і може бути доступний через браузер Google Chrome.

Інтеграція Google Assistant з пошуковою системою робить його одним з найкорисніших віртуальних помічників. Якщо користувач використовує Google в якості пошукової системи, то пошуковик вже має сховище даних про інтереси користувача в Інтернеті. Аналогічним чином він реагує на запити через браузер Google Chrome, що робить його відмінним джерелом для отримання загальної інформації та деталей.

Siri для іOS

Siri - невід'ємна частина iOS з моменту запуску iOS 5 в 2011 році.

На сьогодні Siri щодня стає досконалішим. Тепер, можна попросити зателефонувати до інших користувачів, надіслати повідомлення, запланувати зустріч, запустити програми, ігри, музику, відповісти на питання, встановити нагадування і повідомити прогноз погоди на конкретну дату.

Siri може бути інтегрована зі сторонніми додатками і працювати з ними надалі. Це - велика зміна в політиці компанії Apple, яка зазвичай жорстко контролює доступ з боку сторонніх розробників. Останні оновлення Siri включають мовну сумісність з WhatsApp, розширено варіанти оплати для Lyft і Uber і можливості шукати іншу корисну інформацію.

AI Машинний переклад

Машинний переклад - це комп'ютеризований переклад початкового тексту іншою мовою. Машинний переклад існує вже кілька десятиліть, але досі є новою ідеєю для широкої публіки. З появою нейронного машинного перекладу (NMT), машинний переклад зробив ще один технологічний прорив.

З появою AI-перекладачів світ відчув на собі революцію у спілкуванні іноземними мовами. На відміну від звичайних перекладачів, які можуть стикатися з труднощами в інтерпретації контексту та точності, перекладачі на базі AI здатні обробляти більше даних та враховувати тонкощі мови.

Використовуючи нейронні мережі, нейронний машинний переклад використовує штучний інтелект для виконання перекладів. Замість «вгадування» можливого результату нейронні мережі намагаються відтворити когнітивний стан перекладача. В результаті виходить переклад, який звучить органічніше і точніше передає сенс та нюанси теми. Нейронний машинний переклад тепер підходить читання рутинних, некритичних ділових документів, і навіть розуміння чи узагальнення великих обсягів тексту.

Прості спільні ділові документи можуть бути добре перекладені за допомогою машинного перекладу деякими мовами. Все більше підприємств можуть скористатися його перевагами через його зростання. Вони складаються з наступного:

  • Швидший вихід контенту.
  • Стабільність термінології.
  • Підвищення ефективності перекладачів.
  • Зменшення витрат на переклад.
AI перекладач Google

Google Translate - лідер на ринку машинних перекладачів. Відсутність кваліфікованих перекладачів допомогла мільйонам людей спілкуватися. Найприємніше в Google Translate те, що слово, речення чи абзац зазвичай перекладаються точно, швидко та безкоштовно.

Інтерфейс Google Translate
Рис.7. Інтерфейс Google Translate

У 2006 році було запущено Google Translate. На той час він підтримував лише англійську та арабську мови. З того часу він значно просунувся вперед і може перекладати більш ніж 100 мов! За даними сайту Google Translate, сервіс користуються п'ятсот мільйонів людей.

AI перекладач Bing

Bing Translate— це текстовий перекладач через платформу bing.com. Цей сервіс дозволяє автоматично перекладати будь-який обсяг тексту і отримати унікальний контент для наповнення сайтів, розміщення в соціальних мережах або для наповнення будь-яких інших ресурсів. Синтаксичний аналізатор автоматично визначає початкову мову вмісту, потрібно лише вказати мову результатів. Перекладач Bing здатний обробляти колосальні обсяги тексту, споживаючи мало ресурсів.

Bing Translate
Рис.8. Інтерфейс Bing Translate

Bing Translate має інтеграцію з Bing Chat, тому відразу можна з’ясувати значення незрозумілих слів або предметної області.

Bing TranslateChat
Рис.9. Кооперація Bing Translate з Bing Chat
Перекладач Machine Translation

MachineTranslation.com призначений для аналізу, порівняння та рекомендації найкращого машинного перекладу для будь-якого тексту та мовної пари. Він покладається на широкі можливості GPT-4 для визначення сильних і слабких сторін кожного результату машинного перекладу, що, у свою чергу, забезпечує індивідуальний досвід перекладу для кожного користувача. Кожне повідомлення є унікальним, тому цей інструмент враховує контекст і нюанси тексту, щоб підвищити точність будь-якого перекладу.

Інтерфейс MachineTranslation.com
Рис.10. Інтерфейс MachineTranslation.com
Мультимодальна модель SeamlessM4T

SeamlessM4T (Massive Multilingual Multimodal Machine Translation) від платформи Meta — це перша мультимодальна модель, що представляє значний прорив у перекладі й транскрипції з мовлення в мовлення та з мовлення в текст. Модель підтримує майже 100 мов для введення (мовлення + текст), 100 мов для виведення тексту та 35 мов для виведення мовлення.

ІнтерфейсSeamlessM4T
Рис.11. Інтерфейс SeamlessM4T

Існуючі системи перекладу мають два недоліки: обмежене мовне охоплення, створення бар’єрів для багатомовного спілкування та залежність від кількох моделей, що часто спричиняє помилки перекладу, затримки та складності розгортання. SeamlessM4T вирішує ці проблеми за допомогою більшого охоплення мови, точності та можливостей моделі «все в одному». Ці досягнення забезпечують легшу комунікацію між людьми з різним лінгвістичним походженням і більші можливості перекладу завдяки моделі, яку можна легко використовувати та розвивати.

Як використовувати демо

  • У тихій обстановці вимовити або записати повне речення вибраною мовою.
  • Виберати до трьох мов для перекладу речення.
  • Дивитися транскрипцію та слухати переклади.

Наразі функціонує демонстрація сервісу, яка може створити неточний переклад або змінити значення слів, які вимовилено. Користувачі можуть скористайтися функцією зворотного зв’язку, щоб повідомити про будь-які виявлені помилки. Це допоможе вдосконалити модель.

Meta повідомляє, що Seamless M4T також може розуміти, коли користувачі змінюють мову в середині речення, що може допомогти при використанні моделі для перекладу людей, які змішують частини мов, коли вони говорять, що дослідники мови називають перемиканням кодів.

Онлайн-переклад DeepL

Deepl — це безкоштовний сервіс онлайн-перекладу, який використовує штучний інтелект для надання перекладів. Використовує нейронні мережі, щоб зрозуміти значення речень, а також перекладати слово за словом. Це надає можливість отримувати плавніші та точніші результати.

Інтерфейс Deepl
Рис.12. Інтерфейс Deepl

Нейронні мережі, які використовує Deepl, навчені мільйонами речень і документів, що дозволяє їм розуміти багато нюансів мови. Таке використання штучного інтелекту дозволяє Deepl адаптувати та вдосконалювати свої можливості з часом, постійно навчаючись на своїх помилках і використовуючи додаткові дані. Deepl є справжнім конкурентом «перекладу Google», оскільки його інноваційне використання ШІ для покращення взаємодії з користувачем є надзвичайним.

Онлайн-переклад Modern MT

ModernMT — це спеціальна технологія машинного перекладу з врахуванням контексту, яка навчається з пам’ятованих перекладів і після редагування під час робочого процесу перекладу. Його унікальна архітектура дозволяє адаптуватися до вмісту в режимі реального часу: перекладачі отримують контекстно-залежні пропозиції MT під час роботи. Це не вимагає початкового навчання або часу на налаштування. Він швидко й безперешкодно навчається з пам’яті перекладів і виправлень. MMT вивчає наданий текст і адаптується до нього, гарантуючи ефективні та високоякісні процеси перекладу.

Інтерфейс ModernMT
Рис.13. Інтерфейс ModernMT
Онлайн-переклад Systran

Systran – інтеграція з сучасними моделями AI дозволяє сервіси перекладати навіть складні та технічні тексти з високою точністю. Процес автоматичного навчання дозволяє системі постійно вдосконалюватись і робити переклади точніше.

Інтерфейс Systran
Рис.14. Інтерфейс Systran

Відео лабораторної роботи

Контрольні запитання

  1. На яких засадах працюють системи синтезу тексту у голосове повідомлення?
  2. Які переваги та недоліки мають системи синтезу тексту в голосове повідомлення?
  3. Де можна використовувати системи синтезу тексту голосового повідомлення?
  4. Навести приклади використання систем синтезу тексту у голосове повідомлення.
  5. Які критерії можна використовувати для оцінки якості систем синтезу тексту у голосове повідомлення?
  6. Яким чином можна покращити якість систем синтезу тексту в голосове повідомлення?
  7. Як ви оцінюєте перспективи розвитку систем синтезу тексту у голосового повідомлення?
  8. Чи можна використовувати системи синтезу тексту в голосове повідомлення для підвищення рівня володіння іноземними мовами?
  9. На яких засадах працюють сучасні АІ системи машинного перекладу?
  10. Як оцінюєте точність сучасних АІ систем машинного перекладу? Яким чином можна покращити якість перекладу в таких випадках?
  11. Які конкретні проблеми виникають під час використання систем машинного перекладу?
  12. Яка ваша думка про майбутнє машинного перекладу? У майбутньому системи машинного перекладу зможуть повністю замінити людських перекладачів?
  13. Чи можуть системи машинного перекладу бути використані для підвищення рівня володіння іноземними мовами?

Лабораторне завдання

  1. Ознайомитися з теоретичними матеріалами щодо AI систем синтезу тексту у голосове повідомлення.
  2. Здіснити низку експериментів з зазначеними ресурсами, оцінити якість озвучки - чітка вимова, правильні наголоси, розшифрування скорочень та абревіатур, озвучення чисел. Відмітити наявність допоміжних параметрів: наявність багатьох мов, вибір голосу певного диктора, можливість регулювати швидкість промови, емоційне забарвлення.
  3. Ознайомитися з теоретичними матеріалами щодо сучасних АІ систем машинного перекладу.
  4. Здійснити переклади на наведених ресурсах, порівняти результати. Відмітити близькість за змістом, правильний переклад абревіатур та скорочень. Здійснити переклад одного фрагменту через кілька мов, припустимо українська-угорська-німецька-казахська-українська. Порівняти початковий і кінцевий текст, відмітити різницю, семантичну близькість, втрачені слова тощо.
  5. Під час захисту лабораторної роботи вільно володіти теоретичним матеріалом: особливості АІ систем синтезу та машинного перекладу, вимоги, що висуваються до цих систем, усталені терміни, коло практичного застосування.

Зміст звіту

  1. Назва та мета виконання лабораторної роботи.
  2. Скріни основних етапів експериментів, фрагменти розмов, приклади промптів.
  3. Аналітичні висновки щодо властивостей АІ систем синтезу мови та машинного перекладу для отримання якісних результатів.