Stav češtiny v projektu Common Voice

Mozilla.cz 23.08.2019 02:06 Projekt Common Voice sbírá hlasová data, na základě kterých bude možné trénovat modely a software pro rozpoznávání řeči. Všechna data jsou volně dostupná a pro zahrnutí češtiny potřebujeme i vaši pomoc. První a zcela nezbytnou podmínkou je nasbírat dostatek textu, podle kterého budou vznikat hlasové nahrávky. Z našeho prvního pokusu nasbírat svépomocí dostatek vět jsme se přesunuli na , který Mozilla k tomuto účelu připravila. V době psaní článku máme v nástroji skoro dva a půl tisíce českých vět a stojí před námi dva úkoly. Potřebujeme rozšířit počet vět v datové sadě, čím více, tím lépe.Alespoň 5 tisíc vět musí být ručně ověřených několika lidmi, abychom se mohli dostat dále do fáze nahrávání hlasových záznamů. Přidávání vět je velmi jednoduché. Stačí se přihlásit, nastavit v profilu češtinu a na adrese psát nějaké smysluplné větičky. Důležitá je i licence všech textů, musí jít o . Nepouštějte se tedy hned bezhlavě do opisování své knihovny ani kopírování textů z webových magazínů. Druhou neméně záslužnou činností je ověřování vět. Aby nebyl celý dataset složený z gramaticky špatných nebo nesmyslných vět, vět, které vůbec nejsou česky nebo očividně nesplňujících podmínky licence, je probíhá ještě ruční kontrola. Tu můžete také dělat vy na adrese . Pro každou zobrazenou větu prostě rozhodnete, jestli je nebo není v pořádku, a formulář odešlete. Schvalování vět Podrobnější informace k přispívání skrze nový nástroj . Pokud byste se chtěli na projektu Common Voice podílet více, .