Rozšírené hľadanie
Utorok 30. Apríl 2024 |
meniny má Anastázia
Common Voice v češtině spuštěn

Mozilla.cz 10.09.2020 00:36 Je nám ctí Vám oznámit, že v čase předvánočním se podařilo dobrovolníkům sesbírat a ověřit posledních několik potřebných vět, a dokončit plnou lokalizaci stránky projektu Mozilla Common Voice, a tento je tak k dnešnímu dni již v plném provozu pro sběr nahrávek hlasu v českém jazyce. Projekt Common Voice je iniciativa Mozilly, která pomáhá strojům učit se, jak mluví skuteční lidé. Jenom pro připomenutí, co je to projekt Common Voice? Citováno z oficiální , „Projekt Common Voice je iniciativa Mozilly, která pomáhá strojům učit se, jak mluví skuteční lidé.“ Ve zkratce, projekt Common Voice vytváří databázi hlasových nahrávek zveřejňovanou pod tou nejsvobodnější licencí, to jest jako . Tyto nahrávky sbírá od všech možných dobrovolníků, jako jste například i Vy nebo já, a dává je k dispozici komukoliv na jakékoliv použití, typicky například různé projekty strojového učení. Na rozdíl od některých podobných projektů se navíc nesnaží získat perfektně čisté nahrávky hlasu, ale spíše se orientuje na nahrávky takříkajíc z reálného života, kde lidé mluví na nekvalitní mikrofony v hlučném prostředí, a často navíc ještě z opačného konce místnosti. Tímto a svou otevřeností se tedy jedná o vskutku ojedinělý projekt. Co tedy udělat, když se chcete také zapojit do tvorby databáze projektu Common Voice? Nejjednodušší, co můžete udělat, je prostě zamířit na a začít číst nahlas věty tam nabízené. Nestrachujte se přitom o kvalitu svého mikrofonu nebo hlučnost svého okolí. Nízká kvalita záznamu není vůbec na škodu, a v podstatě jediné podmínky, které musíte splňovat, je, že zadané věty přečtete správně, v nahrávce půjde alespoň nějak rozpoznat, co říkáte, a na pozadí nebude nikde slyšet hlas nějaké jiné osoby, u kterého by šlo také rozpoznat, co říká. Navíc se ani nebojte, že byste měli na nahrávání málo času; nahrání jedné sady vět Vám zabere v průměru přibližně 30 sekund. Pokud nechcete nebo nemůžete nahrávat, další možností je poté poslech a kontrola klipů již nahraných jinými. Z důvodů zajištění kvality dat v databázi totiž musí být u každé individuální nahrávky minimálně dvěma uživateli ověřena její přesnost. Toto pomáhá zabránit případům, kdy by kupříkladu uživatel kvůli přehlédnutí přečetl něco trochu jiného než je napsáno, či pomáhá bojovat proti různým internetovým individuím, která by se mohla pokoušet zanést do databáze místo zadaných textů různé vulgarismy. V neposlední řadě pak můžete pomoci se sběrem textů ke čtení v rámci projektu Common Voice, a to na stránce , opět ať už získáváním samotných vět do databáze z různých zdrojů, nebo jejich manuální kontrolou. Ačkoliv jsme již pro češtinu nasbírali dostatek vět, aby mohl být projekt Common Voice v češtině spuštěn, do budoucna jich přesto bude stále potřeba mnohem více.