Wyniki 1-1 spośród 1 dla zapytania: authorDesc:"Marcin Szykulski"

KORPUS MOWY ANGIELSKIEJ DO CELÓW MULTIMODALNEGO AUTOMATYCZNEGO ROZPOZNAWANIA MOWY DOI:10.15199/59.2016.8-9.74


  W referacie zaprezentowano audiowizualny korpus mowy zawierający 31 godzin nagrań mowy w języku angielskim. Korpus dedykowany jest do celów automatycznego audiowizualnego rozpoznawania mowy. Korpus zawiera nagrania wideo pochodzące z szybkoklatkowej kamery stereowizyjnej oraz dźwięk zarejestrowany przez matrycę mikrofonową i mikrofon komputera przenośnego. Dzięki uwzględnieniu nagrań zarejestrowanych w warunkach szumowych korpus może być wykorzystany do badania wpływu zakłóceń na skuteczność rozpoznawania mowy. Abstract: An audiovisual corpus containing 31 hours of English speech recordings is presented. The new corpus was created in order to assist the development of audiovisual speech recognition systems (AVSR). The corpus includes high-framerate stereoscopic video streams and audio recorded by both microphone array and a microphone built in a mobile computer. Owing to the inclusion of recordings made in noisy conditions, the corpus can be used to assess the robustness of speech recognition systems in the presence of acoustic noise. Słowa kluczowe: rozpoznawanie mowy, korpus MODALITY, AVSR Keywords: speech recognition, MODALITY corpus, AVSR 1. WSTĘP Dzięki postępom w dziedzinie mikroelektroniki, nawet niewielkie urządzenia elektroniki użytkowej, takie jak smartfony czy tablety, mogą być wyposażone w funkcje rozpoznawania mowy. Wynik rozpoznawania może podlegać transmisji, np. w postaci wiadomości tekstowej. Jednak podczas wykorzystywania tych funkcji w warunkach rzeczywistych, do sygnału mowy mogą zostać wprowadzone zewnętrzne zakłócenia, wpływając negatywnie na skuteczność jej rozpoznawania. Oprócz współwystępujących źródeł dźwięku (szum otoczenia, inni mówcy), skuteczność rozpoznawania może ulec pogorszeniu w wyniku występowania zjawiska pogłosu w rejestrowanej mowie. Analogicznie do sposobu postrzegania mowy przez człowieka, charakteryzującego się multimodalnością [6], dodatkowe dane pochodzące z modalności wizy[...]

 Strona 1