Wyniki 1-7 spośród 7 dla zapytania: authorDesc:"Ewelina Majda-Zdancewicz"

OCENA SKUTECZNOŚCI DZIAŁANIA SYSTEMU ROZPOZNAWANIA MÓWCY JAKO SYSTEMU PRACUJĄCEGO NIEZALEŻNIE OD ZAREJESTROWANEGO JĘZYKA WYPOWIEDZI DOI:10.15199/59.2015.4.14


  W artykule przedstawiono wyniki badań automatycznego systemu rozpoznawania mówcy (ASR - ang. Automatic Speaker Recognition), przeprowadzonych przy użyciu niezależnej bazy danych głosowych 2002 NIST Speaker Recognition Evaluation. Przeprowadzono zarówno badania jakościowe, jak i ilościowe, związane m.in. z badaniem wpływu zmian długości wypowiedzi uczącej oraz testowej na skuteczność rozpoznania. Badania prowadzone były pod kątem zastosowania ASR jako systemu działającego niezależnie od zarejestrowanego języka wypowiedzi. 1. WSTĘP Od kilku lat obserwuje się wzrastające zainteresowanie urządzeniami wykorzystującymi biometryki powodując ich upowszechnienie i spopularyzowanie. Rozpoznawanie głosu wydaje się być jedną z najbardziej obiecujących i użytecznych technologii, głównie ze względu na fakt, że charakteryzuje się niskim stopniem inwazyjności. Automatyczne rozpoznawanie głosu obejmuje dwie zasadniczo różniące się procedury: identyfikację oraz weryfikację. Identyfikacja mówcy jest procesem decyzyjnym, polegającym na określeniu tożsamości mówcy bez deklarowania przez niego tożsamości. Z kolei weryfikacja to proces decyzyjny wykorzystujący cechy sygnału mowy do określenia, czy mówca danej wypowiedzi jest faktycznie osobą, której tożsamość deklaruje. Bardzo istotną, z praktycznego punktu widzenia, charakterystyką systemów rozpoznawania mówców jest ich zależność od wypowiadanego przez osobę rozpoznawaną tekstu. W tym kontekście rozróżnia się systemy rozpoznawania mówców zależne od tekstu (ang. textdependent), w których zawartość lingwistyczna materiału treningowego i testowego jest jednakowa oraz niezależne od tekstu (ang. text-independent), gdy zdania testowe różnią się od zdań uczących przynajmniej pod względem kolejności słów. W szczególności w tym przypadku dopuszcza się możliwość rozpoznawania mówcy nawet niezależnie od języka wypowiedzi [1, 3]. W artykule przestawiono zaimplementowany w środowisku Matlab uniwersalny[...]

Text Independent Automatic Speaker Recognition System using fusion of features DOI:10.15199/48.2015.10.52

Czytaj za darmo! »

This paper presents a speaker recognition system, which is independent of the linguistic context. The solved task includes: the preprocessing stage, the segmentation of speech signal leading to the extraction of features based on three techniques, selection of the most important features, and the classification stage involving a serial combination of classifiers. Sets of descriptors were obtained using three techniques: cepstral coefficients, mel-cepstral coefficients and original weighted cepstral coefficients. Optimal robust “Voice Print" has been determined using fisher coefficients and PCA analysis. Experiments on the 2002 NIST Speaker Recognition Evaluation corpus show that the proposed system is able to recognise the speaker, regardless on the speech content, even language content with great accuracy. Streszczenie. W pracy przedstawiono system rozpoznawania mówcy niezależny od tekstu wypowiedzi. Rozwiązane problemy obejmują: etap przetwarzania wstępnego, segmentację sygnału mowy prowadzącą do etapu ekstrakcji cech bazującej na trzech technikach analizy sygnału mowy, selekcję najbardziej istotnych cech oraz etap klasyfikacji obejmujący analizę kaskady klasyfikatorów. Zestaw cech uzyskano przy użyciu trzech technik: cepstrum, mel-cepstrum oraz autorskich ważonych cech cesptralnych. Optymalny wektor cech wyekstrahowano przy użyciu współczynników istotności Fishera oraz analizy PCA. Eksperymenty z wykorzystaniem bazy 2002 NIST Speaker Recognition Evaluation pokazują, że przedstawiony system rozpoznaje mówcę niezależnie od ograniczeń lingwistycznych treści, a nawet języka wypowiedzi, z zadowalającą dokładnością. (Automatyczny system rozpoznawania mówcy niezależnie od wypowiadanego tekstu bazujący na fuzji cech) Keywords: automatic speaker recognition, features extraction, features selection, PCA. Słowa kluczowe: automatyczne rozpoznawanie mówcy, ekstrakcja cech, selekcja cech, PCA. Introduction Speaker recognition refers to the autom[...]

Ocena przydatności wybranych cech sygnału mowy wyróżniających osoby ze zmianami neurodegradacyjnymi DOI:10.15199/48.2019.11.25

Czytaj za darmo! »

Choroby neurodegeneracyjne związane są z postępującymi uszkodzeniami komórek tworzących struktury układu nerwowego. Schorzenia te są groźne głównie z tego względu, że dojrzałe komórki układu nerwowego (z bardzo nielicznymi wyjątkami) nie wykazują tendencji do regeneracji. Uwaga badaczy koncertuje się więc na chorobach neurodegeneracyjnych z uwagi na fakt, że medycyna wciąż nie dysponuje zadowalającymi metodami ich leczenia. Choroby neurodegradacyjne cechują się postępującym przebiegiem, prowadzącym z czasem do znacznych ograniczeń w życiu codziennym chorych. Poszukiwane są zatem nowe metody ukierunkowane na wczesne wykrycie i precyzyjną diagnostykę tych zaburzeń. Szansą i dobrym wskaźnikiem wczesnej diagnostyki stanów otępiennych mogą być zmiany w głosie osób chorych [1-7]. Typowymi reprezentantami chorób neurodegradacyjnych są choroba Alzheimera oraz choroba Parkinsona, ale do grupy tych schorzeń zalicza się również: otępienie z ciałami Lewy’ego, schorzenia prionowe (inaczej encefalopatie gąbczaste, np. choroba Creutzfeldta- Jakoba czy śmiertelna bezsenność rodzinna), otępienie czołowo-skroniowe, stwardnienie zanikowe boczne i wiele innych [8]. Zaburzenia mowy w chorobach Parkinsona W ramach prezentowanych w artykule badań autorzy skupili się na chorobie Parkinsona. Jest to heterogenny, przewlekły zespół hipokinetyczny o nieznanej etiologii, występujący u 3 % osób powyżej 65 roku życia, dwa razy częściej u mężczyzn niż u kobiet. W Polsce zarejestrowano ponad 70 tysięcy chorych, a rocznie na chorobę Parkinsona zapada około 8 tysięcy osób [9]. Główną przyczyną patologii jest śmierć dużej liczby neuronów dopaminergicznych w istocie czarnej znajdującej się w śródmózgowiu. Objawy kliniczne występują z reguły, gdy ulegnie uszkodzeniu ok. 80 % komórek odpowiedzialnych za wytwarzanie dopaminy. Przyczyny choroby Parkinsona są dotychczas nieznane poza przypadkami uwarunkowanymi genetycznie. Uważa się, że są one następstwe[...]

Optymalizacja systemu automatycznego rozpoznawania mówcy w warunkach zróżnicowanych torów akustycznych DOI:10.15199/48.2015.09.23

Czytaj za darmo! »

W referacie pokazano sposoby optymalizacji poszczególnych elementów systemu automatycznego rozpoznawania mówcy w warunkach zróżnicowanych torów akustycznych. Dokonano tego za pomocą algorytmu genetycznego poprzez wyselekcjonowanie optymalnego zbioru cech silnie zależnych od głosu mówcy przy jednoczesnej minimalizacji wzajemnej korelacji cech oraz ich wrażliwości na zróżnicowanie toru akustycznego. Przedstawiono również wyniki optymalizacji wybranych elementów klasyfikatora, m.in. liczby rozkładów Gaussa. Abstract. This paper presents optimization methods of an automatic speaker recognition system parameters for various acoustic paths. This idea has been performed using the genetic algorithm. The main goal of the proposed algorithm is to select the most important features, minimize correlation between the features and their sensitivity for various acoustic path. Additionally results of classifier optimization (for example number of Gaussian distributions), have been shown. (Optimization of the automatic speaker recognition system for different acoustic paths). Słowa kluczowe: automatyczne rozpoznawanie mówcy, algorytmy genetyczne, tor akustyczny, selekcja cech. Keywords: automatic speaker recognition, genetic algorithms, acoustic path, feature selection. Wstęp Dotychczasowe badania w obszarze systemów automatycznego rozpoznawania mówców - ASR (ang. Automatic Speaker Recognition) - realizowane były przez autorów w oparciu o bazy głosów nagrywane z wykorzystaniem jednakowych torów akustycznych. Stanowi to znaczące ograniczenie zastosowań ASR, utrudniające rozpoznawanie zarchiwizowanych nagrań głosowych zarejestrowanych na zróżnicowanym sprzęcie. Wspomniany problem jest tematem licznych badań naukowych na całym świecie [8, 11, 12], jednakże większość prowadzonych przez naukowców eksperymentów dotyczy wykazania różnic w skuteczności poprawnej identyfikacji mówców z wykorzystaniem różnych urządzeń, przy jednoczesnym zachowan[...]

Identyfikacja głosowa w otwartym zbiorze mówców DOI:

Czytaj za darmo! »

W artykule zaprezentowano wyniki badań systemu automatycznego rozpoznawania mówcy, przeprowadzane z wykorzystaniem komercyjnej bazy głosów TIMIT. Głównym celem badań było rozszerzenie funkcjonalności systemu rozpoznawania mówcy poprzez dodanie układu progowego, a tym samym umożliwienie identyfikacji w otwartym zbiorze mówców. Przedstawiono różne warianty zastosowanego układu progowego oraz dokonano próby wzbogacenia wektora cech dystynktywnych o różnicę częstotliwości podstawowej wyznaczanej dwiema różnymi metodami. Abstract. In the article there are presented the test results of the automatic speaker recognition system, conducted while using the commercial voice basis TIMIT. The main purpose of the test was to extend the functionality of the speaker recognition system by adding the threshold based system, and consequently to enable the identification in the open set of speakers. There are presented different application variants of the threshold based system and there is an attempt to enrich the vector of distinctive features with the fundamental frequency difference determined with two different methods. (Voice identification in the open set of speakers) Słowa kluczowe: sygnał mowy, rozpoznawanie mówcy, modele mieszanin gaussowskich, uniwersalny model głosu Keywords: speech signal, speaker recognition, Gaussian mixtures models, universal background model Wstęp Systemy biometryczne należą do szybko rozwijającej się dziedziny wiedzy, która daje początek rentownym gałęziom przemysłu. Na całym świecie widoczna jest tendencja do uzupełninia, a nawet zastępowania klasycznych metod dostępowych przez systemy biometryczne. Dzieje się tak, gdyż konwencjonalne metody uwierzytelniania i autoryzacji, jak np. kody dostępu, w przeciwieństwie do biometryk, mogą być w łatwy sposób skradzione bądź zgubione. Do najczęściej używanych identyfikatorów biometrycznych należą odcisk palca, obraz twarzy, geometria dłoni, obraz tęczówki, podpis oraz głos [1][...]

Wybrane aspekty projektowania przełączników fotokonduktancyjnych DOI:10.15199/48.2017.10.24

Czytaj za darmo! »

Półprzewodnikowy przełącznik fotokonduktancyjny (ang. PCSS photoconductive semiconductor switch) to przełącznik elektryczny, którego zasada działania opiera się na zjawisku fotoprzewodnictwa. Podstawowymi cechami powodującymi obecnie szerokie zainteresowanie elementami PCSS są możliwości ich szybkiego włączania (rzędu nanosekund), dzięki czemu znajdują zastosowanie w układach przetworników analogowo-cyfrowych, układach sterowania i naprowadzania. Mogą być również wykorzystane w generatorach sygnałów mikrofalowych i terahercowych, pracujących metodą bezpośredniej konwersji z prądu stałego (DC-RF) [1]. Napięcie pracy łącznika w stanie rozwarcia może sięgać 100 kV, a prąd przewodzony może być rzędu 1 kA [2], stąd przełączniki te mogą znaleźć zastosowanie w aparaturze do przetwarzania wysokich energii, w tym generatorów impulsów energii skierowanej (HPEM). Zasada działania Półprzewodnikowy przełącznik fotokondukancyjny jest skonstruowany z półprzewodnikowego materiału na którym umieszczone są metalowe kontakty umożliwiające połączenie materiału do obwodu elektrycznego. Przykładowa konstrukcja tego typu urządzenia przedstawiona została na rys. 1. Rys. 1. Ogólna struktura półprzewodnikowego przełącznika fotokonduktancyjnego Przełącznik PCSS może pracować w dwóch trybach: liniowym oraz nieliniowym. W trybie liniowym (konwencjonalnym) jeden absorbowany foton generuje jedną parę elektron-dziura. Po wyłączeniu oświetlenia następują procesy rekombinacji nośników ładunku, które powodują powrót właściwości materiału półprzewodnikowego do stanu przed oświetleniem. W ramach tego trybu nośniki ładunku mogą powstawać w oparciu o absorpcję samoistną (podstawową, międzypasmową) bądź absorpcję pośrednią (absorpcja na domieszkach). W przypadku absorpcji samoistnej poziom do którego może docierać energia optyczna jest bardzo mały  rzędu dziesiątki mikronów. W wyniku tego gęstość energii optycznej powinna być rzędu kilku kJ/cm2 aby [...]

Wybrane zagadnienia pomiaru fotoprzewodnictwa w aspekcie badania struktury defektowej materiałów półprzewodnikowych DOI:10.15199/48.2017.10.11

Czytaj za darmo! »

W ostatnich latach prowadzone są intensywne badania mające na celu uzyskanie materiałów półprzewodnikowych o nowych właściwościach, umożliwiających wytwarzanie przyrządów dla nowych rozwiązań układowych w energoelektronice. Nowe właściwości materiałów otrzymywane są za pomocą inżynierii struktury defektowej, pozwalającej na wprowadzanie do materiału centrów defektowych o odpowiednich właściwościach. Niestacjonarne fotoprzewodnictwo materiałów półizolujących (np. arsenku galu SI GaAs) jest coraz szerzej wykorzystywane praktycznie zarówno podczas pomiaru właściwości centrów defektowych [1, 2], jak i w działaniu przełączników fotokonduktancyjnych [3]. Jedną z najbardziej efektywnych metod badania właściwości centrów defektowych jest niestacjonarna spektroskopia fotoprądowa PITS (ang. Photo-Induced Transient Spectroscopy) [4, 5]. Polega ona na impulsowym generowaniu nadmiarowych nośników ładunku w próbce materiału o wysokiej rezystywności poprzez pobudzenie fotonami o energii większej od szerokości przerwy zabronionej, a następnie rejestrowaniu relaksacyjnych przebiegów fotoprądu po wyłączeniu czynnika pobudzającego. Przebiegi te wywołane są termiczną emisją nośników ładunku wychwyconych przez centra defektowe podczas oświetlenia próbki i mają charakter będący sumą funkcji eksponencjalnych [6]. Przykładowe relaksacyjne przebiegi czasowe fotoprądu płynące przez próbkę materiału wykonaną z arsenku galu zmierzone na opisywanym stanowisku przedstawione są na Rys. 1. a) b) Rys. 1. Relaksacyjne przebiegi czasowe prądu płynącego przez próbkę materiału wykonanego z GaAs podczas włączania oświetlenia (a) oraz podczas wyłączania oświetlenia (b) zmierzone na opisywanym stanowisku pomiarowym. Próbka oświetlana była światłem niebieskim o długości fali ok. 440 nm. Współczynnik wzmocnienia przetwornika prąd-napięcie wynosił 107 V/A. Fotoprądy są rejestrowane w szerokim zakresie zmian temperatury, a następnie przekształcenia do postaci widm[...]

 Strona 1