Wyniki 1-8 spośród 8 dla zapytania: authorDesc:"SZYMON DRGAS"

Speech recognition by means of feature extraction method based on slope transformation assisted

Czytaj za darmo! »

Current automatic speech recognition (ASR) systems achieve already acceptable recognition accuracy for clean speech. However their performance degrades, if they are subjected to speech corrupted with noise present in practical environments. It has been observed that additive white noise severely degrades the performance of mel-cepstra based recognition systems [8]. This problem becomes espec[...]

Speaker verification using various dynamic kernels for prosodic features combined with spectral information

Czytaj za darmo! »

In this article the text independent speaker verification problem is considered. The approach, in which SVM and prosodic features are employed, has been chosen. Prosodic features are modelled by Legendre polynomials. In order to map a sequence of prosodic vectors to the fixed dimensional vector, three kernels were used: VQ kernel, GMM supervector kernel, and Fisher kernel. These three kernels were compared and their combination was evaluated. Finally, a combination with spectral features was investigated. Streszczenie. W artykule jest rozwa˙zany problem automatycznej weryfikacji mówcy niezale˙znej od tekstu. Przedstowiono system oparty na maszynach wektorów no´snych (SVM - support vector machines) oraz cechach prozodycznych. Cechy prozodyczne sa˛ modelowane z wykorzystaniem wielomianów Legendre’a. W celu przekształcenia wektorów prozodycznych na wektory o ustalonej liczbie elementów zasotosowano trzy funkcje ja˛dra: VQ, superwektor GMM oraz ja˛dro Fishera. Wymienione funkcje zostały porównane oraz przetestowano skutecznos´c´ systemu w przypadku kombinacji wektorów. Zbadano takz˙e skutecznos´c´ systemu w poła˛czeniu z cechami spektralnymi. (Automatyczne rozpoznawanie mówcy z wykorzystaniem róz˙nych ja˛der opartych na cechach prozodycznych poła˛czonych z cechami spektralnymi) Keywords: automatic speaker recognition, SVM, prosodic features Słowa kluczowe: automatyczne rozpoznawanie mówcy, SVM, cechy prozodyczne Introduction In this paper text-independent speaker verification problem is considered based on support vector machines (SVMs). These classifiers turned out to be successful classifiers for speaker verification [3]. Although spectral features provide satisfactory performance in laboratory conditions, prosodic features can be used to improve accuracy of such systems. Prosodic features are especially important in case of telephone speech. Mismatch conditions, e.g. as prosodic features (based on F0 and energy contours), are to [...]

Speaker identification based on Gaussian mixture model - experiments with Polish language utterances

Czytaj za darmo! »

The speech signal conveys several levels of information, however most important is the message coded with the words. Furthermore speech signal conveys information about speaker identity, emotions, health etc. Automatic speaker recognition is a technology that is capable to identify a person who spoke (speaker identification) or to authenticate the speaker's claimed authenticity (speake[...]

Koncepcja multimedialnej bazy danych do rejestracji i przeszukiwania rozmów na telefony alarmowe


  Rozmowy na telefony alarmowe są w Polsce rejestrowane, jednak ze względu na ich dużą liczbę, w chwili obecnej nie jest jeszcze możliwe odnalezienie odpowiednich informacji (np. potrzebnych do identyfi kacji mówcy) bez wykorzystania znacznych zasobów ludzkich, a więc poświęcenia temu zadaniu dużych nakładów czasowych i fi nansowych. Z tego powodu jednym z celów prowadzonego przez autorów projektu naukowego jest opracowanie bazy danych zawierającej informacje o rozmowach i narzędzia do wielopoziomowego wspomagania rozpoznawania mówcy, tj. metody wykorzystujące zarówno cechy głosu, jak i lingwistyczne cechy wypowiedzi mówcy. Narzędzia te są oparte na implementacji algorytmów wielopoziomowej analizy sygnałów i anotacji danych wykonywanej przez operatora telefonu i/lub automatyczni[...]

Fast speaker recognition based on short Polish sequences


  Among key issues determining effectiveness and speed of biometric identification systems there is a proper selection of acquisition parameters and representation of the input data. Typically biometric systems are based on the analysis and recognition of various images such as fingerprint, face, iris, ear, hand geometry, etc. [1, 2]. However, nowadays speaker recognition techniques are becoming more and more important. Identification techniques based on acoustic signals (voice) is yet holding about a 3% share in the commercial biometric market only [3]. However, it should be noted that the speaker identification has a number of advantages and can be used to authorization access for many services and systems such as voice dialing options, telephone banking, shopping by phone, database access, voicemail, information services, access to restricted zones, access to computers, etc. In contrast to systems based on image recognition, speaker recognition easier detects sex and nationality. It may also be a part of complex multimodal biometric systems examining many biometric features thus guarantying more effective identification. Speaker recognition techniques can be divided into two types: verification and identification [4, 5]. Speaker verification consists in acceptance or rejection of the speaker. Speech after parameterization is compared with the reference model. Depending on certain diagnosis threshold, the speaker is accepted or rejected. Verification is simpler than the second task namely identification, which consists in recognition which person from a set of the registered people speaks. Parameters of the input speech signal are compared with the base parameters of the reference N-models. Then the maximum selector shows the greatest similarity to the reference model and selects the appropriate speaker ID. Speaker recognition methods can be divided into the following main categories [6]: - text-dependent - speaker recogni[...]

Database and recording system for registration, maintaining and fast searching of emergency telephone calls


  Maintenance of telephone calls is a very important task for emergency services like for the Police, Ambulance Service, and Fire Brigades [1]. An important task consists, among others, in a search for calls of same person over a relatively long period of time (of months or years) and large area. Huge number of the recorded calls to be analyzed in such a case hampers or even makes realization of this task impossible not only in real-time (i.e., during the call, which typically lasts about 1.2 minutes only) but also off-line. Furthermore, it is also quite difficult to automatically decide if a present call is related to the already reported case. The described functionalities are very helpful to prevent unnecessary interventions under fake submissions or multi reporting of the same case, which unfortunately occur quite often. In order to offer the described functionalities, we are creating an additional database in parallel to the standard one (that of pure, whole call recordings), which contains concise but unambiguous information about the calls and speakers, and we are preparing tools for efficient and fast data searching. These tools are based on implementation of multilevel signal analysis and on metadata, which are automatically or manually annotated (i.e., by the telephone operator) for the call in real-time and/or during the call post-processing. Some data should be won manually as e.g. annotations of speaker characteristics based on the call transcriptions. Proposed tools enable efficient data search among the calls. It is possible to recall the most similar voices from the database using multilevel speaker analysis starting with the voice features and ending with the linguistic features. For more effective searching we use metadata in a complex but coherent system based on semantic data analysis joint with the numeric data analysis, and correlations among various features. General, initial concept of the database sys[...]

Kaldi Toolkit in Polish Whispery Speech Recognition DOI:10.15199/48.2016.11.70

Czytaj za darmo! »

In this paper, the automatic speech recognition task has been presented. Used toolkits, libraries and prepared speech corpus have been described. The obtained results suggest, that using different acoustic models for normal speech and whispered speech can reduce word error rate. The optimal training steps has been also selected. Thanks to the additional simulations it has been found that used corpus (over 9 hours of normal speech and the same of the whispery speech) is definitely too small and must be enlarged in the future. Streszczenie. W artykule przedstawiono automatyczne rozpoznawanie mowy. Wykorzystane narzędzia, biblioteki i korpus opisano w artykule. Uzyskane wyniki wskazują, że wykorzystując różne modele akustyczne dla mowy zwykłej i szeptanej uzyskuje się polepszenie skuteczności rozpoznawania mowy. W wyniku wykonanych badań wskazano również optymalną kolejność kroków treningu. Dzięki dodatkowym obliczeniom stwierdzono, że użyty korpus (ponad 9 godzin zwykłej mowy i drugie tyle szeptu) jest zdecydowanie za mały do dobrego wytrenowania systemu rozpoznawania mowy i w przyszłości musi zostać powiększony. (Narzędzia Kaldi w rozpoznawaniu polskiej mowy szeptanej). Keywords: speech recognition, ASR, whispered speech, database. Słowa kluczowe: rozpoznawanie mowy, ASR, mowa szeptana, baza danych. Introduction The automatic speech recognition (ASR) systems become more widely used and are available in most of modern phones as well as in many websites. Those systems are, usually, an alternative to the manual text input, e.g. SMS messages. ASR can be also used for more sophisticated tasks, as support of a speech transcription (e.g. in a parliament or in an army). Most of research in the literature is focused on a normal speech, while the whispery speech is rarely explored (but the largest electronics companies are interested in this topic [1,2]). Apart from the military and reconnaissance usage, automatic whispery speech recognition (A[...]

Układy elektroniczne jako elementy ludzkiego ciała i człowiek jako element układów elektronicznych


  Niektóre współczesne układy elektroniki medycznej, wspomagając osoby niepełnosprawne, pełnią funkcje zastępczych organów. Należą do nich np. implanty ślimakowe ucha wewnętrznego i stymulatory serca. W innych, rozbudowanych systemach elektronicznych, człowiek staje się ich częścią. Jest tak przykładowo w systemach monitoringu i systemach biometrycznych, które służą do rozpoznawania ludzi. W Pracowni Układów Elektronicznych i Przetwarzania Sygnałów (PUEP S) Wydziału Informatyki Politechniki Poznańskiej są podejmowane badania w obu tych kierunkach. W niniejszym artykule przedstawiono wybrane przykłady tych badań. W szczególności omówiono: - poprawę zrozumiałości mowy poprzez separację sygnałów, - Blue Voice - system wspomagania mowy osób laryngektomowanych, - zaawansowane testy audiometryczne, - generację wielotonów nieharmonicznych, - wielokanałowy system do badań bioimpedancyjnych, - detekcję punktów akupunkturowych, - terapię dźwiękiem i diagnostykę akustyczną, - automatyczne rozpoznawanie mówcy. Poprawa zrozumiałości mowy i separacja sygnałów Znaczącym obszarem zastosowań współczesnej elektroniki jest przetwarzanie mowy w celu poprawy komunikacji interpersonalnej. Aparaty słuchowe i telefony przenośne są często używane w miejscach, w których występuje zakłócające tło akustyczne, jak np. rozmowy innych osób, czy odgłosy ruchu ulicznego (tzw. problem "cocktail party"). W takich warunkach, zwłaszcza w przypadku sensorycznych ubytków słuchu, naturalna percepcja słuchowa człowieka (zdolność do przestrzennej filtracji zakłóceń) jest ograniczona, i właśnie dlatego w takich urządzeniach pożądane jest tłumienie dźwięków zakłócających. Nowoczesnym rozwiązaniem tego problemu są wielomikrofonowe filtry kierunkowe. Badania zrozumiałości mowy z wykorzystaniem filtru z dwoma mikrofonami opisano w [1]. Uzyskane charakterystyki kierunkowe przedstawiono na rys. 1. Pomiary zrozumiałości mowy wykazały, że osiągnięto wzrost zrozumiałości m[...]

 Strona 1