Wyniki 1-2 spośród 2 dla zapytania: authorDesc:"Adam PELIKANT"

Query by Voice Example and sound similarity based on the Dynamic Time Warping algorithm

Czytaj za darmo! »

This article describes Query by Voice Example speaker independent sound similarity system based on Dynamic Time Warping (DTW) classifier. DTW is an algorithm that finds the optimal alignment between two time series. It is commonly used to determine time series similarity and corresponding regions finding between two time series. Those features enable this algorithm to be used in combination with MFCC and HFCC coefficients. Streszczenie. Poniższy artykuł opisuje system wyszukiwania podobieństwa danych audio Query by Voice Example oparty o klasyfikator nieliniowej transformacji czasu DTW. Algorytm DTW sprawdza dopasowanie dwóch ciągów. Częstym jego zastosowaniem jest wyszukiwania podobieństwa między seriami czasowymi. Dzięki tym cechom możliwe jest zastosowanie tego algorytmu w połączeniu z współczynnikami MFCC i HFCC. (System wyszukiwania podobieństwa danych audio Query by Voice Example oparty o klasyfikator nieliniowej transformacji czasu DTW) Keywords: Dynamic Time Warping Classifier, DTW, audio databases Słowa kluczowe: Dynamic Time Warping Classifier, DTW, nieliniowa transformacja czasu Introduction In the 21st century one of the key problems in database systems is multimedia information retrieval, management and storing. The most important issue is fast and accurate data querying. Audio data stored in mp3, wave or ring tones is one of the most popular categories of multimedia. Nowadays audio data searching in database systems is totally restricted to relational metadata, which are attached to the files or byte streams. Audio data sets are typically indexed by such features as song title, album name, composer, performer, length or music genre. However, listeners often want to perform tasks that require more complicated knowledge of the record content, such as the included utterances. To extend the number of ways in which audio data can be accessed and manipulated, researchers must create systems that can access perceptually rele[...]

Charakterystyki behawioralne w biometrii DOI:10.15199/13.2015.10.9


  Analiza sygnałów mowy na potrzeby rozwoju interakcji człowieka z maszyną jest aktualnie jednym z najczęściej eksploatowanych obszarów biometrii. Proces komunikacji międzyludzkiej jest niezmiernie skomplikowany, a sygnał mowy zawiera złożoną informację pozwalającą zarówno na identyfikację znaczenia wypowiedzi, jak również na ocenę charakterystyk biometrycznych takich jak płeć, wiek, stan zdrowia, stan emocjonalny, pochodzenie, a także tożsamość osoby mówiącej. Sygnał mowy może być opisany za pomocą wielu parametrów opracowanych na potrzeby fonetyki, medycyny czy automatycznego rozpoznawania. Wybór i opracowanie odpowiednich metod jest wyzwaniem w dziedzinie analizy danych, gdyż stanowi kluczowy krok decydujący o skuteczności automatycznych systemów rozpoznawania mowy. Głównym postulatem prowadzonych prac jest przetwarzanie danych w tym samym miejscu, w którym są one składowane. Ponadto w silnych komercyjnych serwerach baz danych istnieje możliwość enkapsulowania klas obiektowych do elementów proceduralnych, ale również do obiektowych typów użytkownika [1]. Takie podejście pozwala na implementacje złożonych algorytmów po stronie bazy, co daje możliwość skorzystania z wbudowanych cech serwerów takich jak: indeksowanie czy transakcyjność przetwarzania, wpływających na wydajność przetwarzania. Badania prowadzone nad takim sposobem przetwarzania doprowadziły do opracowania algorytmów zapytań rozmytych [2] oraz przetwarzania danych semistrukturalnych, do których można zaliczyć: dane tekstowe, dane medyczne DICOM, ale również dane strumieniowe audio [3, 4, 5, 6]. Ekstrakcja deskryptorów sygnału mowy Najprostszą metodą pozyskiwania deskryptorów mowy jest bezpośrednie przetwarzanie próbek sygnału wejściowego na podstawie jego struktury czasowej. Na podstawowy zestaw takich wielkości składają się: wartość średnia sygnału, średnia moc oraz obwiednia sygnału, gęstość, a także liczba przejść przez zero. Bardziej efektywnym podejściem j[...]

 Strona 1