Wyniki 1-10 spośród 18 dla zapytania: authorDesc:"Tomasz Marciniak"

Kodowanie dźwięku w cyfrowych systemach transmisyjnych

Czytaj za darmo! »

Jakość sygnałów (kodeków) audio można zdefiniować za pomocą trzech głównych parametrów [1]: szerokości pasma sygnału, wierności odtwarzania oraz realizmu przestrzennemu. W przypadku sygnałów audio wysokiej jakości wymagane jest pasmo o szerokości, którego górna wartość jest maksymalną częstotliwością słyszaną przez człowieka i osiąga 20 kHz. Standard płyty kompaktowej CD, który jeszcze dziś [...]

Influence of subband signal denoising for voice activity detection

Czytaj za darmo! »

Exact detection of voice activity endpoints is crucial in many speech processing procedures like, e.g., in: - speech coding in telephone communication, - speech enhancement, - automatic speech recognition (ASR). Determination of endpoints can significantly improve efficiency of these tasks. For example, in case of speech coding, the transmission speed can be reduced, because, as it can be observed, even a duplex conversation signal includes up to 60% of silence [1]. Transmission of only active speech signal parts reduces the channel occupation and saves the battery power. In case of automatic speech recognition, precise detection of word boundaries is a crucial step, which decides about the recognition effectiveness. VAD/EPD can be realized in time and/or in frequency domain [...]

Analysis of differences between MFCC after multiple GSM transcodings

Czytaj za darmo! »

Artykuł prezentuje rezultaty badań nad wpływem wielokrotnego transkodowania sygnału audio próbkowanego z szybkością 8 kSps dla standardu GSM, oraz 16 kSps. Przeanalizowane zostały uzyskane różnice między współczynnikami MFCC, otrzymane w wyniku kolejnych transkodowań. Głównym celem porównania jest sprawdzenie możliwości separacji danych oraz detekcji wykorzystywanego w transmisji kodera GSM. Do eksperymentu wykorzystana została baza nagrań sygnału mowy TIMIT, transkodowana czterokrotnie przez kodery GSM. Przeanalizowane zostały możliwości detekcji typu kodera na podstawie różnic między aproksymatami krzywoliniowymi błędów współczynników MFCC. (Analiza wpływu wielokrotnego transkodowania GSM na różnice między współczynnikami MFCC). Abstract: This paper presents results of studies on the effects of multiple speech transcoding operations in the case of GSM standard with 8 kSps and 16 kSps sampling rate. Differences between the MFCC coefficients obtained by successive transcoding were considered. The aim of comparisons is to check the possibility for separation and detection of the used GSM encoder. During the research we used the TIMIT database recordings, transcoded four times by GSM codecs. A possibility of encoder type detection was analyzed based on differences between the curvilinear approximations of the MFCC coefficient errors. Słowa kluczowe: GSM, transkodowanie, MFCC, kodowanie mowy Keywords: GSM, transcoding, MFCC, speech encoding Introduction GSM speech coding is an operation that introduces distortion into a useful signal. These changes are critical in the speaker identification and speech recognition systems [1] [2]. Information about the type of speech codec can have a significant impact on the effectiveness of such systems, because we can use appropriate reference recordings during the training phase and calculate the dedicated models for detected type of GSM encoding [3]. Proposed in [4] GSM encoding detection algorithm [...]

Porównanie i ocena skuteczności detekcji i rozpoznawania twarzy w sekwencjach wideo DOI:10.15199/48.2016.09.36

Czytaj za darmo! »

Streszczenie. Artykuł przedstawia badania związane z identyfikacją osób w sekwencji wideo rejestrowanej za pomocą kamery IP monitoringu wizyjnego. Celem prac było zbudowanie systemu umożliwiającego rozpoznawanie twarzy przy wykorzystaniu minikomputera pracującego pod kontrolą systemu Linux. Przyjęto także założenie, że współpraca użytkowników systemu jest ograniczona, czyli akwizycja zdjęcia twarzy nie odbywa się frontalnie zgodnie z zaleceniami norm biometrycznych. Przeprowadzono badania z wykorzystaniem bazy danych ChokePoint w celu dobrania najlepszych parametrów metod wykorzystujących techniki PCA, LDA oraz LBPH. Oprogramowanie przygotowano w języku Python z użyciem bibliotek OpenCV. Abstract. The paper presents studies related to the people identification in video sequences recorded with a video surveillance IP camera. The aim of this work was to build a system for face recognition using a minicomputer running with Linux. A premise was also a limited collaboration of the users with the system, i.e, that face acquisitions are not neceserily made frontally in accordance with recommendations of the biometric standards. Thr research was conducted using the ChokePoint database in order to select the best parameters for the analyzed methods: PCA, LDA, and LBPH. The software was prepared in Python using the OpenCV libraries. (Comparison and assessment of effectiveness of face detection and recognition in video sequences). Słowa kluczowe: rozpoznawanie twarzy, identyfikacja biometryczna, PCA, LDA, LBPH. Keywords: face recognition, biometric identification, PCA, LDA, LBPH. Wprowadzenie Współczesne interfejsy człowiek-komputer HMI (ang. human-machine interface) opierają się coraz częściej na wykorzystaniu naturalnych kanałów komunikacji człowieka w celu porozumiewania się z maszyną. Wymiana informacji takimi kanałami powinna być szybsza i bardziej naturalna dla użytkownika niż komunikacja z wykorzystaniem paneli sterowniczych. Informacja mo[...]

Nauczanie zagadnień cyfrowego przetwarzania sygnałów z zastosowaniem modułów z mikrokontrolerem DOI:10.15199/48.2018.09.30

Czytaj za darmo! »

Nauczanie zagadnień cyfrowego przetwarzania sygnałów (ang. DSP - digital signal processing), oprócz omówienia podstaw teoretycznych, powinno być ilustrowane układami elektronicznymi czasu rzeczywistego [1, 2, 3], np. za pomocą modułów z procesorami sygnałowymi. Przykładem modułu edukacyjnego DSP jest TMS320C5515 eZDSP USB Stick (pokazany na rys. 1) [4], który wyposażono także w zintegrowany koder dźwięku TLV320AIC3204, komunikujący się z mikroprocesorem z wykorzystaniem interfejsu szeregowego I2S (Inter-IC-Sound). Układ pracuje z szybkością od 8 do 192 kpróbek/s, przesyłając dane mono lub stereo o rozdzielczości 16 bitów. Programowanie modułu odbywa się z wykorzystaniem środowiska Code Composer Studio (CCS), które w przypadku podłączenia modułów akceptowanych przez firmę Texas Instruments oferuje pełną funkcjonalność. Należy dodać, że dla modułu opracowano zestaw materiałów edukacyjnych zawierających prezentacje i przykładowe oprogramowanie obejmujące algorytmy cyfrowego przetwarzania sygnałów audio, między innymi: echo cyfrowe, efekty gitarowe, odszumianie sygnałów, kompresję mowy standardów G.711, generację i detekcję sygnałów DTMF [5]. Rys. 1. TMS320C5515 eZDSP USB Stick Oprócz najbardziej znanych producentów procesorów sygnałowych (takich jak Texas Instruments, Analog Devices, Freescale, Microchip), ofertę edukacyjną w zakresie cyfrowego przetwarzania sygnałów w czasie rzeczywistym oferują także producenci znani z rynku mikrokontrolerów. W laboratorium DSP prowadzonym dla studentów 2 stopnia, autorzy artykułu wykorzystują m.in. moduł STM32F407 Discovery zawierający procesor STM32F407 ARM Cortex-M4 [6], pracujący z zegarem 168 MHz. Moduł komunikuje się z hostem PC poprze[...]

Obliczenia równoległe z wykorzystaniem instrukcji wielozadaniowych w przetwarzaniu sygnałów

Czytaj za darmo! »

Możliwość zrównoleglenia operacji w algorytmach CPS (cyfrowego przetwarzania sygnałów) wynika z istotnych cech współczesnych procesorów sygnałowych DSP. Należy do nich zaliczyć m.in.: ● sprzętowy układ mnożący i długi akumulator, ● wielomagistralową architekturę harwardzką, ● pamięć wewnętrzną bez cykli oczekiwania (w tym podręczną pamięć kieszeniową), ● adresowanie[...]

Wpływ segmentacji sygnału w procesie detekcji kodowania GSM


  Rozpoznawanie i identyfi kacja mówcy, szczególnie na podstawie rozmów telefonicznych wymaga ulepszania realizujących je algorytmów. Celem poprawy sprawności rozpoznania, celowe jest zastosowanie dedykowanych próbek głosu w zależności od stosowanych kodeków (np. telefonii komórkowej lub stacjonarnej). Wynika stąd konieczność detekcji kodeków mowy. Główną ideą detekcji kodeka jest obserwacja, że sygnał powtórnie poddany kompresji stratnej tym samym algorytmem nie ulega dużym zmianom. Zatem poprzez zakodowanie i zdekodowanie badanego sygnału i porównanie wyniku z sygnałem wejściowym można ocenić, czy sygnał był wcześniej kompresowany badanym kodekiem. W przypadku sygnału, który nie był przetworzony danym kodekiem, uzyskany błąd między obydwoma sygnałami jest większy niż w przypad[...]

Speaker recognition based on telephone quality short Polish sequences with removed silence

Czytaj za darmo! »

This paper presents the effectiveness of speaker identification based on short Polish sequences. An impact of automatic removal of silence on the speaker recognition accuracy is considered. Several methods to detect the beginnings and ends of the voice signal have been used. Experimental research was carried out in Matlab environment with the use of a specially prepared database of short speech sequences in Polish. The construction of speaker models was realized with two techniques: Vector Quantization (VQ) and Gaussian Mixture Models (GMM). We also tested the influence of the sampling rate reduction on the speaker recognition performance. Streszczenie: Artykuł przedstawia badania efektywności rozpoznawania mówcy opartego na krótkich wypowiedziach w języku polskim. Sprawdzono wpływ automatycznego wykrywania i usuwania ciszy na jakość rozpoznawania mówcy. Przebadano kilka różnych metod wykrywania początku i końca fragmentów mowy w wypowiadanych sekwencjach. Eksperymenty zostały przeprowadzone z użyciem środowiska Matlab i specjalnie utworzonej bazy krótkich wypowiedzi w języku polskim. Do budowy modeli mówców wykorzystano kwantyzacja wektorowa (VQ) oraz Gaussian Mixture Models (GMM). Podczas badań sprawdzono także wpływ obniżenia szybkości próbkowania na skuteczność identyfikacji mówcy. (Badania efektywności rozpoznawania mówcy opartego na krótkich wypowiedziach w języku polskim) Keywords: speaker recognition, vector quantization, GMM, end-point detection. Słowa kluczowe: rozpoznawanie mówcy, kwantyzacja wektorowa, GMM, detekcja głosu. Introduction Techniques based on acoustic signals are an interesting solution in numerous biometry applications [1,2]. In our present study we focus on experiments with short speech sentences [3, 4]. This paper examines an influence of the voice activity detection techniques on efficiency of the speaker identification. This task has been realized with the use of the GMM (Gaussian mixture models) as well as[...]

An embedded system for real-time speaker recognition using Raspberry Pi platform DOI:10.15199/13.2016.4.1


  Artykuł prezentuje system realizujący rozpoznawanie mówcy z radia internetowego. Zaproponowane rozwiązanie wykorzystuje narzędzia udostępnione w ramach ogólnie dostepnego oprogramowania dla języka Python. Prezentowane oprogramowanie zostało przetestowane w środowisku Windows a następnie zostało zaadaptowane do uruchomienia na platformie Raspberry Pi 2, zarządzanej przez system Linux. W artykule przeanalizowano dostępne biblioteki, które posłużyły do implementacji algorytmów ekstrakcji cech oraz modelowania sygnału mowy. Przeprowadzone eksperymenty pozwoliły na dobranie parametrów systemu, przy których uzyskuje się najlepszą skuteczność identyfikacji i jednocześnie największą szybkość przetwarzania danych. Przygotowane oprogramowanie jest dostępne w repozytorium Github. Słowa kluczowe: rozpoznawanie mówcy, GMM, radio internetowe, Python, Raspberry Pi.Low budget minicomputers (those at a price below $50, such as BeagleBoard, Banana Pi, Creator CI20, or Raspberry Pi, including the latest model Raspberry Pi 3) make it possible to build embedded devices for easy and efficient implementation of digital signal processing algorithms. These platforms support internet communication via wired or wireless interfaces and may replace expensive specialized DSP platforms [9]. The goal of this paper is to show an efficient implementation of the internet radio receiver with fast speaker identification functionality. Identification of speakers may be an additional functionality of modern radio receivers. They on the LCD displays can even offer relevant information about the speakers regardless of sending such information by the broadcaster. Currently, according to the authors’ knowledge, no radio station transmits such information. Identification functionality should be implemented directly in the embedded system, because it was assumed that the information about speaker should frequently change on the radio display e.g. every second. Fo[...]

Miary i mapy kinetyczne do automatycznej analizy ruchu w systemach CCTV DOI:10.15199/13.2018.4.4


  Analiza zachowań ludzi oraz określenie wielkości i gęstości tłumu w przestrzeni publicznej to istotne problemy w nowoczesnych systemach monitoringu wideo. Duże zgromadzenia ludzi na imprezach masowych takich jak koncerty, festiwale muzyczne, imprezy sportowe itp., są ważnymi wyzwaniami w dziedzinie bezpieczeństwa publicznego. Zwykle te wydarzenia pociągają za sobą występowanie tłumów w miejscach publicznych, takich jak ulice miast, stadiony, ogrodzone tereny na wolnym powietrzu itp. W przypadku jakiegokolwiek niebezpiecznego incydentu i paniki, niewłaściwie zaprojektowana przestrzeń - występowanie wąskich przejść lub trudności z opuszczeniem lokalu - są częstymi przyczynami wzrostu liczby ofiar. Ponieważ większość obszarów publicznych jest objęta systemami telewizji przemysłowej (CCTV), możliwe jest analizowanie zachowania tłumu w różnych sytuacjach i obszarach. Na podstawie obserwacji możliwe jest wyciągnięcie wniosków na temat bezpieczeństwa i ergonomii badanej przestrzeni. Nowoczesne systemy nadzoru wideo są wyp - ang. Intelligent Video Analysis) zaprojektowaną w celu wsparcia operatora monitorującego. Automatyczna analiza ruchu i zachowań tłumu pozwala na zdecydowanie łatwiejszą ocenę danej przestrzeni publicznej przez operatora. Monitorowanie wizyjne odbywa się coraz częściej za pomocą komputerowych systemów wbudowanych. Przykładem takich rozwiązań może być platforma BLIP (ang. - BlackFin low-Power Imaging Platform) firmy Analog Devices, oferująca zestaw narzędzi umożliwiających implementowanie zaawansowanych algorytmów wizyjnych (Blackfin image processing toolbox, Blackfin vision analytics toolbox, Blackfin video content analytics toolbox), co pozwala na szybkie wdrażanie i testowanie nowych rozwiązań [1]. Innymi programowalnymi platformami umożliwiającymi prototypowanie rozwiązań wizyjnych to Raspberry Pi z dedykowaną kamerą [12], Beagle- Bone Black [3] firmy Texas Instruments czy Odroid C1 [10]. Większość dostępny[...]

 Strona 1  Następna strona »