Wyniki 1-10 spośród 15 dla zapytania: authorDesc:"TOMASZ MARCINIAK"

Kodowanie dźwięku w cyfrowych systemach transmisyjnych

Czytaj za darmo! »

Jakość sygnałów (kodeków) audio można zdefiniować za pomocą trzech głównych parametrów [1]: szerokości pasma sygnału, wierności odtwarzania oraz realizmu przestrzennemu. W przypadku sygnałów audio wysokiej jakości wymagane jest pasmo o szerokości, którego górna wartość jest maksymalną częstotliwością słyszaną przez człowieka i osiąga 20 kHz. Standard płyty kompaktowej CD, który jeszcze dziś [...]

Influence of subband signal denoising for voice activity detection

Czytaj za darmo! »

Exact detection of voice activity endpoints is crucial in many speech processing procedures like, e.g., in: - speech coding in telephone communication, - speech enhancement, - automatic speech recognition (ASR). Determination of endpoints can significantly improve efficiency of these tasks. For example, in case of speech coding, the transmission speed can be reduced, because, as it can be observed, even a duplex conversation signal includes up to 60% of silence [1]. Transmission of only active speech signal parts reduces the channel occupation and saves the battery power. In case of automatic speech recognition, precise detection of word boundaries is a crucial step, which decides about the recognition effectiveness. VAD/EPD can be realized in time and/or in frequency domain [...]

Analysis of differences between MFCC after multiple GSM transcodings

Czytaj za darmo! »

Artykuł prezentuje rezultaty badań nad wpływem wielokrotnego transkodowania sygnału audio próbkowanego z szybkością 8 kSps dla standardu GSM, oraz 16 kSps. Przeanalizowane zostały uzyskane różnice między współczynnikami MFCC, otrzymane w wyniku kolejnych transkodowań. Głównym celem porównania jest sprawdzenie możliwości separacji danych oraz detekcji wykorzystywanego w transmisji kodera GSM. Do eksperymentu wykorzystana została baza nagrań sygnału mowy TIMIT, transkodowana czterokrotnie przez kodery GSM. Przeanalizowane zostały możliwości detekcji typu kodera na podstawie różnic między aproksymatami krzywoliniowymi błędów współczynników MFCC. (Analiza wpływu wielokrotnego transkodowania GSM na różnice między współczynnikami MFCC). Abstract: This paper presents results of studies on the effects of multiple speech transcoding operations in the case of GSM standard with 8 kSps and 16 kSps sampling rate. Differences between the MFCC coefficients obtained by successive transcoding were considered. The aim of comparisons is to check the possibility for separation and detection of the used GSM encoder. During the research we used the TIMIT database recordings, transcoded four times by GSM codecs. A possibility of encoder type detection was analyzed based on differences between the curvilinear approximations of the MFCC coefficient errors. Słowa kluczowe: GSM, transkodowanie, MFCC, kodowanie mowy Keywords: GSM, transcoding, MFCC, speech encoding Introduction GSM speech coding is an operation that introduces distortion into a useful signal. These changes are critical in the speaker identification and speech recognition systems [1] [2]. Information about the type of speech codec can have a significant impact on the effectiveness of such systems, because we can use appropriate reference recordings during the training phase and calculate the dedicated models for detected type of GSM encoding [3]. Proposed in [4] GSM encoding detection algorithm [...]

Porównanie i ocena skuteczności detekcji i rozpoznawania twarzy w sekwencjach wideo DOI:10.15199/48.2016.09.36

Czytaj za darmo! »

Streszczenie. Artykuł przedstawia badania związane z identyfikacją osób w sekwencji wideo rejestrowanej za pomocą kamery IP monitoringu wizyjnego. Celem prac było zbudowanie systemu umożliwiającego rozpoznawanie twarzy przy wykorzystaniu minikomputera pracującego pod kontrolą systemu Linux. Przyjęto także założenie, że współpraca użytkowników systemu jest ograniczona, czyli akwizycja zdjęcia twarzy nie odbywa się frontalnie zgodnie z zaleceniami norm biometrycznych. Przeprowadzono badania z wykorzystaniem bazy danych ChokePoint w celu dobrania najlepszych parametrów metod wykorzystujących techniki PCA, LDA oraz LBPH. Oprogramowanie przygotowano w języku Python z użyciem bibliotek OpenCV. Abstract. The paper presents studies related to the people identification in video sequences recorded with a video surveillance IP camera. The aim of this work was to build a system for face recognition using a minicomputer running with Linux. A premise was also a limited collaboration of the users with the system, i.e, that face acquisitions are not neceserily made frontally in accordance with recommendations of the biometric standards. Thr research was conducted using the ChokePoint database in order to select the best parameters for the analyzed methods: PCA, LDA, and LBPH. The software was prepared in Python using the OpenCV libraries. (Comparison and assessment of effectiveness of face detection and recognition in video sequences). Słowa kluczowe: rozpoznawanie twarzy, identyfikacja biometryczna, PCA, LDA, LBPH. Keywords: face recognition, biometric identification, PCA, LDA, LBPH. Wprowadzenie Współczesne interfejsy człowiek-komputer HMI (ang. human-machine interface) opierają się coraz częściej na wykorzystaniu naturalnych kanałów komunikacji człowieka w celu porozumiewania się z maszyną. Wymiana informacji takimi kanałami powinna być szybsza i bardziej naturalna dla użytkownika niż komunikacja z wykorzystaniem paneli sterowniczych. Informacja mo[...]

Obliczenia równoległe z wykorzystaniem instrukcji wielozadaniowych w przetwarzaniu sygnałów

Czytaj za darmo! »

Możliwość zrównoleglenia operacji w algorytmach CPS (cyfrowego przetwarzania sygnałów) wynika z istotnych cech współczesnych procesorów sygnałowych DSP. Należy do nich zaliczyć m.in.: ● sprzętowy układ mnożący i długi akumulator, ● wielomagistralową architekturę harwardzką, ● pamięć wewnętrzną bez cykli oczekiwania (w tym podręczną pamięć kieszeniową), ● adresowanie[...]

Wpływ segmentacji sygnału w procesie detekcji kodowania GSM


  Rozpoznawanie i identyfi kacja mówcy, szczególnie na podstawie rozmów telefonicznych wymaga ulepszania realizujących je algorytmów. Celem poprawy sprawności rozpoznania, celowe jest zastosowanie dedykowanych próbek głosu w zależności od stosowanych kodeków (np. telefonii komórkowej lub stacjonarnej). Wynika stąd konieczność detekcji kodeków mowy. Główną ideą detekcji kodeka jest obserwacja, że sygnał powtórnie poddany kompresji stratnej tym samym algorytmem nie ulega dużym zmianom. Zatem poprzez zakodowanie i zdekodowanie badanego sygnału i porównanie wyniku z sygnałem wejściowym można ocenić, czy sygnał był wcześniej kompresowany badanym kodekiem. W przypadku sygnału, który nie był przetworzony danym kodekiem, uzyskany błąd między obydwoma sygnałami jest większy niż w przypad[...]

Speaker recognition based on telephone quality short Polish sequences with removed silence

Czytaj za darmo! »

This paper presents the effectiveness of speaker identification based on short Polish sequences. An impact of automatic removal of silence on the speaker recognition accuracy is considered. Several methods to detect the beginnings and ends of the voice signal have been used. Experimental research was carried out in Matlab environment with the use of a specially prepared database of short speech sequences in Polish. The construction of speaker models was realized with two techniques: Vector Quantization (VQ) and Gaussian Mixture Models (GMM). We also tested the influence of the sampling rate reduction on the speaker recognition performance. Streszczenie: Artykuł przedstawia badania efektywności rozpoznawania mówcy opartego na krótkich wypowiedziach w języku polskim. Sprawdzono wpływ automatycznego wykrywania i usuwania ciszy na jakość rozpoznawania mówcy. Przebadano kilka różnych metod wykrywania początku i końca fragmentów mowy w wypowiadanych sekwencjach. Eksperymenty zostały przeprowadzone z użyciem środowiska Matlab i specjalnie utworzonej bazy krótkich wypowiedzi w języku polskim. Do budowy modeli mówców wykorzystano kwantyzacja wektorowa (VQ) oraz Gaussian Mixture Models (GMM). Podczas badań sprawdzono także wpływ obniżenia szybkości próbkowania na skuteczność identyfikacji mówcy. (Badania efektywności rozpoznawania mówcy opartego na krótkich wypowiedziach w języku polskim) Keywords: speaker recognition, vector quantization, GMM, end-point detection. Słowa kluczowe: rozpoznawanie mówcy, kwantyzacja wektorowa, GMM, detekcja głosu. Introduction Techniques based on acoustic signals are an interesting solution in numerous biometry applications [1,2]. In our present study we focus on experiments with short speech sentences [3, 4]. This paper examines an influence of the voice activity detection techniques on efficiency of the speaker identification. This task has been realized with the use of the GMM (Gaussian mixture models) as well as[...]

An embedded system for real-time speaker recognition using Raspberry Pi platform DOI:10.15199/13.2016.4.1


  Artykuł prezentuje system realizujący rozpoznawanie mówcy z radia internetowego. Zaproponowane rozwiązanie wykorzystuje narzędzia udostępnione w ramach ogólnie dostepnego oprogramowania dla języka Python. Prezentowane oprogramowanie zostało przetestowane w środowisku Windows a następnie zostało zaadaptowane do uruchomienia na platformie Raspberry Pi 2, zarządzanej przez system Linux. W artykule przeanalizowano dostępne biblioteki, które posłużyły do implementacji algorytmów ekstrakcji cech oraz modelowania sygnału mowy. Przeprowadzone eksperymenty pozwoliły na dobranie parametrów systemu, przy których uzyskuje się najlepszą skuteczność identyfikacji i jednocześnie największą szybkość przetwarzania danych. Przygotowane oprogramowanie jest dostępne w repozytorium Github. Słowa kluczowe: rozpoznawanie mówcy, GMM, radio internetowe, Python, Raspberry Pi.Low budget minicomputers (those at a price below $50, such as BeagleBoard, Banana Pi, Creator CI20, or Raspberry Pi, including the latest model Raspberry Pi 3) make it possible to build embedded devices for easy and efficient implementation of digital signal processing algorithms. These platforms support internet communication via wired or wireless interfaces and may replace expensive specialized DSP platforms [9]. The goal of this paper is to show an efficient implementation of the internet radio receiver with fast speaker identification functionality. Identification of speakers may be an additional functionality of modern radio receivers. They on the LCD displays can even offer relevant information about the speakers regardless of sending such information by the broadcaster. Currently, according to the authors’ knowledge, no radio station transmits such information. Identification functionality should be implemented directly in the embedded system, because it was assumed that the information about speaker should frequently change on the radio display e.g. every second. Fo[...]

Selection of tracking model parameters in embedded video system


  Matlab/Simulink environment is equipped with complex Video and Image Processing Blockset [1]. A model of video processing designed in Simulink can be verifi ed practically in realtime using a PC computer. We can also run Simulink video model using a DSP platform (e.g., DM6437 [2]). This possibility offers Target Support Package TC6 [3], which includes specialized blocks for C6000 processors from Texas Instruments e.g.: - DM6437 EVM Board Support - video capture and display, on screen display (OSD), LED and DIP maintenance, - C64x DSP Library - data conversion, fi ltering, mathematical operations, transforms, - C6000 DSP Communication Library - UDP and TCP/IP communications - C6000 DSP Core Support - memory and task management. We have used the Target Support Package TC6 with[...]

System CCTV do automatycznego śledzenia obiektów w czasie rzeczywistym


  Detekcja ruchu oraz śledzenie poruszających się obiektów w obrazie wideo jest nowym obszarem badań, który ze względu na narastające problemy w lokalnym oraz globalnym bezpieczeństwie, stał się bardzo ważny. Współczesne systemy monitoringu CCTV (ang. Closed-Circuit Television) są już często wspierane przez procedury automatyzacji oraz komputery. Coraz więcej systemów korzystających z przetwarzania wideo działa autonomicznie, np. wideo-radary (średnia prędkość pojazdów jest wyznaczana na podstawie danych z dwóch kamer nagrywających ruch pojazdów w dwóch odległych punktach) lub urządzenia analizy wideo w procesach produkcyjnych. Z drugiej jednak strony, w telewizji przemysłowej oraz systemach monitoringu, ciągle zauważalny jest brak automatyzacji. Strażnicy w celu zauważenia pot[...]

 Strona 1  Następna strona »