Wyniki 1-9 spośród 9 dla zapytania: authorDesc:"Bożena Kostek"

Wspomaganie procesu wyszukiwania nagrań w repozytoriach muzycznych


  Ilość nagromadzonej w dzisiejszych zasobach sieciowych informacji wideofonicznej jest mierzona w petabajtach. Aby poprawić warunki dostępu do ogromnych zasobów tego typu informacji, jest niezbędne tworzenie w trybie automatycznym metaopisu zawartości plików multimedialnych. Należy podkreślić, że w zakresie badań naukowych dotyczących dziedziny wyszukiwania informacji muzycznej (Music Information Retrieval - MIR) w ostatnich latach dokonano ogromnego postępu [24]. Wyniki badań światowych zaowocowały technicznymi realizacjami systemów i aplikacji o skuteczności umożliwiającej praktyczne zastosowania. Obecnie prowadzi się dalsze badania, których celem jest m.in. poprawa efektywności rozpoznawania muzyki (np. w sensie wydajnościowym). Jest to zagadnienie niezwykle ważne - zwłaszcza w kontekście muzycznych serwisów internetowych, gromadzących miliony użytkowników. Dziedzina MIR na wczesnym etapie rozwoju obejmowała badania, które w zastosowaniach zapewniały automatyczne wyszukanie informacji muzycznej przez zanucenie, zaśpiewanie czy zagwizdanie (QBH - Query-By-Humming /Singing/Whistling). Bardziej zaawansowane zastosowania umożliwiły wyszukiwanie przez przykład (Query-byexample), obecnie zaś najważniejsze badania (i aplikacje) dotyczą kategorii wyszukiwania przez analizę zawartości (content-based), zaś w szczególności wyszukiwanie stylu muzycznego, gatunku, muzyki według nastroju/emocji przypisanych do utworu (Queryby- category: musical style, genre, mood/emotion) [1][19]. W celu umożliwienia użytkownikowi przeszukiwania bazy utworów oraz tworzenia efektywnych systemów rekomendacji muzyki, do utworów są dodawane tzw. metadane. Nazywa się je etykietami, tagami (tags), według specyfikacji ID3v1 (lub wyższej wersji). Zawarte są one w plikach i dotyczą różnych aspektów utworów muzycznych (jak np. tytuł utworu, kompozytor, czas trwania itd.), ale są to również etykiety odnoszące się do tempa utworu muzycznego, instrumentów muzycznych[...]

Brain-computer interaction analysis based on EEG signal and gaze-tracking information


  Recently many studies are carried out in the area of brain-computer interface (BCI) technology. The electroencephalographic signal (EEG) analysis is one of the most common ways of communication between human brain and the computer due to its non-invasive nature and relative user’s comfort. Still using only EEG data does not provide objective reference information about actions performed by the subject examined. Creating a fully functional and effective BCI to control the computer still remains a distant target. The main disadvantage of the most BCI systems is the lack of the feedback information that could be used as a reference. It is impossible to determine, which of the processes currently dominates brain activity. Even if the subject is asked to perform a task, there is no certainty the user paid attention during its realization. On the other hand, the eye-tracking system provides information about the gaze fixation point allowing for evaluating visual activity of the subject. Thus, we assumed that by combining EEG signal measured by a wireless BCI interface with the eye-tracking system registering the subject’s gaze activity we could expect to obtain an integrated brain-computer interface that measures the user’s brain signal in a more effective, and at the same time, a more objective way. At the same time EOG recording system was used to obtain reference data. EOG-based information transfers this knowledge to the EEG signal analysis. In the paper several approaches for signal pre-processing and parameterization were described and then their usability was checked by means of machine-learning algorithms. The main goal expected to be achieved within this study was to evaluate the possibility to develop a functional and user-friendly solution that utilizes abilities of presented systems. System Setup Gaze-Tracking System The Cyber-Eye, a gaze tracking system developed in the Multimedia Systems Department[...]

Music genre classification applied to bass enhancement for mobile technology DOI:10.15199/13.2015.4.2


  Nowadays designs of mobile devices are intended to automate actions towards the optimum usage of their potential, especially in terms of the presentation of multimedia content. This is because the users of electronic devices increasingly expect automatic, intelligent solutions that help them in configuring the software. Automation is dedicated especially for the process of calibration and alignment equipment according to the user’s needs. This leads to better exploitation of the device by the users who do not have adequate technical knowledge for self-configuration. The area where it is possible to benefit most is the automatic sound quality improvement, especially in controlling the audio enhancement. Automation process may be worked out as an application for adjusting the way of the mobile device is played back. For that purpose software to improve sound quality depending on the content of the audio can be designed. Technological development in the area of mobile devices results in continuous miniaturization along with simultaneous improvement of available functionalities. This fact is translated into the increasing popularization of mobile devices that leads to their potential recognition by less experienced users in controlling electronic devices. In addition, due to the popularization of mobile devices, they are becoming an universal home center. In consequence, users increasingly use mobile devices to listen to music or video playback. At the same time these devices are expected not only to properly function, but also to be easy to use and have high quality playback of the multimedia content. In multimedia applications, one of the key aspect is listening experience of the user. However, in most mobile devices quality of the built speakers and resulting sound are very low. The main casue of such a situation is that small and poor quality speakers do not transfer low frequencies and significantly distort the reprod[...]

DOPASOWANIE CHARAKTERYSTYKI DYNAMIKI DŹWIĘKU DO PREFERENCJI SŁUCHOWYCH UŻYTKOWNIKA URZĄDZEŃ MOBILNYCH DOI:10.15199/59.2015.8-9.97


  W celu określenia preferowanej charakterystyki dynamiki generowanych dźwięków należy uzyskać informację, w jaki sposób użytkownik postrzega głośność dźwięków o różnym poziomie dźwięku. Poruszany problem należy rozpatrywać oddzielnie dla dwóch grup użytkowników - osób słyszących prawidłowo oraz osób z ubytkiem słuchu. W pierwszym przypadku należy zadbać o to, aby wyznaczona charakterystyka dynamiki właściwie przetwarzała dźwięki o poziomach ocenianych odpowiednio jako za ciche, komfortowe i za głośne. W przypadku drugiej grupy użytkowników należy wyznaczyć charakterystykę dynamiki, która pozwoli dopasować szeroką dynamikę odtwarzanych dźwięków do zawężonej dynamiki uszkodzonego słuchu. W obu przypadkach do oceny wrażenia głośności można wykorzystać odpowiednio dopasowany test skalowania głośności. W niniejszym referacie zaprezentowano metody określenia charakterystyki dynamiki dźwięku dla obu wymienionych grup użytkowników z wykorzystaniem zaproponowanej metody szybkiej oceny wrażenia głośności. 1. WSTĘP Urządzenia mobilne takie jak notebooki, ultrabooki, tablety czy smartfony wykorzystywane są obecnie zarówno do pracy, jak również do użytku osobistego, np. do słuchania muzyki. Niezależnie od sposobu użycia tych urządzeń, ważnym aspektem jest jakość dźwięku. Niestety ograniczenia konstrukcji tego typu urządzeń wpływają negatywnie na jakość generowanego przez te urządzenia dźwięku, dotyczy to głównie wielkości głośników, ich jakości, pasma przenoszenia, itd. Dlatego oczekiwania użytkowników w kwestii poprawy jakości dźwięku odtwarzanego przez urządzenia mobilne ciągle rosną. Jednym z aspektów szeroko rozumianej poprawy jakości dźwięku w urządzeniach mobilnych jest dopasowanie dynamiki generowanego dźwięku do preferencji słuchowych użytkownika. Paradoksalnie można zauważyć tendencję słuchania dźwięków o mniejszej dynamice, ale dających wrażenie dźwięków głośniejszych, znacznie silniejszych. W kontekście przetwarzania dyna[...]

Intelligent equalizer solution employing music genre and the room characteristics analysis DOI:10.15199/13.2017.4.3


  The paper presents an intelligent equalizer solution based on room acoustic conditions and music genre analysis. A series of acoustic characteristic measurements are performed for checking the concept proposed. White noise (reference signal) and audio excerpts belonging to six music genres are utilized as excitation signals in measurements. This results in registration of frequency responses of rooms and reverberation times. Signals recorded in the listener’s receiver position are used to obtain room equalization characteristics. Pilot subjective tests are performed to obtain information on listeners’ preference on spectral characteristics of reproduced music depending on music genre. Keywords: Room acoustic equalization, LUFS (Loudness Unit, referenced to Full Scale), music genre.In recent years rapid development of mobile technologies is observed. They are growing in functionality and computing power. This results in wider availability of mobile services and improvement of performance in commonly used handheld devices. Moreover the users, attracted to high-definition standards, would like to obtain high quality of the multimedia content, which cannot always be achieved even if computational capabilities of mobile devices enable this. The ability to provide high-quality reception of the content playback on mobile devices is a difficult task because changing acoustical conditions is very demanding for the algorithm which task is to follow these changes. There are known ways to reduce the effect of noise on the quality of the content playback. However, they are limited mostly to the removal of additional tones from the signal that occurred in the signal. Active Noise Cancelation (ANC) is an example of methods that work this way, i.e. noise that appears in an environment is detected and subtracted from the final signal which positively affects audio heard by the listener. The ANC method is perfectly suited for place[...]

Gesture-based computer control system

Czytaj za darmo! »

In the close future, one may easily imagine that a monitor screen presenting information in a public space, requiring interaction to be handled properly, while no buttons or computer mouse are available will be a typical way of humanmachine interaction. As an example of such devices touch screen viewers in photo laboratories can be given, where customers can choose photos to be printed or touch screen information points. An advantage of using such a way of human- machine interaction in such places over using computer mouse is undeniable but frequent screen cleaning remains indispensable. In the paper a system overcoming this drawback, owing to its touchless operating mode, is presented. This article is an extended version of the work originally presented at the SPA conference [...]

Virtual keyboard controlled by eye gaze employing speech synthesis


  In this paper the method of communication based on eye gaze controlling is presented. The investigations of using gaze tracking have been carried out in various context applications [2, 5, 10]. Nevertheless, the solution proposed in the paper could be called "talking by eyes" and it is an innovative approach in this domain. The application proposed is dedicated to paralyzed people, especially to persons in a so-called ‘locked- in syndrome’ who cannot talk and move any part of their body. The Virtual Keyboard supported by speech synthesizer is a tool which allows for communicating with other people. Working with this application is relatively time-consuming. Nevertheless, considering the target group, this aspect is practically meaningless. There should be books mentioned written by eyes, e.g. “Only the eyes say yes" of Philippe and Stéphane Vigand or “On any given day" of Joe Martin and Ross Yockey. A standard application for entering text by eyes is described in this paper as well as its developed form with a speech synthesizer. Virtual keyboard controlled by Cyber-Eye Cyber-Eye system The Cyber-Eye system is an eye gaze tracking system developed at the Multimedia Systems Department, Gdansk University of Technology (GUT). The mentioned system performs most common functions that are characteristic for class of gaze tracking devices. The main purpose of the system is to detect the fixation point and utilize it in a variety of application ranging from graphical visualization to communication with the disabled. The hardware layer of the Cyber-Eye system consists of a camera that works in infrared band and a set of infrared light sources (IR LEDs). These sources are created using the specific IR LEDs. Four of the light sources are placed on the screen device corners, one source is mounted around the camera lens on its optical axis. The software layer of the system performs most of the required tasks. T[...]

KORPUS MOWY ANGIELSKIEJ DO CELÓW MULTIMODALNEGO AUTOMATYCZNEGO ROZPOZNAWANIA MOWY DOI:10.15199/59.2016.8-9.74


  W referacie zaprezentowano audiowizualny korpus mowy zawierający 31 godzin nagrań mowy w języku angielskim. Korpus dedykowany jest do celów automatycznego audiowizualnego rozpoznawania mowy. Korpus zawiera nagrania wideo pochodzące z szybkoklatkowej kamery stereowizyjnej oraz dźwięk zarejestrowany przez matrycę mikrofonową i mikrofon komputera przenośnego. Dzięki uwzględnieniu nagrań zarejestrowanych w warunkach szumowych korpus może być wykorzystany do badania wpływu zakłóceń na skuteczność rozpoznawania mowy. Abstract: An audiovisual corpus containing 31 hours of English speech recordings is presented. The new corpus was created in order to assist the development of audiovisual speech recognition systems (AVSR). The corpus includes high-framerate stereoscopic video streams and audio recorded by both microphone array and a microphone built in a mobile computer. Owing to the inclusion of recordings made in noisy conditions, the corpus can be used to assess the robustness of speech recognition systems in the presence of acoustic noise. Słowa kluczowe: rozpoznawanie mowy, korpus MODALITY, AVSR Keywords: speech recognition, MODALITY corpus, AVSR 1. WSTĘP Dzięki postępom w dziedzinie mikroelektroniki, nawet niewielkie urządzenia elektroniki użytkowej, takie jak smartfony czy tablety, mogą być wyposażone w funkcje rozpoznawania mowy. Wynik rozpoznawania może podlegać transmisji, np. w postaci wiadomości tekstowej. Jednak podczas wykorzystywania tych funkcji w warunkach rzeczywistych, do sygnału mowy mogą zostać wprowadzone zewnętrzne zakłócenia, wpływając negatywnie na skuteczność jej rozpoznawania. Oprócz współwystępujących źródeł dźwięku (szum otoczenia, inni mówcy), skuteczność rozpoznawania może ulec pogorszeniu w wyniku występowania zjawiska pogłosu w rejestrowanej mowie. Analogicznie do sposobu postrzegania mowy przez człowieka, charakteryzującego się multimodalnością [6], dodatkowe dane pochodzące z modalności wizy[...]

 Strona 1