Metody wyszukiwania informacji w bazach multimedialnych
Niniejszy artykuł stanowi przegląd zagadnień związanych z szybko rozwijającą się dziedziną Music Information Retrieval [15]. Przegląd ten został oparty na badaniach, które były przedmiotem realizowane[...]
Wspomaganie procesu wyszukiwania nagrań w repozytoriach muzycznych
Ilość nagromadzonej w dzisiejszych zasobach sieciowych
informacji wideofonicznej jest mierzona w petabajtach. Aby poprawić
warunki dostępu do ogromnych zasobów tego typu informacji,
jest niezbędne tworzenie w trybie automatycznym metaopisu
zawartości plików multimedialnych.
Należy podkreślić, że w zakresie badań naukowych dotyczących
dziedziny wyszukiwania informacji muzycznej (Music Information
Retrieval - MIR) w ostatnich latach dokonano ogromnego
postępu [24]. Wyniki badań światowych zaowocowały technicznymi
realizacjami systemów i aplikacji o skuteczności umożliwiającej
praktyczne zastosowania. Obecnie prowadzi się dalsze badania,
których celem jest m.in. poprawa efektywności rozpoznawania
muzyki (np. w sensie wydajnościowym). Jest to zagadnienie niezwykle
ważne - zwłaszcza w kontekście muzycznych serwisów
internetowych, gromadzących miliony użytkowników. Dziedzina
MIR na wczesnym etapie rozwoju obejmowała badania, które
w zastosowaniach zapewniały automatyczne wyszukanie informacji
muzycznej przez zanucenie, zaśpiewanie czy zagwizdanie (QBH
- Query-By-Humming /Singing/Whistling). Bardziej zaawansowane
zastosowania umożliwiły wyszukiwanie przez przykład (Query-byexample),
obecnie zaś najważniejsze badania (i aplikacje) dotyczą
kategorii wyszukiwania przez analizę zawartości (content-based),
zaś w szczególności wyszukiwanie stylu muzycznego, gatunku,
muzyki według nastroju/emocji przypisanych do utworu (Queryby-
category: musical style, genre, mood/emotion) [1][19].
W celu umożliwienia użytkownikowi przeszukiwania bazy utworów
oraz tworzenia efektywnych systemów rekomendacji muzyki,
do utworów są dodawane tzw. metadane. Nazywa się je etykietami,
tagami (tags), według specyfikacji ID3v1 (lub wyższej wersji).
Zawarte są one w plikach i dotyczą różnych aspektów utworów
muzycznych (jak np. tytuł utworu, kompozytor, czas trwania itd.),
ale są to również etykiety odnoszące się do tempa utworu muzycznego,
instrumentów muzycznych[...]
Brain-computer interaction analysis based on EEG signal and gaze-tracking information
Recently many studies are carried out in the area of brain-computer
interface (BCI) technology. The electroencephalographic
signal (EEG) analysis is one of the most common ways of communication
between human brain and the computer due to its
non-invasive nature and relative user’s comfort. Still using only
EEG data does not provide objective reference information about
actions performed by the subject examined. Creating a fully
functional and effective BCI to control the computer still remains
a distant target.
The main disadvantage of the most BCI systems is the lack of
the feedback information that could be used as a reference. It is
impossible to determine, which of the processes currently dominates
brain activity. Even if the subject is asked to perform a task,
there is no certainty the user paid attention during its realization.
On the other hand, the eye-tracking system provides information
about the gaze fixation point allowing for evaluating visual activity
of the subject. Thus, we assumed that by combining EEG signal
measured by a wireless BCI interface with the eye-tracking
system registering the subject’s gaze activity we could expect
to obtain an integrated brain-computer interface that measures
the user’s brain signal in a more effective, and at the same time,
a more objective way. At the same time EOG recording system
was used to obtain reference data. EOG-based information transfers
this knowledge to the EEG signal analysis. In the paper several
approaches for signal pre-processing and parameterization
were described and then their usability was checked by means of
machine-learning algorithms.
The main goal expected to be achieved within this study was
to evaluate the possibility to develop a functional and user-friendly
solution that utilizes abilities of presented systems.
System Setup
Gaze-Tracking System
The Cyber-Eye, a gaze tracking system developed in the Multimedia
Systems Department[...]
Music genre classification applied to bass enhancement for mobile technology DOI:10.15199/13.2015.4.2
Nowadays designs of mobile devices are intended to automate
actions towards the optimum usage of their potential, especially
in terms of the presentation of multimedia content. This
is because the users of electronic devices increasingly expect
automatic, intelligent solutions that help them in configuring
the software. Automation is dedicated especially for the process
of calibration and alignment equipment according to the
user’s needs. This leads to better exploitation of the device
by the users who do not have adequate technical knowledge
for self-configuration. The area where it is possible to benefit
most is the automatic sound quality improvement, especially
in controlling the audio enhancement. Automation process
may be worked out as an application for adjusting the way of
the mobile device is played back. For that purpose software to
improve sound quality depending on the content of the audio
can be designed.
Technological development in the area of mobile devices
results in continuous miniaturization along with simultaneous
improvement of available functionalities. This fact is translated
into the increasing popularization of mobile devices that
leads to their potential recognition by less experienced users
in controlling electronic devices. In addition, due to the popularization
of mobile devices, they are becoming an universal
home center. In consequence, users increasingly use mobile
devices to listen to music or video playback. At the same
time these devices are expected not only to properly function,
but also to be easy to use and have high quality playback of
the multimedia content. In multimedia applications, one of the
key aspect is listening experience of the user. However, in
most mobile devices quality of the built speakers and resulting
sound are very low. The main casue of such a situation
is that small and poor quality speakers do not transfer low
frequencies and significantly distort the reprod[...]
DOPASOWANIE CHARAKTERYSTYKI DYNAMIKI DŹWIĘKU DO PREFERENCJI SŁUCHOWYCH UŻYTKOWNIKA URZĄDZEŃ MOBILNYCH DOI:10.15199/59.2015.8-9.97
W celu określenia preferowanej charakterystyki
dynamiki generowanych dźwięków należy uzyskać
informację, w jaki sposób użytkownik postrzega głośność
dźwięków o różnym poziomie dźwięku. Poruszany problem
należy rozpatrywać oddzielnie dla dwóch grup użytkowników
- osób słyszących prawidłowo oraz osób z ubytkiem
słuchu. W pierwszym przypadku należy zadbać o to, aby
wyznaczona charakterystyka dynamiki właściwie przetwarzała
dźwięki o poziomach ocenianych odpowiednio jako za
ciche, komfortowe i za głośne. W przypadku drugiej grupy
użytkowników należy wyznaczyć charakterystykę dynamiki,
która pozwoli dopasować szeroką dynamikę odtwarzanych
dźwięków do zawężonej dynamiki uszkodzonego
słuchu. W obu przypadkach do oceny wrażenia głośności
można wykorzystać odpowiednio dopasowany test skalowania
głośności. W niniejszym referacie zaprezentowano
metody określenia charakterystyki dynamiki dźwięku dla
obu wymienionych grup użytkowników z wykorzystaniem
zaproponowanej metody szybkiej oceny wrażenia głośności.
1. WSTĘP
Urządzenia mobilne takie jak notebooki, ultrabooki,
tablety czy smartfony wykorzystywane są obecnie
zarówno do pracy, jak również do użytku osobistego, np.
do słuchania muzyki. Niezależnie od sposobu użycia
tych urządzeń, ważnym aspektem jest jakość dźwięku.
Niestety ograniczenia konstrukcji tego typu urządzeń
wpływają negatywnie na jakość generowanego przez te
urządzenia dźwięku, dotyczy to głównie wielkości głośników,
ich jakości, pasma przenoszenia, itd. Dlatego
oczekiwania użytkowników w kwestii poprawy jakości
dźwięku odtwarzanego przez urządzenia mobilne ciągle
rosną.
Jednym z aspektów szeroko rozumianej poprawy
jakości dźwięku w urządzeniach mobilnych jest dopasowanie
dynamiki generowanego dźwięku do preferencji
słuchowych użytkownika. Paradoksalnie można zauważyć
tendencję słuchania dźwięków o mniejszej dynamice,
ale dających wrażenie dźwięków głośniejszych,
znacznie silniejszych. W kontekście przetwarzania dyna[...]
Intelligent equalizer solution employing music genre and the room characteristics analysis DOI:10.15199/13.2017.4.3
The paper presents an intelligent equalizer solution based on
room acoustic conditions and music genre analysis. A series of
acoustic characteristic measurements are performed for checking
the concept proposed. White noise (reference signal) and audio
excerpts belonging to six music genres are utilized as excitation
signals in measurements. This results in registration of frequency
responses of rooms and reverberation times. Signals recorded in
the listener’s receiver position are used to obtain room equalization
characteristics. Pilot subjective tests are performed to obtain
information on listeners’ preference on spectral characteristics of
reproduced music depending on music genre.
Keywords: Room acoustic equalization, LUFS (Loudness Unit,
referenced to Full Scale), music genre.In recent years rapid development of mobile technologies
is observed. They are growing in functionality and computing
power. This results in wider availability of mobile services
and improvement of performance in commonly used handheld
devices. Moreover the users, attracted to high-definition
standards, would like to obtain high quality of the multimedia
content, which cannot always be achieved even if computational
capabilities of mobile devices enable this. The ability
to provide high-quality reception of the content playback on
mobile devices is a difficult task because changing acoustical
conditions is very demanding for the algorithm which task is to
follow these changes.
There are known ways to reduce the effect of noise on
the quality of the content playback. However, they are limited
mostly to the removal of additional tones from the signal
that occurred in the signal. Active Noise Cancelation (ANC) is
an example of methods that work this way, i.e. noise that appears
in an environment is detected and subtracted from the
final signal which positively affects audio heard by the listener.
The ANC method is perfectly suited for place[...]
Gesture-based computer control system
In the close future, one may easily imagine that a monitor screen presenting information in a public space, requiring interaction to be handled properly, while no buttons or computer mouse are available will be a typical way of humanmachine interaction. As an example of such devices touch screen viewers in photo laboratories can be given, where customers can choose photos to be printed or touch screen information points. An advantage of using such a way of human- machine interaction in such places over using computer mouse is undeniable but frequent screen cleaning remains indispensable. In the paper a system overcoming this drawback, owing to its touchless operating mode, is presented. This article is an extended version of the work originally presented at the SPA conference [...]
Virtual keyboard controlled by eye gaze employing speech synthesis
In this paper the method of communication based on eye gaze
controlling is presented. The investigations of using gaze tracking
have been carried out in various context applications
[2, 5, 10]. Nevertheless, the solution proposed in the paper
could be called "talking by eyes" and it is an innovative approach
in this domain. The application proposed is dedicated
to paralyzed people, especially to persons in a so-called ‘locked-
in syndrome’ who cannot talk and move any part of their
body. The Virtual Keyboard supported by speech synthesizer
is a tool which allows for communicating with other people.
Working with this application is relatively time-consuming.
Nevertheless, considering the target group, this aspect is
practically meaningless. There should be books mentioned
written by eyes, e.g. “Only the eyes say yes" of Philippe and
Stéphane Vigand or “On any given day" of Joe Martin and
Ross Yockey. A standard application for entering text by eyes
is described in this paper as well as its developed form with
a speech synthesizer.
Virtual keyboard controlled by Cyber-Eye
Cyber-Eye system
The Cyber-Eye system is an eye gaze tracking system developed
at the Multimedia Systems Department, Gdansk University
of Technology (GUT). The mentioned system performs
most common functions that are characteristic for class of
gaze tracking devices. The main purpose of the system is to
detect the fixation point and utilize it in a variety of application
ranging from graphical visualization to communication with
the disabled.
The hardware layer of the Cyber-Eye system consists of
a camera that works in infrared band and a set of infrared
light sources (IR LEDs). These sources are created using the
specific IR LEDs. Four of the light sources are placed on the
screen device corners, one source is mounted around the camera
lens on its optical axis.
The software layer of the system performs most of the required
tasks. T[...]
KORPUS MOWY ANGIELSKIEJ DO CELÓW MULTIMODALNEGO AUTOMATYCZNEGO ROZPOZNAWANIA MOWY DOI:10.15199/59.2016.8-9.74
W referacie zaprezentowano audiowizualny
korpus mowy zawierający 31 godzin nagrań mowy w języku
angielskim. Korpus dedykowany jest do celów automatycznego
audiowizualnego rozpoznawania mowy. Korpus
zawiera nagrania wideo pochodzące z szybkoklatkowej
kamery stereowizyjnej oraz dźwięk zarejestrowany przez
matrycę mikrofonową i mikrofon komputera przenośnego.
Dzięki uwzględnieniu nagrań zarejestrowanych w warunkach
szumowych korpus może być wykorzystany do badania
wpływu zakłóceń na skuteczność rozpoznawania mowy.
Abstract: An audiovisual corpus containing 31 hours of
English speech recordings is presented. The new corpus
was created in order to assist the development of audiovisual
speech recognition systems (AVSR). The corpus
includes high-framerate stereoscopic video streams and
audio recorded by both microphone array and a microphone
built in a mobile computer. Owing to the inclusion of
recordings made in noisy conditions, the corpus can be used
to assess the robustness of speech recognition systems in the
presence of acoustic noise.
Słowa kluczowe: rozpoznawanie mowy, korpus
MODALITY, AVSR
Keywords: speech recognition, MODALITY corpus,
AVSR
1. WSTĘP
Dzięki postępom w dziedzinie mikroelektroniki,
nawet niewielkie urządzenia elektroniki użytkowej, takie
jak smartfony czy tablety, mogą być wyposażone w
funkcje rozpoznawania mowy. Wynik rozpoznawania
może podlegać transmisji, np. w postaci wiadomości
tekstowej. Jednak podczas wykorzystywania tych funkcji
w warunkach rzeczywistych, do sygnału mowy mogą
zostać wprowadzone zewnętrzne zakłócenia, wpływając
negatywnie na skuteczność jej rozpoznawania. Oprócz
współwystępujących źródeł dźwięku (szum otoczenia,
inni mówcy), skuteczność rozpoznawania może ulec
pogorszeniu w wyniku występowania zjawiska pogłosu
w rejestrowanej mowie. Analogicznie do sposobu postrzegania
mowy przez człowieka, charakteryzującego
się multimodalnością [6], dodatkowe dane pochodzące z
modalności wizy[...]