Wyniki 1-6 spośród 6 dla zapytania: authorDesc:"Cezary Jankowski "

Metoda klasyfikacji danych na podstawie modelu sekwencyjnej dyskretyzacji DOI:10.15199/59.2017.4.2


  Klasyczny schemat eksploracji danych z nadzorem zawiera etap klasyfikacji, poprzedzony wstępnym przetwarzaniem danych. Dyskretyzacja danych numerycznych stanowi ważny element przetwarzania wstępnego. Klasyczne podejście nie zapewnia wykorzystania wiedzy zdobytej podczas dyskretyzacji danych w etapie klasyfikacji. Prowadzi to do zwiększenia zasobów potrzebnych do obliczeń. W artykule przedstawiono nowatorską metodę klasyfikacji danych na podstawie modelu sekwencyjnej dyskretyzacji. Opisano założenia i kroki algorytmu, przedstawiono przykłady, ilustrujące działanie metody w zależności od wybranych parametrów, a także wyniki przeprowadzonych eksperymentów. Słowa kluczowe: klasyfikacja, dyskretyzacja, eksploracja danych, odkrywanie wiedzy z baz danych.Odkrywanie wiedzy z danych (Knowledge Discovery in Databases - KDD [7]) stanowi obecnie niezwykle istotną gałąź nauki i techniki. Jej rozwój jest związany z szybkim rozwojem sieci komputerowych, a zatem znacznie zwiększa się ilość zbieranych danych. Wydobywanie z nich tego, co najistotniejsze - informacji - wymaga coraz bardziej wyrafinowanych technik. Podstawowym problemem jest fakt, iż zdecydowana większość algorytmów, stosowanych w analizie danych, jest kosztowna pod względem obliczeniowym. Co więcej, odkrywanie wiedzy składa się z wielu kroków. Należy wspomnieć między innymi o selekcji, przetwarzaniu wstępnym [6, 14, 19] oraz o eksploracji danych (data mining). Każdy z tych kroków stanowi zbiór mniejszych czynności. Dla przykładu - przetwarzanie wstępne zapewnia między innymi kompletność danych (przez uzupełnianie braków - missing data imputation) lub to, że wartości atrybutów pochodzą ze skończonych zbiorów (jest to uzyskiwane przez dyskretyzację). Interesującą obserwacją jest to, iż poszczególne kroki są dla siebie nawzajem traktowane jako "czarne skrzynki". Oznacza to, że żaden z nich nie ma wglądu w szczegóły implementacyjne innego oraz w żaden sposób nie korzysta z pośredn[...]

Metryki oceny jakości klasyfikacji DOI:10.15199/59.2018.4.3


  Od powstania pierwszej strony WWW [18] w grudniu 1990 roku nie upłynęło jeszcze nawet 30 lat, a Internet od tamtego czasu zmienił się diametralnie. Przestał być domeną wybranych naukowców i wojskowych. Stał się powszechny i wszechobecny. Obecnie można obserwować rozwój dostępu mobilnego, związanego z rosnącą wciąż popularnością smartfonów. Ich sprzętowe możliwości obliczeniowe są porównywalne z komputerami sprzed kilku lat. Wiele rodzjów aktywności przenosi się do Internetu. Ogłoszenia drobne opuszczają zajmowane przez lata łamy gazet. Serwisy społecznościowe mają coraz większe znaczenie w relacjach międzyludzkich. Sklepy internetowe oferują atrakcyjne ceny, oszczędzając na braku stacjonarnych punktów sprzedaży. Również reklamodawcy przechodzą z tradycyjnych mediów do sieci. Zachęca ich między innymi wizja profilowania użytkowników, a zatem przedstawiania im spersonalizowanych treści. Rezultatem tych zmian jest ciągle rosnąca ilość danych, gromadzonych przez organizacje oraz firmy. Gromadzenie tych danych nie jest jednak celem samym w sobie. Znaczenie ma dopiero informacja. Istotna jest możliwość uogólnienia, znalezienia pewnych wzorców oraz reguł. Istnieje potrzeba odkrywania wiedzy z baz danych (Knowledge Discovery in Databases) [16]. Pewne zagadnienia implikują istnienie wyróżnionego atrybutu - decyzji. Przykładem może być zagadnienie budowy filtru antyspamowego. Klasą decyzyjną będzie w tym przypadku etykieta spam lub poprawna wiadomość. Inne zagadnienie może dotyczyć prognozowania odsetka rozwiązanych umów z operatorem telekomunikacyjnym [7, 14]. Problemy, mające wyróżnioną zmienną, są określane mianem nauczania nadzorowanego (supervised learning). W zależności od zbioru wartości atrybutu decyzyjnego można wyróżnić klasyfikację - dyskretny, skończony zbiór wartości (jak w przypadku wspomnianego filtru antyspamowego) oraz regresję - ciągły zbiór wartości (jak w przypadku prognozy odsetka rozwiązanych umów). Istnieje tak[...]

Zastosowanie eksploracji danych w telekomunikacji


  Przez wiele lat analiza danych, także w telekomunikacji, była oparta przede wszystkim na ludzkim doświadczeniu i wyciąganiu wniosków z obserwowanych zjawisk. Wiedza, zdobywana ogromnym nakładem pracy, często okazywała się niewystarczająca. Za taki stan rzeczy obwiniano brak dostatecznej ilości danych potrzebnych do dalszej analizy. Wydawało się, że zwiększenie tej ilości umożliwi automatycznie powiększanie wiedzy. Rzeczywistość okazuje się jednak bardziej skomplikowana. Obecny rozwój sieci komputerowych oraz teleinformatyki umożliwił gromadzenie olbrzymiej ilości danych. Potrzebne są jednak metody uzyskiwania stąd wiedzy - pewnych reguł, implikacji. Dopiero wiedza umożliwia zrozumienie i wyjaśnienie zachodzących zjawisk, a także - co jest bardzo istotne - przewidywanie zmian. W tym celu stosuje się techniki odkrywania wiedzy z baz danych (Knowledge Discovery in Databases), w tym eksplorację danych (data mining). Eksploracja danych umożliwia właściwą ich analizę oraz - za pomocą właściwych metod - rozwiązywanie problemów klasyfikacji, regresji czy grupowania. Klasyfikacja jest stosowana wtedy, gdy obiekty w bazie można scharakteryzować pewnym wyróżnionym atrybutem o skończonym zbiorze wartości - klasą. Przykład stanowi medyczna baza danych, zawierająca, oprócz innych atrybutów, informację o tym, czy pacjent jest zdrowy czy chory. W regresji także istnieje pewna wyróżniona cecha - atrybut docelowy - lecz jego zbiór wartości jest ciągły. Grupowanie polega na szukaniu podobieństw wśród przykładów, które nie mają żadnego wyróżnionego atrybutu. Można także wyodrębnić techniki wykrywania anomalii. Polegają one na porównywaniu nowych przykładów do istniejących "typowych" wzorców. W pewnych przypadkach jest wykorzystywana infrmacja o klasie, lecz nie musi być tak zawsze. Metody stosowane w przypadku danych, mających wyróżniony atrybut, są określane wspólnym mianem metod nadzorowanych (supervised). Jeśli wszystkie atrybuty są równie [...]

Dyskretyzacja danych numerycznych metodami przekształceń boolowskich


  Dyskretyzacja danych numerycznych stanowi część przetwarzania wstępnego (rys. 1 [19, 31]), niezbędnego w typowych procesach odkrywania wiedzy i eksploracji danych, których znaczenie we współczesnej telekomunikacji trudno przecenić. Przekształcenie ciągłych wartości atrybutów na ich dyskretne odpowiedniki umożliwia dalszą analizę za pomocą algorytmów eksploracji danych, takich jak redukcja atrybutów lub indukcja reguł, które z natury rzeczy wymagają danych symbolicznych. Nawet w przypadku braku takiego wymagania dyskretyzacja umożliwia przyspieszenie procesu eksploracji danych oraz zwiększenie dokładności (accuracy) przewidywań (klasyfikacji) [12].Typowym przykładem zastosowań odkrywania wiedzy z baz danych z dyskretnymi wartościami atrybutów jest wykrywanie anomalii w sieciach telekomunikacyjnych. Są to systemy pracujące według typowego schematu maszynowego uczenia, gdyż kombinacja reguł oraz algorytmów klasyfikacji służy do wykrywania anomalii na podstawie analizy danych treningowych. System w fazie nauki tworzy bazę wiedzy, zawierającą wzorce analizowanych anomalii. Następnie, z wykorzystaniem algorytmu podejmowania decyzji i klasyfikacji, można utworzyć zbiór reguł decyzyjnych klasyfikujących bieżące dane. Baza danych Spambase Data Set [2] (źródło: Mark Hopkins, Erik Reeber, George Forman, Jaap Suermondt, Hewlett-Packard Labs, Palo Alto, California, USA), jest zbiorem danych, dla którego celem jest uzyskanie reguł klasyfikujących wiadomości według następujących sytuacji: y_spam (wiadomość jest spamem), n_spam PRZEGLĄD TELEKOMUNIKACYJNY  ROCZNIK LXXXVII  nr 10/2014 1335 butu a ∈ A, U × A → V jest funkcją informacji, taką że f (a,x) ∈ Va dla każdego a ∈ A i x ∈ U. Zamiast funkcji informacji f można rozpatrywać jednoparametrową rodzinę funkcji fx: A → V, taką że fx (a) = f (a,x) dla każdego a ∈ A i ustalonego x ∈ U, zwaną dalej informacją o elemencie x ∈ U w[...]

Indukcja reguł decyzyjnych z dwustopniowym procesem selekcji reguł


  Postęp w dziedzinie techniki komputerowej, jaki dokonał się w ostatnich latach, umożliwia gromadzenie ogromnej ilości danych. Jednak celem nadrzędnym nie jest gromadzenie samych danych, a otrzymywanie z nich wiedzy - pewnych wzorców, reguł, które umożliwią lepszą systematyzację i wyjaśnienie obserwowanych zjawisk. Odpowiedzią na te potrzeby jest odkrywanie wiedzy z baz danych (Knowledge Discovery in Databases - KDD). Obejmuje ono eksplorację danych jako jeden z elementów składowych związany z użyciem konkretnego algorytmu w celu ekstrakcji wybranej reprezentacji wiedzy z danych. Eksploracja danych umożliwia rozwiązywanie problemów klasyfikacji, czyli odkrywanie zależności między wartościami atrybutów a klasami obiektów, istniejących w zbiorze, w celu określania przewidywanej decyzji dla nowego przypadku. Wspomaganie podejmowania decyzji jest istotnym zadaniem eksploracji danych. Nie ma najmniejszych wątpliwości, że eksploracja danych jest dziedziną interdyscyplinarną, zarówno pod względem zastosowań, jak i wykorzystywanych metod badawczych. Coraz częściej stosuje się ją w naukach przyrodniczych (wyodrębnianie cech określających przynależność gatunkową), w medycynie (systemy wspomagania diagnostyki), ekonomii i bankowości (wstępna analiza możliwości kredytowych). Odkrywanie wiedzy z baz danych jest również stosowane w marketingu, wykrywaniu defraudacji oraz identyfikacji i przewidywaniu błędów w sieciach telekomunikacyjnych, a także przy klasyfikowaniu wiadomości mailowych. Eksploracja danych integruje metody badawcze, takie jak: teoria zbiorów przybliżonych, przekształcenia boolowskie, logika rozmyta czy metody statystyczne. Wykorzystuje również techniki i metody przekształceń boolowskich, powszechnie stosowane w syntezie logicznej układów cyfrowych [14]. Różnorodność i wielość metod eksploracji danych, wywodzących się często z różnych dyscyplin badawczych, utrudnia potencjalnym użytkownikom identyfikację metod, które są n[...]

Rola i znaczenie syntezy logicznej w eksploracji danych dla potrzeb telekomunikacji i medycyny


  Metody syntezy logicznej są wykorzystywane głównie do optymalizacji systemów cyfrowych przetwarzających sygnały binarne. Ich podstawowym zadaniem jest poprawa implementacji oraz możliwości realizacji systemów w różnych technologiach. Można jednak wykazać, że wiele metod syntezy logicznej, a w szczególności tych wykorzystywanych do optymalizacji kombinacyjnych układów logicznych, może być z powodzeniem zastosowanych w typowych zadaniach przetwarzania i wyszukiwania informacji, odkrywania/eksploracji wiedzy, optymalizacji baz danych, a także w dziedzinie systemów ekspertowych, maszynowego uczenia czy sztucznej inteligencji [3, 5]. Przez eksplorację danych, znaną również pod nazwą odkrywania wiedzy w bazach danych, rozumie się proces automatycznego pozyskiwania z baz danych znaczących, ale dotychczas nieznanych informacji. Dlatego te informacje określa się jako "ukryte", a celem jest te informacje wyekstrahować. W wyniku eksploracji danych można na pewnym poziomie abstrakcji: zdiagnozować pacjenta, przeprowadzić sondaż, np. przed wyborami prezydenckimi, klasyfikować dane internetowe czy podjąć decyzję o przyznaniu bądź odrzuceniu kredytu. Jednym z ważniejszych zastosowań algorytmów eksploracji danych w telekomunikacji jest wykrywanie anomalii w systemach i sieciach telekomunikacyjnych. Ponieważ decyzja o wykryciu anomalii jest podejmowana na podstawie kombinacji reguł decyzyjnych wygenerowanych przez algorytm dla danych treningowych, algorytm jest typową procedurą uczenia się maszyn. System tworzy bazę wiedzy, zawierającą wzorce analizowanych anomalii, a następnie - przy użyciu algorytmu podejmowania decyzji i klasyfikacji - klasyfikuje bieżące dane. Charakterystycznym przykładem danych treningowych jest baza dla klasyfikacji poczty elektronicznej [21], która zawiera 58 042 rekordów reprezentowanych przez 64 atrybuty, natomiast celem algorytmu jest uzyskanie reguł decyzyjnych klasyfikujących dane zgodnie z następującymi warunk[...]

 Strona 1