1/24
Looks like no tags are added yet.
Name | Mastery | Learn | Test | Matching | Spaced | Call with Kai |
|---|
No study sessions yet.
OLAP (On-line Analytical Processing)
funkcjonalność polegająca na bieżącym wykonywaniu analiz na podstawie danych zawartych w wielowymiarowych kostkach hurtowni danych
krytyczne narzędzie organizacji pomagające w ustaleniu przeszłych sukcesów i niepowodzeń oraz przewidywaniu na ich podstawie przyszłych osiągnięć i ewentualnych porażek
obiektowo zorientowane interfejsy użytkownika, gdzie użytkownicy manipulują obiektami reprezentującymi zorganizowane grupy danych
Systemy klasy OLAP
są to narzędzia stosowane do analizy informacji gospodarczych
mogą być używane przez analityków, menedżerów lub kierownictwo dla uzyskania podglądu na funkcjonowanie organizacji w każdym okresie w przeszłości
są szybkim spójnym, interaktywnym narzędziem udostępniającym szeroki zakres widoków danych
komponenty systemów OLAP
aparat kalkulacyjny - stosowany do wykonywania operacji takich jak sumy, stosunki, kalkulacje czasowe, statystyka i szeregowanie jak również dostosowane formuły i algorytmy oraz modelowanie i prognozy
narzędzie przeglądu wymiarowego - do przeglądania danych w zdefiniowanych wymiarach
rodzaje OLAP
MOLAP (wielowymiarowy)
ROLAP (relacyjny)
HOLAP (hybrydowy)
MOLAP
wielowymiarowe OLAP, wykorzystujące wielowymiarowe systemy zarządzania bazą danych do przetwarzania analitycznego
działają na zasadzie arkusza kalkulacyjnego
brak skalowalności wymiarów w tym rozwiązaniu
bardzo wysoka wydajność pracy tego rozwiązania
ROLAP
relacyjne OLAP, wspomagane relacyjnym systemem zarządzania bazą danych
rozwiązanie o niskiej wydajności
pomiędzy bazą danych a systemem analitycznym występuje serwer metadanych
język zapytań to SQL
nie występuje problem skalowalności
HOLAP
hybrydowe OLAP, wykorzystuje architekturę MOLAP do umieszczania i przeglądania danych w agregacjach
bardziej szczegółowe dane są przechowywane w relacyjnej bazie danych
wydajność systemu większa od ROLAP ale mniejsza od MOLAP
proces ETL
ekstrakcja z systemów źródłowe → transformacja bazy operacyjnych → ładowanie repozytorium hurtowni
metody integracji danych
integracja schematów
integracja danych wirtualnych
integracja danych zmaterializowanych
integracja schematów
informacjami wejściowymi procesu integracji jest zbiór schematów źródłowych
wynikiem procesu integracji - pojedynczy (docelowy) schemat, reprezentujący jednolitą, strukturalną reprezentację schematów wejściowych.
wynikiem procesu integracji jest również specyfikacja odwzorowania schematów źródłowych we fragmenty schematu docelowego.
model przyrostowy
model jest związany z budowaniem zbioru niezależnych schematów częściowych i formalizowaniem związków między encjami z poszczególnych schematów za pomocą tak zwanych asercji międzyschematowych
integracja wstępna
analiza schematów w celu opracowania ogólnej strategii ujednolicania, obejmującej wybór schematów do integracji oraz wyznaczanie kolejności integracji
dodatkowo mogą być ustalone preferencje poszczególnych schematów lub ich fragmentów. Wpływa to na późniejszą użyteczność i adekwatność danych reprezentowanych przez schemat globalny
porównanie schematów
analiza związków między pojęciami pochodzącymi z różnych schematów oraz wykrywaniu potencjalnych konfliktów
podczas porównywania schematów zwykle wykrywane są własności międzyschematowe
rodzaje konfliktów
konflikty różnorodności - schematy źródłowe wykorzystują różne modele danych
konflikty nazewnictwa - różne schematy używają różnej terminologii odnośnie tych samych danych
konflikty semantyczne - podobne pojęcia ze świata rzeczywistego są modelowane na różnym poziome abstrakcji
konflikty strukturalne - te same pojęcia są reprezentowane za pomocą różnych konstrukcji
dopasowanie schematów
najczęściej odbywa się w sposób półautomatyczny, gdzie konflikty zgłaszane przez system są rozstrzygane przez projektanta
schematy są często modelowane jako abstrakcyjne typy danych, a przekształcenia schematów wyraża w pojęciach interpretacji sygnatury
scalanie i restrukturyzacja schematów
tworzony jest schemat globalny, będący wynikiem nakładania na siebie dopasowanych schematów
ta technika może następować za pomocą binarnego operatora scalania schematów wyrażonych w ogólnym modelu danych
technika zwana integracją strukturalną pozwala na integrację obiektów wykazujących podobieństwo strukturalne
integracja danych wirtualnych
informacje wejściowe obejmują zbiory danych źródłowych
wynikiem jest specyfikacja globalnego i jednolitego dostępu do tych danych, biorąc pod uwagę określone potrzeby użytkowników i autonomię źródeł danych
integracja danych zmaterializowanych
informacje wejściowe obejmują zbiory danych źródłowych
wynikiem jest zbiór danych, stanowiący jednolitą pod względem struktury i zawartości reprezentację źródeł
głównym zagadnieniem jest obsługa perspektyw związana z aktualizacją informacji źródłowych
perspektywy samoobsługowe
umożliwiają bezpośrednią aktualizację na podstawie jedynie dziennika źródeł danych
etapy oczyszczania danych
parsowanie
poprawianie
standaryzowanie
dopasowywanie
konsolidowanie
parsowanie
Lokalizuje i identyfikuje indywidualne elementy danych w plikach źródłowych a następnie oddziela te elementy danych w plikach docelowych
poprawianie
Jest związane z parsowaniem indywidualnych komponentów danych poprzez wykorzystanie złożonych algorytmów i źródeł danych wtórnych
standaryzowanie
Stosuje rutynowe konwersje w celu transformacji danych na preferowany i spójny temat, używając standardowych i indywidualnych reguł biznesowych
dopasowywanie
Wyszukiwanie i dopasowywanie rekordów wewnątrz i pomiędzy parsowanymi, poprawianymi i standaryzowanymi danymi, bazując na predefiniowanych regułach biznesowych w celu eliminacji duplikatów
konsolidacja
Analiza i identyfikowanie powiązań pomiędzy rekordami i scalanie ich w jedną całość