1/44
Flashcardy pokrývající klíčové pojmy z oblasti řízení softwarové kvality, databázového modelování, SQL jazyků, Business Intelligence a dolování dat.
Name | Mastery | Learn | Test | Matching | Spaced | Call with Kai |
|---|
No analytics yet
Send a link to your students to track their progress
ER (Entity Relationship)
Modelování pro abstraktní a konceptuální znázornění dat. Spočívá ve využití základních konstruktů jazyka pro tvorbu diagramů a v metodice tvorby těchto diagramů. Základní myšlenkou je, že databáze uchovává fakta o entitách a o vztazích mezi entitami. Výsledkem je diagram (ERD)
Zásady tvorby databáze
Minimalizace redundance
Maximalizace znovupoužitelnosti
Maximalizace výkonnosti
Minimalizace nároku na uložení dat
Minimalizace redundance
Stejná informace by se v dtb neměla opakovat
Normalizace
Postup, jak strukturalizovat dtb, aby se minimalizovala redundance. Dělí se do normálních forem (NF)
NF
Atomicita
V každé buňce jen jedna hodnota, ne seznamy
NF
Částečná závislost
Všechny sloupce musí záviset na celém primárním klíči, ne jen jeho části (platí zejména pro složené klíče)
NF
Tranzitivní závislost
Sloupce nesmí záviset na jiných neklíčových sloupcích
Maximalizace znovupoužitelnosti
Společné vlastnosti definujeme jednou, propisujeme je dolů
Šetří čas, místo, minimalizujeme riziko chyby
Dědičnost
Prostředek k zajištění znovupoužitelnosti
Uspořádání entit do stromové struktury od obecného ke konkrétnímu
Single table inheritance
Všechny atributy rodičů i potomků v jedné velké tabulce
Pokud je některý sloupec pro prvek irelevantní, je vyplněn NULL
Zvyšuje rychlost
Class table inheritance
Rodičovská tabulka (společné sloupce) a pro každého potomka vlastní (specifická data)
Spojeno vztahem 1:1 přes ID
Čistá struktura, žádná prázdná místa
Concrete table inheritance
Rodičovská tabulka neexistuje, každý potomek má svou tabulku (obsahuje jak společné, tak specifické sloupce)
Jednoduchost
Maximalizace výkonnosti
Jak rychle dokáže systém na dotazy odpovídat
De-normalizace
Prostředek ke zvýšení výkonnosti
Záměrná redundance
Pokud výpočty trvají moc dlouho, vracíme se z vyšších NF do nižších
Metody optimalizace
Prostředek ke zvýšení výkonnosti
Indexace
Partinioning
Materialized view
Indexace
Metoda optimalizace
Stínová tabulka s informací o umístění
Urychluje vyhledávání řádků s informací, co nás zajímá (jinak procházíme celou dtb)
Zpomaluje zápis, přepis a vymazání - všechny indexy se musí aktualizovat
Zabírá místo
Obvykle se vytváří nad sloupci, které se objevují v JOINech, WHERE, ORDER BY a těch, které nejsou binární (např. indexujeme sloupec surname)
Partinioning
Metoda optimalizace
Rozdělení obrovské tabulky na menší logické kusy (např. podle roku)
Materialized view
Metoda optimalizace
Výsledky složitého dotazu se fyzicky uloží na disk a příště se nemusí znovu počítat
Database tuning
Prostředek ke zvýšení výkonnosti
Nastavení samotného databázového stroje a optimalizace dotazů
Query optimization
Caching
Konfigurace HW
Query optimization
Metoda database tuningu
Např. u SELECT výčet konkrétních sloupců, ne *
Caching
Metoda database tuningu
Ukládání častých dotazů do operační paměti RAM, aby se nemuselo sahat na pomalý disk
Konfigurace HW
Metoda database tuningu
Nastavení velikosti vyrovnávacích pamětí (buffer tool), počtu souběžných vláken nebo optimalizace diskových operací
Princip tří architektur (P3A)
Metoda postupného upřesňování datového modelu skrze tři vrstvy: konceptuální (model reality), logickou (technologické prostředí) a fyzickou (konkrétní implementace).
Entita
Objekt reality, který je natolik důležitý, že stojí za to jej v datovém modelu pojmenovat a vést o něm záznamy.
Atribut
Modelovaná vlastnost entit nebo vztahů v datovém modelu, která představuje množinu dat jednoho typu.
Kardinalita vztahu
Ukazatel určující, kolik výskytů entit jednoho typu může být v daném vztahu s jedinou entitou druhého typu (např. 1:1, 1:N, M:N).
Referenční integrita
Pravidlo zajišťující správnost a konzistenci dat tím, že umožňuje odkazování pouze na existující záznamy v povolené kardinalitě.
Indexy
Databázové objekty sloužící ke zrychlení vyhledávání a optimalizaci dotazů, které však zpomalují operace INSERT a UPDATE a zabírají místo v paměti.
DDL (Data Definition Language)
Část databázového jazyka určená pro definici databázových objektů, obsahující příkazy CREATE, ALTER a DROP.
DML (Data Manipulation Language)
Část databázového jazyka určená pro manipulaci s daty, obsahující příkazy SELECT, INSERT, UPDATE a DELETE.
TCL (Transaction Control Language)
Část databázového jazyka určená pro řízení transakcí pomocí příkazů COMMIT, ROLLBACK a SAVEPOINT.
PL/SQL
Procedurální nadstavba jazyka SQL od firmy Oracle založená na jazyku Ada, umožňující tvorbu procedur, funkcí a triggerů.
JPQL (Java Persistence Query Language)
Objektově-orientovaný dotazovací jazyk nezávislý na platformě, který se používá k dotazování na entity uložené v relační databázi v rámci Java Persistence API.
XQuery
Dotazovací a funkcionální programovací jazyk navržený pro extrakci a manipulaci s daty v XML dokumentech pomocí FLWOR výrazů.
OLTP (OnLine Transaction Processing)
Typ databází navržených pro ukládání velkého množství transakčních dat, jejich snadnou úpravu a mazání v reálném čase.
BI (Business Intelligence)
Technologie schopné integrovat data z různých oblastí podniku a poskytovat strategické informace v požadované struktuře pro podporu rozhodování managementu.
Data Mining
Analytická technika a proces extrakce relevantních, předem neznámých nebo nedefinovaných informací z velmi rozsáhlých databází.
Metriky/KPI
Měřitelné ukazatele (Key Performance Indicators) sloužící k hodnocení výkonnosti organizace nebo určitého procesu v souladu s jejími cíli.
Granularita
Úroveň detailu nebo jemnosti dat, kde vyšší hodnota znamená detailnější údaje a nižší hodnota představuje údaje seskupené.
Balanced Scorecard (BSC)
Strategický systém měření výkonnosti podniku ze čtyř perspektiv: finance, zákazník, interní podnikové procesy, učení se a růst.
CRISP-DM
Metodika pro data mining zahrnující šest fází: porozumění doméně, porozumění datům, příprava dat, modelování, vyhodnocení výsledků a využití výsledků.
Overfitting (přeučení)
Stav, kdy nalezené znalosti při učení modelu vystihují spíše náhodné charakteristiky trénovacích dat místo podstatných znaků využitelných pro generalizaci.
Matice záměn (confusion matrix)
Nástroj pro vyhodnocování klasifikačních modelů, který zachycuje shody klasifikátoru s učitelem a počet dopuštěných chyb.
Fuzzy logika (ve vyhledávání)
Rozšíření booleovského modelu, které výrazům přiděluje váhu pravdivosti Pr z intervalu <0,1> pro určení stupně relevance dokumentu.