Data Vault – přehled
Data Vault je inovativní metodika modelování dat pro rozsáhlé platformy Data Warehouse. Data Vault, který vynalezl Dan Linstedt, je navržen tak, aby poskytoval podnikový datový sklad a zároveň odstraňoval nevýhody normalizované (3. normální forma) a techniky dimenzionálního modelování. Kombinuje centralizované úložiště surových dat přístupu Inmon s výhodami inkrementálního sestavování přístupu Kimball.
Tento článek shrnuje nevýhody přístupu 3NF a Dimenzionálního modelování a uvádí výhody a nevýhody přístupu Data Vault. Nakonec obsahuje odkazy na užitečnou základní literaturu a jeho cílem je odpovědět na otázku:
Měl bych na svém projektu datového skladu použít Data Vault?
Jaký problém se Data Vault snaží řešit?
Před shrnutím problémů, které se Data Vault snaží řešit, stojí za to zvážit alternativní přístup k modelování dat a odpovídající datové architektury. Níže uvedený diagram ukazuje potenciální podnikovou datovou architekturu.
Podnikový datový sklad
Při přístupu EDW se data načítají do přechodné oblasti Landing Area, poté se pomocí řady procesů ETL načítají data do podnikového datového skladu 3. normální formy. Data jsou následně extrahována do dimenzionálních datových skladů pro analýzu a reporting.
Mezi nejvýznamnější nevýhody tohoto přístupu patří:
- Doba uvedení na trh: Podnikový datový sklad musí nejprve integrovat data z jednotlivých zdrojových systémů do centrálního datového úložiště, než jsou k dispozici pro reporting, což zvyšuje časovou náročnost projektu.
- Složitost a dovednosti:
- Nedostatek flexibility:
- Datový sklad může potřebovat integrovat data ze stovky zdrojů a návrh celopodnikového datového modelu pro podporu složitého obchodního prostředí je značnou výzvou, která vyžaduje vysoce kvalifikované odborníky na datové modelování: Třetí normální forma modelu má tendenci modelovat stávající datové vztahy, což může vést k relativně nepružnému řešení, které je třeba při přidávání dalších zdrojů výrazně přepracovat. Ještě horší je, že příliš horliví odborníci na modelování dat se to často snaží překonat tím, že dodávají příliš složité obecné modely, kterým je téměř nemožné porozumět.
Přístup dimenzionálního návrhu
Následující diagram znázorňuje potenciální datovou architekturu pro klasický návrh dimenzionálního datového skladu.
Výše uvedený přístup se obejde bez EDW, aby bylo možné rychle dodat výsledky koncovým uživatelům. Tuto techniku jsem použil v roce 2008 v londýnské investiční bance první úrovně, abych poskytl podnikovým uživatelům hodnocení úvěrového rizika během několika týdnů od zahájení projektu. Kdybychom čekali na vybudování tradičního datového skladu, zkrachovali bychom dřív, než bychom dodali něco užitečného.
Zpočátku byli obchodní uživatelé rychlostí dodání nadšeni; časem jsme však narazili na mnoho problémů, jejichž řešení bylo stále bolestivější. Mezi ně patřilo:
1. Rostoucí složitost kódu: Kód ETL (Extract, Transform, and Load) se stával tak složitým, že již nebyl zvládnutelný. Nahrazení nástroje ETL (Informatica) skripty Oracle pomohlo (protože jsme řešení postupně zjednodušovali), ale to nebylo jádrem problému. Snažili jsme se restrukturalizovat příchozí data, deduplikovat, čistit a přizpůsobovat data a aplikovat měnící se obchodní pravidla v čase. Provést všechny tyto kroky v jediné kódové základně bylo skutečně velmi obtížné.
2. Nedostatek surových dat: Vzhledem k tomu, že přistávací plocha byla čistě přechodná (pokaždé se smazala a znovu načetla), neměli jsme k dispozici žádné historické záznamy surových dat. To ztěžovalo analytikům objevování nových cenných datových vztahů a rostoucí význam datové vědy, která (především) potřebuje surová data, byl jednoduše ignorován.
3. Správa historie: Protože jsme neměli žádnou historii surových dat a načítali jsme pouze atributy potřebné pro analýzu, bylo obtížné zpětně doplňovat další datové kanály.
4. Řazení bylo náročné: Vzhledem k tomu, že technická i obchodní logika byla implementována ve stále se zvětšujících sedimentárních vrstvách zdrojového kódu, bylo téměř nemožné sledovat linearitu datové položky z reportu zpět do zdrojového systému.
Podnikům se líbila počáteční rychlost dodání. S postupem času však bylo stále obtížnější udržet tempo, protože řešení bylo stále složitější a obchodní pravidla se časem měnila.
Architektura datového trezoru
Níže uvedený diagram ukazuje možnou datovou architekturu používanou metodikou datového trezoru.
Leave a Reply