Dienstag, März 12, 2013

Data Warehousing mit Oracle

Dieser Tage ist es mir endlich gelungen, das Buch Data Warehousing mit Oracle von Claus Jordan, Dani Schnider, Joachim Wehner und Peter Welker fertig zu lesen. Dass die Lektüre relativ lange dauerte, ist insofern erstaunlich, als der Band mit 227 Seiten recht überschaubar ist - und es sich um ein sehr gutes Buch handelt; die Dauer der Leseoperation erklärt sich aus Wait Events, die mit dem Buch nichts zu tun hatten ...

Aber der Reihe nach: Data Warehousing mit Oracle ist 2011 im ehrwürdigen Hanser Verlag erschienen und bereits auf dem Umschlag geben die Autoren ihre Zugehörigkeit zum renommierten Beratungshaus trivadis zu erkennen und werden im Vorwort als DWH-Berater mit langjähriger Projekterfahrung ausgewiesen - und zumindest im Fall des Herrn Schnider kann ich mich an diverse interessante Blog-Artikel erinnern, die ich gelegentlich auch schon mal hier erwähnt habe. Der Band ist - wie erwähnt - recht schmal, dabei aber sehr klar gegliedert: einem Einleitungskapitel folgen Erläuterungen zu folgenden Themen:
  • Data Warehouse Grundlagen: liefert zahlreiche Definitionen und erklärt die theoretischen Grundlagen des Themas (mit kurzem Verweis auf die Positionen von Inmon und Kimball). Neben eher allgemeinen  Definitionen der relevanten Terminologie erscheinen vor allem präzise Vorschläge zu Konventionen und Vorgehensweisen - angefangen bei den Bezeichnungen der Architektur-Ebenen (Stage, Cleansing, Core - darüber dann die Data Marts), über Vorschläge zur Historisierung bis hin zu Namenskonventionen für instrumentierende Metadaten-Spalten.
  • Datenintegration: liefert Vorschläge zur Implementierung von Quality Checks und Data Profiling, erklärt unterschiedliche Vorgehensweisen zur Delta-Extraktion und beschäftigt sich eingehend mit der Implementierung und Optimierung von ETL-Prozessen.
  • Aufbau und Betrieb eines Data Warehouse: geht genauer auf die Rolle der Schichten der DWH-Architektur ein und liefert präzise Aussagen zu Funktion und Abgrenzung der Elemente. An vielen Stellen werden auf Erfahrungswerten basierende Praxishinweise gegeben: etwa der, dass ein Operational Data Store (ODS) zur Bereitstellung sehr aktueller Daten in vielen Fällen die erforderliche Mühe nicht lohnt. Daneben gibt es eine ganze Reihe präziser Vorschläge zur Datenmodellierung und zur Implementierung von Transformationen (etwa zur Versionierung von Dimensionen). Nach einer kurzen Einführung zum Thema MOLAP folgen praktische Hinweise zur Verwendung von Oracle-Features: Aussagen zu empfohlenen Blockgrößen, PGA- und SGA-Dimensionierung, Parallelisierung, Statistikerhebung, Partitionierung, Indizierung, Backup + Recovery etc. Darüber hinaus liefert das Kapitel Vorschläge zum Entwicklungsprozess, zum Einsatz von Versionsverwaltungs-Repositories und zum Deployment von Änderungen und geht recht intensiv auf das Performance-Monitoring im DWH ein.
  • Business Intelligence-Plattformen: ein recht kurzes Kapitel mit einer Vorstellung von BI-Plattformen im Allgemeinen und der OBIEE im Besonderen. Recht instruktiv, aber mit 10 Seiten doch sehr knapp.
Im Zusammenhang der Implementierungsvorschläge erscheinen neben SQL-Code auch Hinweise auf die entsprechenden Optionen der ETL-Tools von Oracle (OWB, ODI), wobei Oberflächenscreenshots die Ausnahme bleiben (was ich erwähne, weil ich in der Vergangenheit ziemlich viele Bücher aus dem Microsoft-Umfeld gelesen/durchgeblättert habe, die nicht viel mehr als kommentierte Screenshot-Sammlungen darstellten).

Zu den Pluspunkten des Buches gehören aus meiner Sicht die klare Struktur und die hohe (inhaltliche und sprachliche) Präzision der Erläuterungen. Die Autoren kommen nie ins Plaudern, sondern immer sehr schnell auf den Punkt - den Inhalt hätte man ohne große Mühe auf die doppelte Länge bringen können: mein Dank an die Verfasser, dass sie darauf verzichtet haben. Gut gefallen mir die Konventionsvorschläge, bei denen ich mich gelegentlich auch schon bedient habe, und die klaren Stellungnahmen zu zahlreichen praktischen Problemen. Bei den recht umfangreichen Ausführungen zum Thema Performance habe ich fast ausschließlich Aussagen gefunden, die sich mit meinen Ansichten decken, und nichts, was meinen deutlichen Widerspruch hervorrufen würde.

Schwieriger ist die Suche nach Kritikpunkten. An einigen Stellen wird die Darstellung doch etwas zu knapp, etwa im letzten Kapitel, bei dem ich nach Lektüre des letzten Satzes ("Der Aufruf existierender bzw. das Definieren neuer Reports erfolgt direkt von der OBIEE-Homepage") kurz darüber nachdachte, ob da vielleicht Seiten fehlten...

Insgesamt halte ich Data Warehousing mit Oracle für ein sehr lesenswertes Buch: sowohl Einsteiger als auch erfahrene DWH-Entwickler/-DBAs/-Architekten werden hier jede Menge interessanter Informationen finden, die in der praktischen Arbeit mit Oracle-DWHs sehr nützlich sein können.

Erwähnenswert ist vielleicht auch noch die "patentierte Bindung", die dafür sorgt, dass das Buch offen liegen bleibt - meistens jedenfalls ...

Kommentare:

  1. Hallo,
    ich habe das Blog jetzt ziemlich komplett gelesen. Insbesondere die Rezensionen fand ich sehr gut.
    Zum Thema DWH - welches nicht meines ist: Vielleicht ist der DWH-Beitrag der dojo-Reihe von Interesse: http://www.oracle.com/webfolder/technetwork/de/community/dojo/index.html
    Würde mich interessieren, wie das abschneidet.

    Viele Grüße
    Marco Wolschke

    AntwortenLöschen
  2. Vielen Dank für das positive Feedback. Ich habe den DWH-Artikel von Alfred Schlaucher kurz durchgeblättert und das sieht nach sehr solider Arbeit aus. Alles andere hätte mich aber auch gewundert, da ich von den Autoren der Reihe - gerade von Ulrike Schwinn und Carsten Czarski - schon viele sehr gute Artikel gelesen habe. Wenn ich dazu komme, schreibe ich vielleicht gelegentlich einen ausführlicheren Kommentar dazu.

    Viele Grüße

    Martin Preiss

    AntwortenLöschen