Warum ein Data Warehouse


Da sowohl Produkte wie auch Trends immer kurzlebiger werden, müssen in immer kürzerer Zeit zielgerichtete Entscheidungen getroffen und Betriebsabläufe verändert werden. Für eine genaue Markt- und Betriebsanalyse sind dabei sowohl historisch, wie auch aktuelle, wenn möglich 'Realtime', Informationen aus allen zur Verfügung stehenden Quellen wichtig.
Selbstverständlich ersetzt ein Data Warehouse keine Kenntnisse und Einschätzungen des Marktes, sondern bildet diesen nur in elektronischer Weise nach. Der Vorteile eines integralen Date Warehouse ist, es liegen alle Informationen vor und können miteinander verknüpft und zur Entscheidungsfindung herangezogen werden.

  • Definition des Data Warehouse
  • Die Definition wird in vielen Artikeln, Büchern und im Internet beschrieben. Eine präziese Beschreibung des Data Warehouse ist sehr vielschichtig und wird durch die jeweils gestellten Anforderungen auf der fachlichen Seite und der verwendeten Technik vorgegeben. Grundlegend sind jedoch allen Data Warehouse Systemen eines gemeinsam, es werden Daten aus verschiedenen Quellen, den internen und externen Systemen, in einem System, typischer Weise einer Datenbank, importiert und zur Analyse genutzt.

    Die fachlichen Aspekte des Data Warehouses
    • Intern sollten die notwendigen Anforderungen klar dargestellt werden durch:
      • Detailierte Definition der Ergebnisse
      • Analyse der internen Daten
      • Analyse und Bewertung von externen Daten
      • Harmonisierung der Daten zur Vergleichbarkeit
    Die technischen Anforderungen des Data Warehouses
    • Die Daten sind heute in digitaler Form verfügbar und wachsen stark an. Dieses erfordert evt. neue Wege in der Verarbeitung und der Nutzung von neuen Techniken. Grundlegend kann man sagen:
      • Die Abfragen beziehen immer größere Zeiträume, bzw. Mengen ein.
      • Diese Mengen müssen zur Analyse von den Festplatten über ein Netzwerk geladen werden.
      • Es müssen weitere aktuelle Daten möglichst schnell geladen werden
      • Die Daten sollten direkt nach dem Laden zur Analyse zur Verfügung stehen


    Betrachtet man die meisten Data Warehouse Systeme so wachsen sie heute immer stärker an. Zum einen sind in der EDV alle Daten digital verfügbar und als weiterer Faktor können durch das Internet auch Daten aus externen Quellen relativ einfach geladen werden.
    Historisch gesehen, sind die bestehenden Warehouse Systeme aus schon vorhanden, ROW-basierten Datenbanken entstanden. Durch das wachsende Datenvolumen müssen:
    • Ladeprozesse immer aufwendiger gestaltet werden was hohe Kosten nach sich ziegt
    • Abfragen durch Vor-Kummulationen unterstützt werden was die Flexibiltät einschränkt
    Letzt endlich verursachen die beiden Punkte Kosten und erhöhen das Risiko falls die Migration auf die neue unbekannte Technik nicht den geschilderten Vorteil ergibt.
    Als weitere Faktor kann angesehen werden, das Know How und Mitarbeiter für die Administration der Datenbanken und den stehenden Prozessen im Hause vorhanden sind. Der Umstieg auf die neue Technik ist für viele nicht transparent, da die neue Technik sich auf Grund der fehlenden Experten nur langsam am Markt durchsetzt.

    Ein Umstieg der Technik wird auf Grund des Datenvolumen als risikoreich eingeschätzt.
    Obwohl allen Beteiligenten die Notwendigkeit eines Data Warehouses bewußt sind, scheuen viele die Investitionen in eine moderne Technik. Erfahrungen aus Seminaren und Tagungen haben gezeigt, es ist ein hoher Hardware- und Pflegeaufwand notwendig, wird die vorhandene Technik eingesetzt.
    Eigene Erfahrungen haben gezeigt :
    • Kosten im Bereich Administration um 70% gesenkt werden
    • Das laden neuer Daten konnte auf weniger Minuten gesenkt
    • Abfragen konnten Ad-Hoc gestellt werden

    Wird man sich der Bedeutung eines Data Warehouses bewußt, so steht bei der neuen Technik, Column-basierten Datenbanken, daß Verhältnis von Preis zu Leistung in einer ausgezeichneten Relation, welche von Row-basierten Datenbanksystemen nur mit weit höheren Kosten erkauft werden kann. Die neue Technik nutzt einfache Hardware, Linuxserver zu bezahlbaren Preisen. Der Maintenance Aufwand liegt auf Grund der eingesetzten Technik in einem Low-Cost Bereich.
    Aus meinen Erfahrungen kann ich berichten, daß der Data Warehouse Server nur 2 mal in 8 Jahren durchgestartet wurde, abgesehen von den Upgrades auf die nächst höhere Version.
    Disater-Recovery wurde nicht durchgeführt. Der Server ware nach dem Durchstarten nach 2 min. wieder verfügbar. Anpassungen waren nur im Spacebereich notwendig.

  • Die Anwendungsseite
  • Hier stellen sich die betriebswirtschaftliche Anforderungen mit den Blick auf die Daten.
    Moderne Systeme beruhen heute auf mehreren Applikationen.
    Da sind zum einem die BI-Tools wie Cognos, Microstrategy oder auch Phenato. Sollen jedoch komplizierte Sachverhalte analysiert werden ist eine PHP - Applikation die geeignete Wahl.

  • Datenqualität
  • Die großen Herausforderungen auf der technischen Seite des Data Warehouse sind

    a. Die großen Datenmengen zu bewältigen
    b. Die Qualität der Daten herzustellen und zu erhalten
    Diese ist für den Erfolg und den Bestand eines Warehouses eine elementare Forderung.


  • Reporte
  • Definitionen des business cases. Erstellen von Auswertungen