Datenbanken und Statistik

  / historicum.net / Service / Archiv / Lehren & Lernen / Computer im Geschichtsstudium / Datenbanken und Statistik

Geschichte - Computer - Neue Medien: Standardanwendungen

 

Datenbanken & Statistik

 

1. Datenbanken

1.1 Begriffsklärung

Im alltäglichen Sprachgebrauch werden zwei Dinge gleichermaßen als Datenbanken bezeichnet, die eigentlich unterschieden werden müssen. Streng genommen sind Datenbanken "Sammlungen gleichmäßig strukturierter Informationen", oder noch allgemeiner "Sammlungen von Informationen, die aus der Sicht eines Benutzers (oder Erstellers einer Datenbank) zusammen gehören". Davon abzugrenzen sind dann Programme, die diese Informationssammlungen verwalten. Diese heißen eigentlich "Datenbank-Management-Systeme" (DBMS). Da dem Benutzer "Datenbanken" (im eigentlichen Sinne) aber immer nur in Form von DBMS-Oberflächen oder -Interfaces begegnen, wird alltagssprachlich nicht zwischen beiden unterschieden. Erst die zunehmende Austauschbarkeit der Programme und ihrer Interfaces macht den Unterschied jetzt wieder etwas bewußter: Eine Bibliographie ist eine Datenbank, sie begegnet uns mittels der austauschbaren Oberfläche eines Datenbank-Management-Systems.

1.2 Datenbankarten

Es gibt zahlreiche verschiedene Arten von Datenbanken. Die Verschiedenheit ergibt sich teilweise aus den abgebildeten Inhalten und teilweise aus dem "Datenbankmodell", gewissermaßen dem Konzept, nach dem die Inhalte verstanden, gegliedert und strukturiert werden. Zu den traditionell unterschiedenen Datenbankarten gehören:

 

Der Einsatz einer bestimmten Datenbankart hängt zunächst von ihren Inhalten ab. Bilddatenbanken, Volltextdatenbanken oder z.B. Adressdatenbanken legen wegen der unterschiedlichen Inhalte unterschiedliche "Sichten" auf diese Inhalte, unterschiedliche "Datenmodelle" nahe.

Pars pro toto. Das aber ist weitgehend Theorie. Tatsächlich hat sich das relationale Datenbankmodell so weit durchgesetzt, dass fast immer nur relationale Datenbanken gemeint sind, wenn überhaupt von Datenbanken die Rede ist. Oder anders: wenn Datenbanken auf eine allgemeine, einführende Weise beschrieben werden, wird meistens tatsächlich das Modell der relationalen Datenbank beschrieben (siehe z.B. den Eintrag Datenbank in Wikipedia). Dieses Modell basiert im wesentlichen auf dem Konzept der "Tabelle", bei der jeder "Datensatz" ("record") durch eine Tabellenzeile abgebildet wird, deren Spalten die Merkmale oder Eigenschaften dieses Datensatzes beschreiben. Um Redundanzen zu vermeiden und die konsistente Pflege der Daten zu erleichtern, werden dann Tabellen ausgelagert, wenn sie Daten enthalten, die für mehrere Datensätze gleich sind. Diesen Prozess nennt man "Normalisierung".

Der Erfolg des relationalen Datenmodells basiert auf seiner Einfachheit und darauf, dass tatsächlich viele Daten in Form von Tabellen hinreichend gut beschrieben werden können. Gerade die Geisteswissenschaften haben es aber oft mit komplexeren Informationen zu tun, die sich nicht ohne Probleme oder allzu großer Vereinfachung in relationale Strukturen überführen lassen. Hier haben in letzter Zeit Modelle an Bedeutung gewonnen, die z.B. eher hierarchische, netzwerkartige oder überhaupt heterogene Strukturen abbilden können. Dies ist z.B. bei dem Datenmodell von XML und den entsprechenden Datenbanken (DBMS!) der Fall.

1.3 Software

Datenbankprogramme gibt es viele. Vielleicht haben Sie schon von Oracle oder SAP gehört. Das sind professionelle (und teure) Systeme, die für den Bereich der Geschichte in der Regel aber entweder zu teuer, (für einfache Anwendungen) zu komplex oder inhaltlich nicht passend sind. Meistens werden hier entweder einfache Standardprogramme ausreichen oder man wird direkt fachspezifische Software verwenden. Zu den Standardprogrammen gehören

 

Ist das einfache relationale Datenbankmodell (Denken in Tabellen) für die zu bearbeitenden Daten nicht ausreichend, so sind eventuell andere Datenbankarten in Betracht zu ziehen. Für den Bereich der (eher Dokumenten-orientierten) Geschichtswissenschaft z.B. XML-Datenbanken wie eXist oder Xindice (als Open-Source-DB) oder ggf. auch Tamino (als kommerzielles Produkt).

Zu den spezielleren (zugleich häufigsten) Anwendungsfeldern von Datenbanken (DBMS) in den Geisteswissenschaften gehören die Literaturdatenbanken.

1.4 Anwendung

Eine Datenbank wird man dann einsetzen, wenn man große Mengen von Daten zu sammeln, zu organisieren (zu strukturieren), zu verwalten, zu analysieren und zu verarbeiten hat. Die Erstellung einer Datenbank ist in der Regel aufwändig und lohnt sich meistens erst bei größeren Projekten. Hat man es aber mit großen Datenmengen oder bereits gut strukturierten Daten zu tun, dann bedeutet der Einsatz einer Datenbank in der Regel einen Gewinn an Rationalität, Effizienz und Professionalität.

Die Grundfunktionen von Datenbanken sind gerade schon beschrieben worden: Sammlung, Organisation, Verwaltung und Verarbeitung von Informationen. Dabei wird der Benutzer zusätzlich bei der Eingabe, der Kontrolle der Konsistenz, der Aktualisierung, der Analyse und der Ausgabe von Informationen unterstützt. Zu den analytischen Funktionen zählen die Suche, die Sortierung, die Filterung, die Quantifizierung, die statistische Berechnung und die Visualisierung von Informationen.

Zu den im Internet verfügbaren Ressourcen zum Thema Datenbanken und Geschichtswissenschaft gehören:

2. Statistik

2.1 Definition und Gliederung

Statistik ist die quantitative Beschreibung von Merkmalen und Zusammenhängen zwischen Merkmalen. Man unterscheidet zwischen der deskriptiven und der induktiven (oder: Inferenz-)Statistik. Während die deskriptive Statistik Merkmale und Zusammenhänge quantifizierend beschreibt und veranschaulicht, versucht die induktive Statistik z.B. aus Stichproben Schlussfolgerungen für eine Grundgesamtheit, für Zusammenhänge zwischen Mekmalen und für diesen Merkmalen zugrunde liegenden Strukturen zu ziehen. Der Unterschied zwischen den beiden Teilen der Statistik liegt in den eingesetzten methodischen Instrumenten und Rechenverfahren, die im einen Fall als trivial, im anderen als komplex bezeichnet werden können.

2.2 Statistik und Geschichte

Entwicklung. Gegen die weit verbreitete Meinung, Geschichte habe als "Erzählen von Geschichte(n)" und als verbale Beschreibung von historischen Ereignissen und Zuständen keine quantifizierbaren Aspekte, hat vor allem die sozialhistorische Forschung seit den 1960er Jahren die Verfahren der empirischen Sozialwissenschaften auf die Geschichtsforschung zu übertragen versucht. Nach einer Phase der Konfrontation ("Quantifizierung ist kein adäquates Verfahren für historische Erkenntnisgewinnnung" vs. "Nur Quantifizierung und der Einsatz der Methoden empirischer Disziplinen bedeutet Wissenschaftlichkeit") besteht heute ein unverkrampftes, aber weitgehend immer noch ignorantes Verhältnis der Geschichtswissenschaft zur Quantifizierung: Sie sei häufig sinnvoll anwendbar - bloß nicht für die jeweils eigene Forschung.

Grundvoraussetzungen. Dabei steht außer Frage, dass viele historische Phänomene und Betrachtungsweisen auch statistisch beschrieben und analysiert werden können. Auf jeden Fall gewinnt man mit der Statistik eine zusätzliche Perspektive zur Untersuchung und Darstellung geschichtlicher Zusammenhänge. Die sinnvolle Anwendbarkeit statistischer Verfahren ist allerdings von einer Reihe von Grundbedingungen abhängig, die im Bereich der Geschichtswissenschaft oft kritischer in Rechnung zu stellen sind, als in anderen Disziplinen. Dazu gehört vor allem das Verhältnis der verfügbaren Daten zu den Gegebenheiten, die sie beschreiben sollen: Liegen genug Daten vor? Sind diese gleichmäßig genug, um statistisch ausgewertet werden zu können? Bilden die Daten (als historische Quellen) nicht bereits eine (durch die Produktion der Quellen und durch die Überlieferungsbedingungen) mehrfach gefilterte Sicht ab? Lassen sich die Daten mit definierten Kategorien beschreiben, ohne sie bereits zu dehistorisieren und zu verfälschen? Von diesen Grundbedingungen ist der weitere Einsatz unterschiedlicher statistischer Verfahren abhängig, wobei gilt: je "schlechter" (dünner, inhomogener, gefilterter) die Daten sind, um so eher verbieten sich komplexere Analyseverfahren z.B. der induktiven Statistik.

Weiterführendes. Auf die Linksammlung zur Quantifizierung von Thomas Rahlf wurde bereits oben hingewiesen. Zu den ersten Anlaufstellen für Quantfizierung und Geschichte in Deutschland gehört auch das Kölner "Zentrum für historische Sozialforschung" mit der Zeitschrift "Historical Social Research / Historische Sozialforschung" (HSR), von der etliche hier relevante Ausgaben auch online verfügbar sind.

2.3 Grundbegriffe und methodische Grundlagen

Beobachtungsmenge. Um mit Statistiken arbeiten zu können, sollten Ihnen Begriffe wie "Grundgesamtheit", "Datenbasis" und "Stichprobe" klar sein. Sie bezeichnen, was untersucht werden soll, welche Daten dafür vorliegen und wie sich beides zu einander verhält. Mit dem Konzept der Stichprobe ist es möglich, auch bei geringe(re)n Datenbasen zu "validen" Ergebnissen zu kommen, d.h. Aussagen, die auch für die Grundgesamtheit gültig sind.

Messskalen. Entscheidend für die Anwendbarkeit einzelner statistischer Kennzahlen und Verfahren und für die möglichen Schlüsse daraus sind die sogenannten "Skalenniveaus". Diese geben an, in welcher Weise die Ausprägungen von Merkmalen beschrieben werden können. Es gibt vier wichtige Skalen:

  • Nominalskala. (Qualitative Kategorien ohne Hierarchie. Bsp.: Berufe)

  • Ordinalskala. (Hierarchische Kategorien ohne gleichmäßigen (sinnvoll berechenbaren) Abstand. Bsp.: Soziale Schichtung)

  • Intervallskala.(Kategorien mit gleichem Abstand, aber ohne (sinnvoll berechenbaren) Nullpunkt. Bsp.: Jahreszahlen)

  • Verhältnisskala. (auch: Ratioskala). (Metrische Skala mit Nullpunkt. Bsp.: Einkommen in €)

Offensichtlich sind bestimmte Aussagen nur auf bestimmten Skalenniveaus möglich: "Durchschnittswert der Berufe" ist Unsinn (falsche Anwendung auf Nominalskala); das Jahr 1600 ist nicht "doppelt so spät" wie das Jahr 800 (falsche Anwendung auf Intervallskala); 1600€ sind aber sehr wohl doppelt so viel wie 800€ (korrekte Anwendung auf Ratioskala). Operationen auf einfacheren Skalen sind aber immer auch auf höheren Skalenniveaus erlaubt.

Elementare Maßzahlen. Zu den grundlegenden Kennzahlen zur Beschreibung statistischer Verhältnisse gehören Konzepte, die so trivial sind, dass wir sie schon unbewußt kennen: absolute und relative Häufigkeit, Häufigkeitsverteilung, Spannweite, Streuung, Mittelwert oder durchschnittliche und Standardabweichung. Leicht zu verstehen (und oft bereits sehr aussagekräftig) sind aber auch elementare Zusammenhangsmaße wie die Kovarianz oder der Korrelationskoeffizient. Für die eigene Einarbeitung in die einfache deskriptive Statistik empfehlen sich die inzwischen auch online verfügbaren HSR-Bände von Helmut Thome (Grundkurs Statistik für Historiker Teil I: Deskriptive Statistik, HSR-Trans 7 (2001)) und Jürgen Sensch (Statistische Modelle in der Historischen Sozialforschung I: Allgemeine Grundlagen - Deskriptivstatistik, HSR-Trans 8 (2002)). Einen ganz flotten und einfachen Einstieg in die Statistik bieten auch die ersten Teile von Rudolf Dutters Vorlesung "Statistik und Wahrscheinlichkeitsrechung", Wien 2010. Schließlich ist LernSTATS als ein sehr schönes online-Lernprogramm für die deskriptive Statistik zu erwähnen.

2.4 Häufige Fehler

Grundlagen. Der Spruch "Traue keiner Statistik, die du nicht selbst gefälscht hast" ist doch etwas undifferenziert. Er verweist aber auf Grundprobleme, die schnell zu fehlerhaften Statistiken führen können. Oder besser: zu Statistiken, die keine validen Aussagen enthalten, in keinem vernünftigen Verhältnis zu der Grundgesamtheit stehen, falsch oder tendenziös verbalisiert oder kommuniziert werden, oder aus denen unzulässige Schlüsse gezogen werden. An möglicherweise problematischen Grundvoraussetzungen ist deshalb immer zu klären: Wo kommen die Daten her? Wie sind sie erhoben worden? Wie vollständig sind sie? Was war die Fragestellung bei der Erhebung? Welche Begriffe und Kategorien wurden angewandt? Was war der methodische Rahmen? Was können die Daten überhaupt aussagen? Welche Maßzahlen und Berechnungen sind hier möglich? Welche Schlüsse sind dann zulässig?

Praxis. Häufig begegnen auf dieser Grundlage die folgenden Fehler:

  • Erhobene Merkmale haben mit dem eigentlichen Thema nichts zu tun.

  • Die gebildeten Kategorien sind keine vernünftige Operationalisierung der Fragestellung.

  • Die Datenbasis ist zu gering, um überhaupt valide Aussagen treffen zu können.

  • Maßzahlen und Konzepte werden auf ungeeignete Skalenniveaus angewandt.

  • Verbale Verschleierung oder Umdeutung tatsächlicher Ergebnisse.

  • Falsche Visualisierungen (z.B. unvollständige oder verzerrte Skalen).

  • Grundsätzlich unzulässige Rückschlüsse von der Ebene aggregierter Daten auf die Individualebene ("Geschichtswissenschaft arbeitet in der Regel nicht statistisch" - aber wenn Sie einen Historiker treffen, dann können Sie nicht sagen, ob er statistisch arbeitet oder nicht!).

  • Schließen von statistischen Beziehungen auf kausale Beziehungen (Selbst wenn zwei Merkmale stark mit einander korrelieren, muss das eine noch lange nicht die Ursache des anderen sein!).

  • Nichtberücksichtigung von Drittvariablen beim Schließen auf kausale Zusammenhänge (Berühmtes Beispiel: Nachweisbarer Zusammenhang zwischen Storchenpopulation und Geburtenhäufigkeit bei Menschen. Wichtige nicht berücksichtigte Drittvariable hier: "Urbanisierung").

2.5 Software

Einfache statistische Kennzahlen und Zusammenhänge können bereits sowohl mit Datenbankprogrammen (Beispiel: Microsoft ACCESS) als auch vor allem mit Tabellenkalkulationsprogrammen (Beispiele: Microsoft EXCEL, OpenOffice Calc) ermittelt und visualisiert werden. Für komplexere statistische Untersuchungen gibt es spezielle Statistikprogramme (Beispiel: SPSS).

2.6 Visualisierung

Zweck. Erinnern Sie sich an den Tutorial-Teil zu Präsentationen? Zahlen und Statistiken sind nicht nur zu verbalisieren, sondern vor allem auch zu zeigen! Quantitative Verhältnisse sind "darzustellen" oder zu "visualisieren" und nicht vorzulesen oder linearisiert aufzschreiben. Verbalisieren kann man die "Deutung" quantitativer Verhältnisse, nicht die Verhältnisse selbst. Hinzu kommt, dass Erkenntnisse in quantitative Zusammenhänge oft gerade durch die Anschauung geeigneter Darstellungen entwickelt werden können. Bei der Visualisierung (Begriffserklärung in Wikipedia) geht es nicht nur um Ergebnispräsentation, sondern (im besten Fall) auch um ein heuristisches Werkzeug.

Praxis. Die einfacheren Verfahren zur Darstellung von quantitativen Daten sind Ihnen aus den Medien lange bekannt. Sie können sie in der Regel bereits mit den oben erwähnten Tabellenkalkulationsprogrammen leicht herstellen. Dazu gehören Tabellen, Histogramme (Balkendiagramme), Polygonzüge (Liniendiagramme), Kreisdiagramme (Kuchendiagramme), Punktverteilungen (Scattergramme) oder auch dreidimensionale Blockdiagramme. Bedenken Sie aber, dass im Grunde jede Fragestellung und jede besondere Art von Datenmaterial spezielle eigene Visualisierungsstrategien nahe legen können.

[weiter]



Erstellt: 29.03.2006

Zuletzt geändert: 10.06.2010


Lesezeichen / Weitersagen

FacebookTwitterGoogle+XingLinkedInDeliciousDiggPinterestE-Mail