Uni-Logo
You are here: Home Statistische Beratung Datei- und Datenstruktur
Document Actions

Datei- und Datenstruktur

Für die Auswertung notwendige Anforderungen an die Datei- und Datenstruktur

Die folgenden Zeilen sollten sorgfältig gelesen werden da ihre Nichtbeachtung bei der Gestaltung der Dateneingabe zu erheblichem Mehraufwand führen kann.

Die gängigen Auswertungsprogramme basieren auf einer einheitlichen, rechteckigen Datenstruktur der zu verarbeitenden Rohdaten. In dieser Anordnung sind die Zeilen die Fälle (z.B. Patienten) und die Spalten die Variablen, so dass eine Datei je Fall nur eine Zeile mit z.B. den Variablen Identifikationsnummer, Alter, Blutdruck usw. enthält. In diesem Sinne müssen Mehrfachmessungen einer Variablen über die Zeit (z.B. bei Verläufen von Laborwerten) durch mehrere Variablen (z.B. BLUT1, BLUT2 usw.) beschrieben werden und dürfen auf keinen Fall als mehrere Werte einer Variablen aufgefasst werden. Personendaten müssen grundsätzlich anonymisiert werden (keine Namen oder Initialen, Geburtsdatum auf jeden Fall ohne Angabe des Tages).

Um Daten, die bereits mit EDV erfasst wurden, hier am Institut mit der vorhandenen Statistik-Software auswerten zu können, müssen bestimmte Voraussetzungen erfüllt sein. Die gängigste Form der Datenhaltung sind Excel-Dateien. Dazu liegt ein gesondertes Merkblatt vor (siehe excel2sas als pdf-file). SAS-Dateien der Versionen 6 und 8 können direkt verwendet werden, ältere Versionen müssen exportiert/importiert werden. SPSS-Dateien können konvertiert werden, soweit die Variablennamen SAS-zulässig sind (vgl. Excel-Merkblatt). Strukturlose ("flache") ASCII-Dateien (z.B. Formate .txt und .csv) erfordern besondere Vorsichtsmaßnahmen bezüglich des Trennzeichens und der Codierung fehlender Werte. Ihre Verwendung sollte auf die Fälle beschränkt werden, in denen ein anderer Weg der Konversion nicht existiert. Auf keinen Fall sollten die Daten in Textsysteme eingegeben werden. Word-Dateien sind völlig unbrauchbar, kleinere isolierte Word-Tabellen sind eingeschränkt verwendbar.

Generell gilt: Eine numerische Codierung ist einem Eintrag, der Buchstaben und/oder Sonderzeichen enthält, grundsätzlich vorzuziehen (also nicht m / w , j / n , - / + / ++ / +++ , I / II / III). Freitexte, insbesondere Kommentare, sind zum einen nicht verwertbar, zum anderen extrem hinderlich und sollten deshalb vor Übergabe der Daten gelöscht (und nicht nur unsichtbar gemacht) werden. Die einfachste Form des Datentransfers ist die Versendung als Mail-Attachment.

Anforderungen an die Datei- und Datenstruktur als pdf-datei

excel2sas

excel2sas als pdf-datei

 

Personal tools