Dane tabelaryczne. Ich reprezentacja, przechowywanie oraz analiza

Niniejsza sekcja omawia podstawy tego, jak w repozytorium traktowane są dane tabelaryczne oraz to, co dzieje się podczas procesu przetwarzania danych, gdy pliki przesłane przez użytkownika są przetwarzane i konwertowane do formatu archiwalnego w aplikacji Dataverse.

Na czym polega analiza danych?

Celem analizy jest wydobycie zawartości danych z plików użytkownika i zarchiwizowanie ich w neutralnym dla aplikacji, łatwym do odczytania formacie. Co to oznacza? - Komercyjne aplikacje, takie jak SPSS i Stata, do kodowania plików używają swoich formatów własnościowych. Niektóre firmy publikują specyfikacje swoich formatów, jednak nawet w takich przypadkach odczytywanie specjalnie sformatowanych plików wymaga dodatkowej wiedzy lub specjalistycznego oprogramowania. Z tych powodów nie są one uważane za najlepsze formaty do długotrwałego przechowywania (archiwizacji). Oprogramowanie Dataverse pozwala przechowywać surowe dane pobrane z takich plików w postaci plików tekstowych rozdzielanych tabulatorami. Informacje o opisujących zawartość pliku metadanych są przechowywane oddzielnie, w relacyjnej bazie danych - tak, aby były dostępne dla aplikacji. Dla celów archiwizacji można je wyeksportować w postaci tekstowych plików XML przy użyciu znormalizowanego, otwartego formatu DDI Codebook .

Dane tabelaryczne i metadane

Dane vs. metadane

Prostym przykładem jest numeryczna kolumna danych w pliku w formacie aplikacji Stata, która zawiera zera i jedynki. Te wartości liczbowe zostaną wyodrębnione i przechowane w pliku rozdzielanym tabulatorami. Same w sobie te zera i jedynki nic nie znaczą, o ile nie wiadomo, jakie wartości reprezentują. Tak więc plik Stata ma kilka dodatkowych informacji, które opisują ten wektor danych: okazuje się, że reprezentuje on wartości zmiennej o nazwie „partia”; z etykietą opisową „Przynależność partyjna”; a dwie wartości liczbowe mają kategorialne etykiety „Demokraci” w przypadku zera i „Republikanie” w przypadku jedynek. Taka dodatkowa informacja to przykład metadanych.

Metadane tabelaryczne w Dataverse

Struktura metadanych definiujących tabelaryczne zmienne używane w Dataverse była pierwotnie oparta na formacie DDI Codebook

Przykład danych wyjściowych DDI można zobaczyć w sekcji „Dostęp do metadanych zmiennych” („Data Variable Metadata Access”) w sekcji Data Access API w API Guide (dostępnym w języku angielskim).