Data Merge Files
Via Merge Files kun je bestanden samenvoegen. Dat kan op twee manieren, namelijk via
Merge Files, Add Cases
Merge Files, Add Variables
|
Merge Files, Add Cases
De volgende stappen zijn te onderscheiden
De voorbereiding
Als afgenomen vragenlijsten handmatig moeten worden ingevoerd is het soms handig als dat door meerdere mensen tegelijk wordt gedaan. Zeker voor projectgroepen is dat het geval. De werkwijze is dan de volgende:
- zorg er voor dat het codeboek af is en geen fouten bevat;
- kopieer het databestand net zo vaak als nodig is om iedereen gelijktijdig te kunnen laten invoeren;
- zorg er voor dat elk databestand een andere naam heeft (Dit is overigens voor SPSS niet nodig, maar werkt wel handiger.);
- zorg er voor dat alle vragenlijsten genummerd zijn en wijs iedereen die invoert een reeks met nummers toe van de vragenlijsten die moeten worden ingevoerd;
- laat iedereen zijn of haar cases invoeren in zijn of haar databestand;
- maak voor de zekerheid van elk bestand een reservekopie.
Nu kan men aan de slag met het samenvoegen in SPSS
In het voorbeeld wordt gewerkt met drie losse bestanden: mergebestand_1.sav , mergebestand_2.sav en mergebestand_3.sav .
Open mergebestand_1.sav in SPSS
Je ziet dat er slechts 7 cases zijn.
Kies dan voor Data, Merge Files en
Add Cases.
Opmerking
In de kolom bij segment zijn nu de valuelabels te zien. Als je
wilt switchen tussen valuelabels en values kan dat via
View -> Values Labels,
of via de knop
.
Je krijgt het volgende scherm:
Browse naar mergebestand_2.sav en klik op Continue.
Opmerking: Je kunt ook eerst mergebestand_2.sav openen, dan staat het bestand bij "An open dataset". Zelf vind ik dat prettiger werken. Per saldo zijn er dan twee databestanden actief.
Resultaat
Het resultaat is onderstaand scherm:
Hierin is te zien dat
- alle variabelen in beide bestanden voorkomen;
- dat alle variabelen gebruikt worden voor het nieuwe samengevoegde bestand;
- dat alle variabelen een identieke codering hebben, waardoor het samenvoegen goed gaat.
Klik dan op OK.
Een uitsnede uit het datascherm:
Je ziet dat er drie cases toegevoegd zijn aan het databestand.
Bovendien is de controle op het op de juiste wijze samenvoegen van de databestanden eenvoudig, doordat er gewerkt is met respondentennummers.
Voeg op dezelfde wijze mergebestand_3.sav toe aan het actieve
databestand.
Sla het samengevoegde bestand nu op onder een gepaste naam.
Hier is
mergebestanden_totaal.sav
gebruikt.
Merge Files, Add Variables
Als er variabelen worden toegevoegd, verrijk je als het ware de data. Je voegt dan data van verschillende databestanden samen tot één bestand. Bijvoorbeeld een databestand met antwoorden uit een vragenlijst met een databestand met achtergrondvariabelen, zoals sociaalgeografische data.
Belangrijk is hierbij dat je weet hoe deze data aan elkaar gekoppeld moeten worden. Daarvoor moeten er in elk bestand een of meer sleutelvariabelen zijn opgenomen; de zogenaamde Key Variables.
In dit voorbeeld worden twee databestanden gebruikt: mergebestand_4.sav en mergebestand_5.sav . Beide bestanden moeten in SPSS worden geopend. In de screenshots wordt hier ook van uitgegaan.
Het is altijd verstandig beide bestanden goed te bestuderen, voordat ze worden samengevoegd
mergebestand_4.sav | mergebestand_5.sav |
Beide databestanden bevatten een variabele 'respnr', de andere variabelen verschillen.
De variabele 'respnr' gaat gebruikt worden om de databestanden te koppelen. Hierbij is het essentieel dat de definities van 'respnr' in beide bestanden exact gelijk zijn. Dat betreft Variable Name, Type en Width.
Maak mergebestand_4.sav het actieve databestand en ga naar Merge Files via Data, Merge Files en Add Variables.
Selecteer mergebestand_5.sav en klik op Continue.
Selecteer respnr(+) en zet deze bij Key Variables.
Je ziet dan tevens dat respnr(*) verdwijnt uit het rijtje onder New
Active Dataset.
Daarna kan er op OK worden geklikt.
Voor de volledigheid een uitsnede uit het resulterende databestand.
Enkele opmerkingen
-
Aan elke case in mergebestand_4.sav, waarvoor er een
respnr is, zijn de corresponderende gegevens uit
mergebestand_5.sav toegevoegd. Hier is echter niet het
gehele mergebestand_5.sav gebruikt.
-
Als je mergebestand_5.sav had willen verrijken, had je
voor de optie 'Active dataset is keyed table' moeten kiezen.
-
In beide
gevallen heeft het samengevoegde bestand de naam van het actieve
bestand, hier mergebestand_4.sav. Sla het bestand onder een andere
naam op als je het oorspronkelijke bestand wilt bewaren. Beter is
het om al van tevoren een kopie te maken en hieraan de variabelen
toe te voegen.
-
Als je beide databestanden helemaal wilt samenvoegen,
moet de optie 'Both files provide cases' gekozen worden. Tevens had er dan een vinkje gezet moeten worden bij
'Cases are sorted in order of key variables in both
datasets'. Hierbij is het dus noodzakelijk dat er in beide
bestanden op gelijke wijze gesorteerd is op de variabele
'respnr'.
Sla na het sorteren beide bestanden overnieuw
op, daarna kan de merge uitgevoerd worden!
-
In versie 23 hoeft er bij eerste twee opties om
variabelen toe te voegen niet gesorteerd te worden op de key
variabele. In eerdere versies moet er per se wel
eerst gesorteerd worden.
- Bij grote bestanden zou ik altijd sorteren op de key variabele(n) en een vinkje zetten bij 'Cases are sorted in order of key variables in both datasets'. Dat versnelt volgens mij het samenvoegen.