Logo

eugenik.dk

Om race-hygiejne og IQ-forskning

Validate

Skanderborg III. Er kvinder dummere end mænd? Næh.

3. august 2013

I dette blogindlæg skal vi atter kigge lidt nærmere på Nyborgs data fra Skanderborg-projektet, hvorpå han byggede påstanden om kvinders angiveligt lavere intelligens, en påstand han siden bevidstløst har gentaget som et uomtvisteligt faktum. Og hvis man modsiger ham, er man medlem af en uhyggelig marxistisk/politisk korrekt sammensværgelse, der blot har til hensigt at stække hans akademiske ytringsfrihed.

Nyborg fokuserer stort set udelukkende på den såkaldte g-faktor, en statistisk størrelse som kan udregnes af intelligenstests (eller andre tests) fra en gruppe af personer — den kan ikke bestemmes fra en enkelt person. Enkelte psykologer lægger en meget stor betydning i denne statistiske størrelse, som de tror er et mål for en eller anden indre, uforanderlig og genetisk arvelig egenskab. Nyborgs beregninger, som resulterede i det såkaldte "loading af køn på g på 0.27" — de berømte 27% — er meget uinteressante for alle andre end følgere af denne g-religion. Derfor vil vi udelukkende analysere Nyborgs data på mere traditionel vis, som er langt lettere forståelig, og som i sidste ende viser helt det samme som Nyborgs resultater... uden at gå omvejen omkring den besynderlige g.

For at slå syv kors for mig, i tilfælde af, at nogen tror det er løwn at g-faktor beregningen er overflødig, se da hvad det sagkyndige udvalg skrev i DSUR (side 16, øverst):

»Nyborg seems to think that when using the g-factor and somehow correlating this with the differences in the means of the test variables the above mentioned problems have been avoided. However, the method used by Nyborg based on the point biserial correlation inserted in the correlation matrix reduces approximately to a weighted sum of the effect sizes d. «

Derfor vil vi nu kigge på Nyborgs data omregnet til de såkaldte effect sizes, som er ret lette at forstå. Man starter med filen Adult_sex.xls, som indeholder Nyborgs rå testdata for 62 forsøgspersoner, kategoriseret som "voksne" (men som reelt stammer de fra to forskellige grupper 16-18 årige skoleelever), her afbildet i tabel 5.

Man kan se i tabel 5, at point-givningen i de forskellige tests er ret forskellig. Nogle tal, i test 7 og 8, er noget med hundrede, og tests 1-4 har negative pointtal. Tests 9-20 (som er de standardiserede WAIS intelligenstests) har typisk point af størrelsen 0-20.

For hver IQ-test (hver søjle i tabel 5) beregner man nu gennemsnittet, og dette gennemsnit trækkes fra alle scores i søjlen. Dernæst udregnes standard-afvigelsen af hver søjle, og alle scores i søjlen divideres med denne værdi.

Resultatet af denne beregning er en ny tabel (tabel 6), hvor alle tests har middelværdien nul og spredningen 1; de er nu omregnet til de såkaldte effect sizes. Pointene fra de enkelte tests er med andre ord på samme skala, de forskellige tests kan nu sammenlignes, og man kan beregne en gennemsnits-score for hver forsøgsperson.

Vi kan således nu analysere disse gennemsnitsscores som hver person opnår. I første omgang er det god praksis at lave et såkaldt boxplot af sine data, så kan man få et hurtigt overblik over, om der er noget underligt ved ens data. Et sådant boxplot ses i figuren til højre. Til venstre i figuren ses mændenes gennemsnits-score (hvis man kan kalde 16-årige for "mænd"), scoren for hver person er markeret med en blå prik. Højden angiver hvor god en score drengen har fået, jo højere på grafen, jo bedre score. Til højre ses en tilsvarende analyse af pigernes score.

Det der er afbildet i den grå boks er alle der ligger i 2. og 3. kvartil, og de punkter der ligger uden for, hører enten til den eller den dårligste fjerdedel. Den mørke tværstreg angiver medianen som i dette tilfælde er den score, som halvdelen ligger over og halvdelen ligger under.

Figuren viser ret tydeligt, at pigernes fordeling ser lidt underlig ud. Der er en stor hale af piger, som har et dårligt gennemsnit. Tilmed er pigernes fordeling "skæv", hvorimod drengenes — som man ville forvente — er mere symmetrisk. Der er tilsyneladende noget galt med Nyborgs pigegruppe. Den er ikke repræsentativ.

Så ta'r vi til Monte Carlo!

I eksperimentet udvælges 10.000 gange tilfældigt 2 grupper på hver 31 personer, og forskellen i gennemsnitsscore beregnes. Værdien t langs x-aksen er et udtryk for sandsynligheden af den observerede forskel i gennemsnitsscore på de to permuterede grupper af forsøgspersoner, hvis hypotesen er, at de er ens. Der er flest simuleringer der lander omkring t=0, hvilket svarer til en sandsynlighed på 50%. De grupper der ligger længst til højre, er parvis næsten ens (de opstår ikke så ofte), så sandsynligheden for at tilbagevise hypotesen er meget lille. Og de grupper, der ligger længst til venstre, er mest forskellige (de opstår heller ikke så ofte). Sammenligningen af 31 drenge og 31 piger er markeret med en prik (alle andre 9999 grupper består af en blanding af drenge og piger.) For dem kan man tilbagevise, at de har samme gennemsnit med en sikkerhed på 90%, men det er altså ikke nok til at kalde det statistisk signifikant. Mange af de "tilfældige" grupper ligger faktisk længere til venstre.

Når man har gruppe-opdelte data som i dette tilfælde, hvor vi har to grupper, kan man lave en såkaldt en Monte Carlo simulering, hvor man tilfældigt tilordner forsøgspersonerne i de to grupper. Der er én og kun én måde at opdele forsøgspersonerne på, så alle drengene er i én gruppe og alle pigerne er i en anden. Vi kan undersøge hvordan beregningen forløber, hvis vi undersøger en hel masse andre grupper af 31 + 31 forsøgspersoner, som så altså vil indeholde både drenge og piger.

Resultatet af en kørsel, hvor der sammenlignes 10.000 par af to grupper med 31 personer i hver, kan ses til højre. Den sorte prik viser den værdi, som fås når man sammenligner Nyborgs grupper af 31 drenge med 31 piger. Konklusionen af kørslen er, at 10.6% (two-tailed) af kørslerne består af to grupper, som er indbyrdes mere forskellige i deres gennemsnitlige score end Nyborgs grupper er. Standarden er, at man skal under en værdi på 5% for at man kan betragte resultaterne som statistisk signifikante.

Resultatet kan faktisk checkes ved at foretage en enkelt t-test, som giver en p-værdi på 0.1033.Dette er (igen) større end 0.05, og forskellen i scores på drenge- og pigegruppen er altså ikke signifikant.

Hvordan man snyder med signifikansen

Det er uklart hvorledes Nyborg har beregnet den p-værdi på g-faktor loading på køn der citeres under tabel 1 i 2005 artiklen ("Significant at p (one-sided) = .016"). Men bemærk, at Nyborg har valgt den såkaldte "one-sided" statistiske test. Den har den for Nyborg behagelige kvalitet, at den er præcis halvt så stor som den "two-tailed" alle andre bruger. De eneste tilfælde, hvor det er relevant at bruge en "one-tailed" statistik er hvis man med usvigelig sikkerhed véd, at man måler en forskel som er positiv. Det kunne f.eks. være, at man måler en afstand, som af gode grunde ikke kan være negativ. I så tilfælde er det relevant at benytte en "one-sided" statistik, ellers ikke.

Når Nyborg benytter en "one-sided" statistik betyder det, at han på forhånd antager, at kvinder er dummere end mænd, det er kun et spørgsmål om hvor meget.

Kan det ikke være ligemeget med den signifikans?

Hvad så med den signifikans, om den er 5% eller 10% kan det ikke være ligemeget? Der er vel noget om det alligevel? Der er ingen tvivl om, at drengegruppen scorer bedre end pigerne?

Det er rigtigt at drengegruppen scorer bedre. Og det p-værdien siger er, at man med en lille sandsynlighed (ca. 10%) vil tage fejl når man siger at forskellen mellem drenge og piger ikke er tilfældig.

Lad så det være det. Signifikansen er trods alt blot et spørgsmål om Nyborg kan drage de konklusioner han ønsker at drage i hans lille sample på 62 personer. Noget andet er, når Nyborg dernæst vil påstå, at resultatet er repræsentativt for hele befolkningen. Alle kender politiske meningsmålinger. Til disse anvendes typisk ca. 1000 personer, og det giver det der kaldes en statistisk usikkerhed på ca. 3%. Man kan selv regne tallet ud... det er rundt regnet kvadratroden af 1000 divideret med 1000. På samme måde er Nyborgs undersøgelse af 62 forsøgspersoner belagt med en statistisk usikkerhed, når han forsøger at sige noget om hele befolkningen.

I artiklen fra 2005 (tabel 1) oplyses det, at den gennemsnitlige effekt-størrelse er 0.21, hvilket svarer til en gennemsnitlig IQ forskel på drenge- og pigegruppen på 3.15, til drengenes fordel. Men Nyborg undlader bekvemt at beregne konfidens-intervallet på effekt-størrelsen, så det gør vi da bare, for konfidens-intervallet indregner nemlig den statistiske usikkerhed på den meget lille gruppe af 62 forsøgspersoner:

All 20 tests:
average effect size: 0.2127563
average IQ equivalent: 3.191345
95% confidence interval of effect size: -0.2888424  < d <  0.7143551
95% confidence interval of IQ equivalent: -4.332636  < IQ <  10.71533

Ønsker man at udtale sig om hele befolkningen, som Nyborg jo gør, kan han kun hævde, at forskellen på mænd og kvinders IQ ligger på mellem ca -4.3 og 10.7. Alså igen: Er kvinder dummere end mænd? Næh. Nyborg har ikke bevist noget som helst.


Permalink