Er de fleste forskningsresultater forkerte?

26/03/2001

★★★★★Rating: 4.22 (6727 votes)

Forestil dig, at du læser en overskrift om et nyt, revolutionerende sundhedsfremmende middel eller en banebrydende medicinsk opdagelse. Det vækker håb og nysgerrighed. Men hvad nu hvis der var en betydelig statistisk sandsynlighed for, at netop den opdagelse, du læser om, er forkert? Dette er den provokerende påstand fra John P.A. Ioannidis, en professor fra Stanford University, hvis artikel fra 2005 med titlen "Why Most Published Research Findings Are False" sendte chokbølger gennem det videnskabelige samfund. Dette handler ikke om konspirationsteorier eller bevidst svindel, men om de indbyggede matematiske og menneskelige svagheder i den måde, forskning ofte udføres og publiceres på.

Is Ionnidis a good scientist? — While the general arguments in the paper recommending reforms in scientific research methodology were well-received, Ionnidis received criticism for the validity of his model and his claim that the majority of scientific findings are false. Responses to the paper suggest lower false positive and false negative rates than what Ionnidis puts forth.

Indholdsfortegnelse

Hjertet af Problemet: En Formel med Store Konsekvenser
Den Menneskelige Faktor: Når Bias Forvrænger Alt
Seks Faktorer, der Gør Forskning Mindre Pålidelig
Debatten om Ioannidis: Er det Virkelig så Slemt?
Vejen Frem: Hvordan Gør Vi Forskningen Mere Pålidelig?
- Ofte Stillede Spørgsmål (FAQ)

Hjertet af Problemet: En Formel med Store Konsekvenser

For at forstå Ioannidis' argument må vi se på begrebet "Positive Predictive Value" (PPV). I enkle vendinger betyder PPV: Hvis et studie finder en positiv effekt (et "ja"), hvad er så den reelle sandsynlighed for, at effekten faktisk eksisterer? Ioannidis bruger Bayes' teorem til at vise, at denne værdi ofte er overraskende lav. Værdien afhænger af tre centrale faktorer:

Præ-studie Sandsynlighed (P(True)): Hvad er chancen for, at en hypotese er sand, før studiet overhovedet er udført? I mange felter, hvor forskere leder efter helt nye sammenhænge, er denne sandsynlighed i sagens natur lav. De fleste nye ideer viser sig at være forkerte.
Statistisk Styrke (Power): Et studies evne til korrekt at identificere en effekt, hvis den findes. En lav styrke (ofte forårsaget af for små studier) betyder, at man risikerer at overse en sand effekt (en falsk negativ). Standardmålet er ofte 80% styrke.
Signifikansniveau (α): Risikoen for at finde en effekt, der ikke eksisterer (en falsk positiv). I de fleste videnskaber er standarden sat til 5% (α = 0.05), hvilket betyder, at man accepterer en 1 ud af 20 chance for at tage fejl på denne måde.

Selv med de standardiserede værdier for styrke og signifikansniveau, kan resultatet være nedslående. Hvis den indledende sandsynlighed for, at en hypotese er sand, er lav (f.eks. 10%), er PPV'en for et positivt resultat kun omkring 64%, selv uden at medregne andre problemer. Det betyder, at der stadig er en 36% chance for, at det positive resultat er forkert.

Den Menneskelige Faktor: Når Bias Forvrænger Alt

Ioannidis' model bliver endnu mere pessimistisk, når han introducerer en faktor for 'bias' (u). Bias er ikke nødvendigvis bevidst snyd. Det repræsenterer den samlede effekt af forskeres pres for at publicere, deres ønske om at bekræfte egne ideer, fleksibilitet i dataanalyse og selektiv rapportering af de mest flatterende resultater. Dette kan inkludere:

At afprøve mange forskellige statistiske analyser og kun rapportere den, der giver et "signifikant" resultat.
At udelade data, der ikke passer ind i den ønskede fortælling.
At justere hypotesen efter at have set dataene (også kendt som HARKing: Hypothesizing After the Results are Known).

Når bias er til stede, falder den positive prædiktive værdi drastisk. I et ekstremt tilfælde, hvor et resultat kun publiceres på grund af bias, er sandsynligheden for, at det er sandt, ikke højere end den oprindelige, lave præ-studie sandsynlighed. Forskerens arbejde har i så fald ikke tilføjet nogen reel viden.

Seks Faktorer, der Gør Forskning Mindre Pålidelig

Ioannidis opstiller seks konkrete faktorer, der øger sandsynligheden for, at et forskningsresultat er forkert. Disse fungerer som en tjekliste for kritisk tænkning, når man vurderer ny forskning:

Jo mindre studierne er:Små studier har lav statistisk styrke og er mere sårbare over for tilfældigheder. Et overraskende resultat i et studie med kun 20 deltagere er langt mindre troværdigt end det samme resultat i et studie med 2000 deltagere.
Jo mindre effektstørrelserne er: Hvis en behandling kun har en meget lille, subtil effekt, er den svær at skelne fra statistisk støj. Store, tydelige effekter er lettere at bekræfte og er mere tilbøjelige til at være sande.
Jo større antal testede sammenhænge der er: Hvis forskere tester hundredvis af mulige sammenhænge (f.eks. sammenhængen mellem 50 forskellige fødevarer og 10 forskellige sygdomme), vil de næsten med sikkerhed finde nogle "signifikante" resultater alene ved et tilfælde.
Jo større fleksibilitet i design og analyse: Når forskere har frihed til at ændre definitioner, målemetoder eller analyseplaner undervejs, åbner det døren for ubevidst (eller bevidst) at "fiske" efter positive resultater.
Jo større finansielle og andre interesser:Finansielle interesser fra medicinalindustrien eller pres for karrierefremgang kan skabe et stærkt incitament til at finde og publicere positive resultater, uanset om de er sande.
Jo "hottere" et forskningsfelt er: I meget konkurrenceprægede felter, hvor mange forskerhold kæmper om at være de første til at publicere, kan der blive skåret hjørner. Hastværk og et ønske om at skabe sensationelle overskrifter kan gå ud over den videnskabelige grundighed.

Debatten om Ioannidis: Er det Virkelig så Slemt?

Ioannidis' arbejde blev mødt med både anerkendelse og kritik. Hans overordnede budskab og advarsler er i dag bredt accepteret og har været en drivkraft bag den såkaldte "replikationskrise", hvor mange anerkendte studier ikke har kunnet gentages med samme resultat. Dette har ført til en bevægelse for mere robust og gennemsigtig videnskab, ofte kaldet metavidenskab.

Kritikere har dog påpeget svagheder i hans model. Nogle, som statistikerne Goodman og Greenland, anerkendte hans konklusioner, men kaldte hans sprogbrug "dramatisk" og "overdrevet". Andre, som Jager og Leek, argumenterede for, at hans model var baseret på antagelser frem for empiriske data. Deres egen analyse af biomedicinske studier estimerede en falsk-positiv rate på omkring 14% – et alvorligt problem, men langt fra de "over 50%", som Ioannidis' titel antyder.

Pointen er dog ikke, om det præcise tal er 14% eller 51%. Pointen er, at der er et systemisk problem. Debatten, som Ioannidis startede, har tvunget forskningsverdenen til at se sig selv i spejlet og anerkende, at den nuværende model med fokus på sensationelle, enkeltstående studier er skrøbelig.

Vejen Frem: Hvordan Gør Vi Forskningen Mere Pålidelig?

Den gode nyhed er, at bevidstheden om disse problemer har ført til konkrete forslag til forbedringer. Mange af disse løsninger sigter mod at modvirke de bias og svagheder, Ioannidis identificerede:

Forhåndsregistrering af studier: Forskere publicerer deres hypotese, studieopbygning og analyseplan, før de indsamler data. Dette gør det umuligt at "fiske" efter resultater eller ændre hypotesen undervejs.
Større samarbejder: I stedet for at mange små, underdimensionerede studier konkurrerer, opfordres der til større, internationale samarbejder, der kan producere mere statistisk robuste resultater.
Fokus på replikation: Videnskabelige tidsskrifter og bevillingsgivere begynder at værdsætte replikationsstudier højere – altså studier, der har til formål at gentage og verificere tidligere fund.
Datadeling: Ved at gøre rådata offentligt tilgængelige kan andre forskere verificere de oprindelige analyser og teste alternative hypoteser.
En ny publiceringskultur: En bevægelse væk fra det simple "p < 0.05" som den eneste målestok for succes. I stedet lægges der mere vægt på effektstørrelser, metodens kvalitet og gennemsigtighed.

Ofte Stillede Spørgsmål (FAQ)

Betyder det her, at vi ikke kan stole på videnskab?

Nej, tværtimod. Videnskabens største styrke er dens evne til at korrigere sig selv. Den intense debat, som Ioannidis' artikel startede, er et bevis på en sund videnskabelig kultur. Det betyder dog, at vi som læsere skal være kritisk bevidste og forstå, at videnskab er en langsom, iterativ proces – ikke en samling af endegyldige sandheder. Et enkelt studie er sjældent det sidste ord.

Gælder dette for alle forskningsområder?

Problemerne er sandsynligvis mest udbredte i felter med små effektstørrelser, stor fleksibilitet i metoder og intens konkurrence, såsom visse grene af medicin, ernæringsvidenskab og psykologi. Felter som fysik, hvor målinger ofte er ekstremt præcise og teorier kan testes under meget kontrollerede forhold, er sandsynligvis mindre påvirkede.

Hvad kan jeg som lægmand gøre?

Vær skeptisk over for bombastiske overskrifter baseret på et enkelt studie, især hvis det er et lille studie. Se efter videnskabelig konsensus, som ofte kommer til udtryk i systematiske oversigtsartikler (reviews) og metaanalyser, der sammenfatter resultaterne fra mange studier. Forstå, at nye, dramatiske fund skal bekræftes over tid, før de kan betragtes som veletableret viden.

John Ioannidis' arbejde var et nødvendigt wake-up call. Selvom det præcise omfang af problemet stadig debatteres, afslørede han de systemiske sprækker i fundamentet for, hvordan videnskab bliver udført, finansieret og publiceret. Heldigvis har denne erkendelse sat gang i en reformbevægelse, der stræber efter at gøre fremtidens forskning mere gennemsigtig, robust og i sidste ende mere troværdig. Målet er ikke at miste troen på videnskaben, men at gøre den endnu bedre.

Hvis du vil læse andre artikler, der ligner Er de fleste forskningsresultater forkerte?, kan du besøge kategorien Sundhed.