När man läser en studie där man jämför olika typer av träningsformer eller behandlingsmetoder så stöter man ofta på p<0,05 eller p<0,01. Signifikantnivå är helt enkelt ett värde för hur stor sannolikheten är att man gjort fel. Om man använder 0,05 så är 95 % sannolikhet att det man påvisat stämmer och det finns således en risk på 5 % att det man kunnat påvisa i studien inte stämmer på en större grupp med liknande försöksobjekt (när detta sker kallar man det för ett typ I fel).
Valet av nivå är egentligen helt godtyckligt, men majoriteten av de studier man ser använder sig av p<0,05 som standard och p<0,01 används i undantagsfall. Den nivå man använder sig av kallar man för alpha nivå alternativt signifikansnivå.
Försöksgruppernas inverkan
Det finns tre faktorer när man ser till försöksgrupperna som påverkar hur lätt det är att urskilja en skillnad mellan två grupper i en studie. Dessa tre faktorer måste man ta i beaktande när man ska försöka få ut något praktiskt av ett resultat från en studie. Jag kommer i detta inlägg att gå igenom de olika faktorer och berätta varför man måste tänka på dem när man tolkar en studies resultat.
Storleken på försöksgrupperna
Desto större försöksgrupper desto bättre är det. Särskilt vid randomisering så är det bra med stora försöksgrupper då risken är väldigt liten att att grupperna ska skiljas sig åt beroende på slumpen.
Det finns dock fall då en stor försöksgrupp kan vilseleda tolkningen av resultatet om man inte tänker till. Bara för att det finns en signifikant skillnad mellan två olika grupper så betyder inte detta att resultatet är något praktiskt användbart. Detta måste man tänka på extra mycket när försöksgrupperna är stora för när man har många försökspersoner är sannolikheten hög att man kommer kunna påvisa väldigt små skillnader i effekt.
Som exempel kan vi ta intervaller kontra kontinuerlig konditionsträning för att gå ner i vikt. Det är väldigt vanligt att man stöter på folk som säger att intervaller är bättre för att gå ner i vikt då man kunnat påvisa en signifikant skillnad mellan de två träningsformerna i flera studier. Det som dem inte vet eller väljer att utelämna är att det i alla dessa studier är väldigt lite viktnedgång vi talar om.
Som exempel på en praktiskt oväsentlig skillnad kan man ta Tremblays studie från 1994 (dock var det små försöksgrupper i denna studie) som man ofta se refererad i samband med ett påstående om att intervaller är 3 gånger (ibland till och med 9 gånger) bättre än kontinuerlig träning. Intervallgruppen gick i denna studie ner 0,5 kg på 20 veckor. Det fanns en signifikant skillnad mellan grupperna, men rent praktiskt så bör man nog fokusera på något annat om man vill gå ner i vikt.
Skillnaden mellan försöksgrupperna
Ibland stöter man på studier där försöksgruppen och kontrollgruppen skiljer sig åt redan från utgångsläget. Detta leder till att det blir svårt att dra några slutsatser från resultatet. Folk reagerar annorlunda på olika interventioner beroende på ålder, träningsstatus, sjukdomar, kön, livsstil etc..
Det är tex lättare att gå ner 10 kg om man har 30 kg övervikt än om man har 10 kg övervikt. När grupperna är mindre händer det ibland att slumpindelningen leder till att dessa skillnader uppstår och det gäller därför att ta dem i beaktande när man tolkar resultatet.
Variationen i försöksgrupperna
En stor variation i deltagarnas förutsättningar kan göra att man får vilseledande resultat. Om man tex tar en stor grupp människor med varierande ålder, säg 18-65, där medelåldern är 40 år och låter dem promenera 45 minuter 5 gånger i veckan. I resultatet ser man en hel del positiva värden när man tittar på hela gruppen och slutsatsen blir att om alla människor hade promenerat regelbundet så hade hälsan varit större hos den arbetande befolkningen.
Detta är ett helt korrekt påstående, men samtidigt så betyder det inte att några kvällspromenader i veckan kommer leda till några tydliga hälsoförbättringar för dig om du är 20 år och redan tränar regelbundet. Subgruppen med 20 åringar som redan tränade kanske inte fick någon förbättring av interventionen men detta doldes av det faktum att andra subgrupper förbättrades mycket.
Låt oss återgå till diskussionen med stora försöksgrupper för en stund. Stycket ovan är ett bra exempel på att det finns risker med ha stora försöksgrupper om en större grupp leder till en större variation mellan deltagarna. Det hade i den hypotetiska studien ovan kanske varit bättre att bara ta med folk mellan 50-65 och nöjt sig med en mindre försöksgrupp. Eller varför inte ta med alla i studien men analysera grupperna var för sig. Oftast är det så man gör men ibland stöter man på studier där alla subgrupper slås ihop till en stor grupp för att man ska kunna påvisa ett resultat.
Mängden test i studien
Det är vanligt att man stöter på studier där det görs väldigt många test för signifikans. Det kan tyckas att det inte spelar någon roll hur många test som blivit utförda men faktum är att ju fler test man utför desto större är risken att man kommer hitta en skillnad som faktiskt inte finns. Faktum är att risken ökar exponentiellt. Om man utför 10 test är risken över 40 % att man kommer få ett typ I fel. I längden spelar detta kanske mindre roll om man utför flera likvärdiga studier men tyvärr är det väldigt sällan som detta görs inom träningslära och träningsfysiologi.
Det är inte så ovanligt att man stöter på studier, sponsrade av diverse kosttillskottsföretag, där en av försöksgrupperna fått ta en av kosttillskottsföretagets produkter och därefter har man utvärderat resultatet med en 15-20 signifikanstest och när man sen ska marknadsföra produkten så väljer man naturligtvis att redogöra för de testerna som visat på positiva resultat. Det dem väljer att inte berätta är att då de har gjort 15-20 signifikanstest så är sannolikheten att de hittat en signifikant skillnad, mellan grupperna som egentligen inte finns, över 55-65 %, dvs större än att singla slant.
Den matten du redovisar i exemplet med ökad risk för signifikansskillnad i resultatet efter många studier kanske jag inte förstår till fullo men jag litar ändå på ditt kunnande efter civilingenjörsexamen. Er blogg har verkligen fått mig att förstå vikten av kritiskt tänkande. Är tacksam att ha fått upp ögonen för detta redan vid 19-års ålder.
Vilket fint sätt att förklara grunderna på ren svenska!!! En kort kommentar till förhöjd sannolikhet till typ I fel vid flera tester, det går att motarbeta med att använda Bonferroni-korrigering. Tyvärr är det alldeles för sällan forskarna kommer på det.
Problemet med multipla jämförelser och hur man hanterar problemet brukar ingå i grundkursen i statistik så i stort sett alla forskare är medvetna om problemet, men det är inte alltid som man tar hänsyn till det. Bonferroni anses av många som onödigt konservativ, dvs risken är stor att man missar skillnader som faktiskt är signifikanta på en rimlig nivå.
P-värden är svårbegripliga, även för forskare och metodlärare.. Det som p-värdet betyder är sannolikheten för data. eller mindre sannolika data, givet att noll-hypotesen är sann. Vanliga missuppfattningar är att p-värdet berättar sannolikheten för noll-hypotesen eller alternativhypotesen , vilket inte är fallet. Ej heller sannolikheten för replikation.. bifogade artikel är belysande http://www.metheval.uni-jena.de/lehre/0405-ws/evaluationuebung/haller.pdf
Hej, det första som du skriver (Om man använder 0,05 så är 95 % sannolikhet att det man påvisat stämmer och det finns således en risk på 5 % att det man kunnat påvisa i studien inte stämmer på en större grupp med liknande försöksobjekt) stämmer inte riktigt. P=0,005 innebär inte att det är 95% chans att sambandet är sant. Det innebär att om undersökningen återupprepas under exakta förhållanden så kommer vi i 5 fall av 100 inte kunna förkasta nollhypotesen. (Se Att börja forska – inom medicin och vårdvetenskap, s181).
En förenklad (och rolig) illustration av typ I och typ II fel 🙂
http://marginalrevolution.com/marginalrevolution/2014/05/type-i-and-type-ii-errors-simplified.html
[…] att man får ett positivt resultat som beror på slumpen. Jag har skrivit mer om det i inlägget Signifikant skillnad, vad betyder det rent praktiskt? om du vill veta mer. Här behöver du bara veta att många test gör att de få signifikanta […]
[…] Det mesta annat som man undersökte hos deltagarna förbättrades dock också för deltagarna som inte gick ner något i vikt. Bland annat var där en liten men signifikant sänkning av fasteblodsocker och fasteinsulin samt en förbättring av HOMA-IR som är ett mått på insulinresistens. Här finns dock ett problem i att man i den här studien utför väldigt många så kallade signifikanstest. Om du utför många test av den här typen utan korrigera för det så kommer du med hög sannolikhet att få ett eller flera signifikanta resultat endast på grund av slumpen, Signifikant skillnad, vad betyder det rent praktiskt?. […]