Screening mot skador är svårt

Screening mot skador är svårtNY Times hade för några dagar sen en längre artikel kring en ny väldigt stor studie som visat att mammografi på alla kvinnor över 40 inte verkar minska risken för att kvinnor ska dö i bröstcancer, Vast Study Casts Doubts on Value of Mammograms.
Det är en väldigt intressant artikel med många bra punkter som belyser varför screening nuförtiden kanske inte hjälper något. Bland annat tar man upp att dagens behandling hos de som får cancer är så mycket bättre så det är inte samma fara med att hitta bröstcancer lite senare.
Om du är intresserad av just frågan screening för bröstcancer så rekommenderar jag dig att läsa artikeln. Jag tänkte dock använda artikeln bara som ett litet intro till ett kort inlägg om varför det är väldigt svårt att ta fram någon form av bra screeningverktyg överlag.

Specifikt och sensitivt

Ett screeningverktyg är till för att sålla ut en specifik del av en population. I den processen behöver man känna till och förstå betydelsen av två väldigt viktiga termer. Dessa två termer är specificitet och sensitivitet.

Specificitet

Specificitet beskriver verktygets förmåga att inte ta med fall som du inte söker efter. En perfekt specificitet skulle innebära att du med all säkerhet inte får med någon annan än de fallen som du säker efter. Men det betyder inte att du hittar alla fall som du söker efter!
Om du till exempel vill hitta människor som är överviktiga kommer du garanterat att ha rätt i alla dina val om du sätter gränsen vid 150 kg. Men du kommer ju då också att missa väldigt många andra överviktiga som väger mindre än 150 kg.

Sensitivitet

Sensitivitet handlar istället om hur bra verktyget är på att hitta de fallen som som du verkligen vill hitta. En perfekt sensitivitet hittar alla fall som du söker efter, men kan även få med fall som du inte vill hitta.
Om vi fortsätter med exemplet på övervikt så hade du kunnat sätta gränsen för övervikt vid BMI 20. Då kommer du garanterat att få med alla överviktiga i kategorin överviktiga. Men samtidigt kommer du ju också få med en väldig massa andra människor som egentligen inte är överviktiga vid ditt test.
Det du egentligen vill har är alltså ett test med hög sensitivitet och hög specificitet. Då kommer du att hitta alla överviktiga samtidigt som du inte får med personer som egentligen inte är överviktiga. När det gäller övervikt så är bästa testet för detta att mäta mängden kroppsfett direkt.

Olika scenarion lägger olika vikt vid sensitivitet och specificietet.

Vill du till exempel undersöka om en viss dos av ett läkemedel är dödligt så vill du ha en maximal sensitivitet även på bekostnad av specificiteten. Du vill vara säker på att du får med alla dödsfall, även om det innebär att du felaktigt förutspår en dödsrisk hos fall som inte skulle dött.
Låt oss istället säga att du är pizzasugen och du befinner dig i en stad där du vet att du det finns tre pizzerior som har med en massa anmärkningar om hygienen men tio stycken som verkar vara ok. När du då söker efter en bra pizzeria så vill du ett verktyg med en bra specificitet. Du bryr dig kanske inte om att hitta ALLA bra pizzerior, men du vill vara säker på att du utesluter de dåliga.

Exempel med FMS som grund

Som exempel tänkte jag ta FMS (functional movement screen), då screening verkligen är populärt inom fitnessvärlden och FMS nog är den formen av screening som är störst. Det finns många olika studier som har tittat på specificiteten och sensitiviteten och värdena varierar lite från studie till studie. Jag har inget medelvärde som är särskilt rättvist så jag har valt en av studierna som har ett bra värde för att belysa poängen med att screening är svårt. I den här studien utförd i militären fann man en sensitivitet på 0,45 och en specificitet på 0,78 när man använde gränsvärdet 14 poäng (1).
Det betyder att endast 45% av de som verkligen skadar sig kunde förutspås av FMS’en. Hos alla de som inte skadade sig pekade FMS’en felaktigt ut 22% som att de borde ha skadad sig.
Om vi nu tänker oss att vi har 1000 olika militärofficerare som vi testar med FMS. Av dessa säger vi att 100 kommer att bli skadade  Detta motsvarar 10 procent av deltagarna vilket kan vara både högt eller lågt beroende på hur lång tid vi pratar om. Hur som helst så kommer vi med de värden som FMS testet hade i studien få följande resultat.

Att utföra screening för att försöka hitta de som kommer skada sig är svårt
Att utföra screening för att försöka hitta de som kommer skada sig är svårt. Har du får dålig specificitet eller sensitivitet kommer du att få många felaktiga resultat.

Som du kan se så skulle FMS peka ut totalt 243 officerare som i ökad risk för skada samtidigt som 757 officerare kommer att få ett resultat som gör att de anses vara i lägre risk att skada sig.
Tittar vi lite närmare på siffrorna så är det dock så att över 80 procent av de som bedöms vara i risk för skada faktiskt inte kommer att åka på en skada. Och bland gruppen som bedöms vara i lägre risk för skada kommer fortfarande omkring 7 procent att ändå åka på en skada.
Ännu värre är det ju om du som individ skulle testa dig hos någon ”expert” på FMS. Chanserna att testet kommer se att du är i ökad skaderisk är då bara 45 procent. Du har alltså större chans att förutspå att du kommer skada dig om du singlar slant.

Färre skador ger fler falska positiva

Beroende på hur vanliga verkliga skador sen är så kommer de här två procenttalen att variera. Om vi till exempel säger att endast 50 stycken av våra 1000 officerare blir skadade under vår mätperiod så kommer över 90 procent av de som vårt test säger är i ökad risk för skada inte att skada sig. Endast 10 procent av de ”utpekade” kommer alltså verkligen att skada sig. Och bland de som får bra poäng är det nästan 4 procent som fortfarande åker på en skada.

Ju ovanligare det är med en skada desto sämre resultat får du från en screening
Ju ovanligare det är med en skada desto sämre resultat får du från en screening

Ju ovanligare något är desto bättre behöver alltså ett test vara för att det ska vara meningsfullt att göra testet. För ju ovanligare något blir desto fler falska positiva kommer vi att få från ett test. Det här problemet ligger när det gäller i princip alla former av generella screeningtest som för närvarande används både inom idrotten och fitnessvärlden. De är för dåliga. De har för dålig specificitet och för dålig sensitivitet och resultatet blir att värdena inte säger någonting. Särskilt när vi inte ens vet hur vanlig det är med skador överlag inom en väldig massa sporter och ännu mer ”fitnessträning”.

Bästa tänkbara värden för FMS

I det här exemplet tog jag en studie vars testvärde var bra för att belysa poängen med att screening i sig är svårt och det blir svårare och svårare att göra på ett bra sätt om det du försöker finna med din screening är ovanligt.
För att vara lite mer rättvis mot FMS så har jag dock valt att här under lägga in vilka värden vi skulle fått enligt den första fördelningen, alltså 100 skadade av 1000, med de olika värdena för sensitivitet och specificitet som getts i olika studier.

Amerikanska fotbollsspelare och FMS

Den första av studien dök upp 2007 och i denna tittade man på Amerikanska fotbollsspelare (2). Här fann man en specificitet på 0,9 och en sensitivitet på 0,5 vilket ger oss följande värden.

Med högre specificitet blir antalet falska positiva lägre
Med högre specificitet blir antalet falska positiva lägre och testet fungerar lite bättre

Som du kan se blir testvärdena lite bättre här eftersom särskilt specificiteten är högre. Denna studie är utförd av en av grundarna till FMS och den är retrospektiv. Man har alltså först i efterhand tittat på antalet skador och FMS-resultat. Detta är en metod som är väldigt sårbar för bias, alltså att forskarnas förutfattade meningar ska påverka resultatet. Och särskilt när en av grundarna är inblandad i studien får man ta det med en nya salt.
Hade däremot testet visat på samma resultat i andra studier så hade det verkligen varit användbart. För den här formen av gruppering hade du troligen kunnat använda dig av på ett bra sätt om du till exempel tränat lagidrottare och velat träna lite extra med gruppen i högre skaderisk.
På individnivå ser vi dock fortfarande att om någon skulle utföra FMS på dig så är sannolikheten att de ska hitta en verklig skaderisk fortfarande bara 50 procent. Så finns det en risk att du ska skada dig på grund av någon typ av begränsning i ditt rörelsemönster så kommer du ha lika stor chans att finna detta genom att singla slant som att utföra FMS.
Rent teoretiskt så kan givetvis FMS också berätta för dig var den här eventuella begränsningen finns medan en singlad slant givetvis inte bidrar något här. Så det går fortfarande att argumentera för att FMS är bättre än ett mynt. Det finns inga bevis för det men det är ju ändå ett rimligt antagande  🙂

Löpning och FMS

I en annan studie tittade man på 60 stycken löpare och deras risk för att åka på skada (3). Det här är utan tvekan den studie med sämst resultat för FMS och trots att man förändrade den vanliga gränsen med 14 poäng till 17 för att försöka få bättre värden så blev specificitet på 0,42 och en sensitivitet på 0,57. Det ger oss följande tabell.

Trots ändrar gräns blev testvärdena för FMS väldigt dåliga
Trots ändrar gräns blev testvärdena för FMS väldigt dåliga i den här studien

Hos kvinnliga lagidrottare

Den sista studien jag tänkt ta upp är utförd på kvinnliga damidrottare (4). Den här är extra intressant då man i abstraktet till studien nämner att kvinnorna som fick mindre än 14 poäng var i högre risk för skada. Hela 3,85 gånger så hög risk. Det här låter ju väldigt imponerande när man ser siffran så men vi tittar på sensitiviteten och specificiteten istället. Värdena för dessa var 0,58 respektive 0,74 och tabellen blir enligt nedan.

Risk för skada hos de kvinnliga idrottarna enligt FMS
Resultatet för studien med kvinnliga lagidrottare om vi antar att 10 procent av dem kommer skada sig under en mätperiod

Som du kan se är det fortfarande så att över 75 procent av idrottarna som blir utpekade av testet i själva verket inte kommer skada sig. Tittar vi däremot på gruppen som FMS-testet pekar ut som i låg skaderisk så är det faktiskt bara knappt 6 procent som kommer att skada sig. Det låter ju ganska bra men tänker vi på att det ”endast” är 10 procent som skadar sig i hela gruppen i stort så kan man fråga sig om det är en urskiljning värd att fokusera på?

8 svar på “Screening är svårt – FMS som exempel”
  1. Vilket spännande ämne!
    Såg på ”Vetenskapens värld” på SVT häromdagen som handlade om ”framtidens” sjukvård med screening-metoder inbyggda i smartphones etc. Aspekten med falska positiva resultat missade de dock helt, vilket irriterade mig mycket. Som Du påpekar blir detta allvarligare ju ovanligare sak man screenar efter, och så klart också om man göra många screenings ofta!
    Jag kommer också att tänka på säkerhetskontroller på flygplatser. Är ganska säker på att screening används där för att söka efter ”personer med terroristutseende”. Lekte lite med siffror och kom fram till att även om det skulle vara sant att dessa personer är överrepresenterade bland terrorister så skulle minst 99% av alla utpekningar bli fel – helt enkelt för att terrorister är så sällsynta. Och detta gäller även om sensitivitet och specificitet ligger mycket högt.
    I övrigt vill jag bara påpeka att Dina siffror blivit fel i examplet med löparskadorna. Dels verkar Du använt sensitivitet 0.58 samt specificitet 0.43, dels står siffrorna i tabellen i fel kolumn. Som Du presenterar resultaten ser det ut som att det är högre skadefrekvens bland de screenade än bland de ”friade”. Riktigt så dåligt resultat blir det faktiskt inte.
    Tack för ett bra, annorlunda och intressant inlägg!

  2. Inom matematiken talar man om nödvändiga och tillräckliga villkor. Nödvändigt villkor svarar mot perfekt sensitivitet och tillräckligt villkor svarar mot perfekt specificitet. T.ex. är det nödvändigt att ha BMI>20 för att vara överviktig och det är tillräckligt att väga >150 kg för att vara överviktig. Om samma villkor är både nödvändigt och tillräckligt samtidigt talar man om ekvivalens. D.v.s. om man har perfekt sensitivitet och samtidigt perfekt specificitet så är alla resultat perfekta. Energiöverskott och viktuppgång skulle kunna vara ett exampel. D.v.s. det är både nödvändigt och tillräckligt att ha energiöverskott för att gå upp i vikt. Energiöverskott och viktuppgång är ekvivalenta.

  3. Walter Levy:
    D.v.s. det är både nödvändigt och tillräckligt att ha energiöverskott för att gå upp i vikt.

    Inte om man kör LCHF 🙂

  4. Max Mustermann: Inte om man kör LCHF

    🙂 Jo, faktum är att jag kör LCHF och mår fantastiskt på det. Men håller med om att många går vilse i energibalansekvationen, inte minst LCHF:are.

  5. Det var ett bra program, tack för tipset Putte. I hans exempel kring just det här så hade hand dock med en annan form av test där specificiteten och sensitiviteten hänger ihop. Då blir det lättare att förstå och hänga med. Det finns dock en väldig massa test där specificitet och sensitivitet inte är de samma likt FMS här ovanför och då blir matten lite krångligare.

  6. Hej Jacob!
    Ja har en fundering, en klassisk ”screening övning” vid tex fotboll är ju knä kontroll, menar du att det är onödigt att ens utföra det & bör istället lägga tid direkt på övningar för att stabilisera knä-/fotled för att det är bra oavsett ”screening”?
    Tack för svar,
    Mvh /G

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *