Signifikans

Hej!

Jag försöker förstå hur detta med att något är signifikant/statistiskt säkerställt eller inte fungerar. Hur vet man om det är det ena eller det andra?

Har läst må mattebokens hemsida, i min egen mattebok och anteckningar från genomgången i skolan, men jag känner inte att jag förstår mig på hela bilden liksom.

Jag det jag tror jag har förstått är att man vid en viss gräns börjar ifrågasätta om resultaten är helt slumpmässiga. Men det känns väldigt virrigt. Och hur ska man veta var den gränsen går?

Om någon har en bra förklaring till detta hade jag varit väldigt tacksam att få höra om denna :)

Begreppet används inom hypotesprövning och man säger att ett resultat är signifikant om det är osannolikt att nollhypotesen är sann.

Mycket av det som står nedan är överkurs för matematik 1. Det man behöver veta är inte så mycket mer än det som står längst ner om konfidensintervall och signifikans. Jag försöker ge lite mer helhetsperspektiv och hur statistik faktiskt används i forskarvärlden.

Nollhypotesen sätts i motsats till den alternativa hypotes man prövar. Nollhypotesen uttrycker ofta att det inte finns något samband. Hypotesen man prövar, den alternativa hypotesen, säger ofta att det finns ett samband.

Exempel: vi vill undersöka effekten av ett nytt läkemedel. Vår nollhypotes är att läkemedlet inte har någon effekt på det vi försöker bota, och den alternativa hypotesen är att det har en effekt.

Resultatet av ett statistiskt experiment kallas då signifikant om det är osannolikt att nollhypotesen är sann givet resultatet man observerat.

Om t.ex. 99 av 100 personer vi testat läkemedlet på blev botade inom en vecka så är det osannolikt att det inte finns något samband eller att läkemedlet inte har någon effekt. Vi skulle då kalla resultatet för statistiskt signifikant.

När vi säger "osannolikt" så menar vi mer precist att det är relativt en signifikansnivå. Signifikansnivån kan t.ex. vara 5%, 1% eller 0,5%. Detta är någon man som forskare väljer själv, och det görs innan man utför experimentet.

Man kan tänka på signifikansnivån som hur stor chans det är att ens experiment kommer dra felaktiga slutsatser. Signifikansnivån är med andra ord sannolikheten att nollhypotesen förkastas (vi drar slutsatsen att den är falsk) trots att den är sann.

Om signifikansnivån är 5% betyder det att om vi upprepade samma experiment många gånger, så skulle ca. 5% av experimenten komma fram till att det finns ett samband trots att det inte gör det. I vissa situationer kan man tolerera lite högre signifikansnivå (5% är dock den högsta man brukar se), i andra vill man vara mer försiktig och kanske har 0,5%, 0,1% eller 0,05%. Det går dock aldrig att vara helt säker, och därför måste man också acceptera en liten felrisk.

Så: Ett resultat av ett experiment är signifikant om sannolikheten att nollhypotesen är sann givet det resultat man fått (detta kallas för $p$ -värde) är mindre än signifikansnivån (t.ex. $p<5%$ ). Då förkastas nollhypotesen, dvs. man drar slutsatsen att det finns ett samband eller en effekt.

I ett konfidensintervall uppskattar man någon okänd parameter genom att ange ett intervall istället för något specifikt värde. Konfidensintervall har också en associerad sannolikhet, kallad konfidensgrad. Vanligen är detta 95%.

Konfidensgraden säger att om vi fortsätter att upperepa vårt experiment (säg att vi försöker uppskatta vilken medellängd skruvar har som produceras i någon fabrik) många gånger så kommer det verkliga värdet (säg, 38 mm) befinna sig i ca. 95% av dessa intervall vi beräknat baserat på stickprov vi gjort i varje experiment.

Man kan använda konfidensintervall i hypotesprövning. Säg att vi tagit ett stickprov på 50 skruvar och bestämt ett 95%-konfidensintervall för medellängden hos dessa skruvar till att vara mellan 41 - 54 mm.

Om vår nollhypotes var att skruvarna var max 40 mm långa i genomsnitt, ja då kanske vi förkasta vår nollhypotes eftersom vårt konfidensintervall inte innehåller talet 40. Det är alltså under 5% chans att vi fått det konfidensintervall vi fått om nollhypotesen hade varit sann.

Sammanfattningsvis: Om ett punktvärde (t.ex. 40 mm) är utanför ett konfidensintervall (t.ex. 41 - 54 mm) har vi ett statistiskt signifikant resultat. Annars är resultatet inte signifikant.

Tack snälla för din förklaring, det gjorde allt mycket tydligare :)

Svara