Förvirrande notation kring sannolikhet- och täthetsfunktioner
Hejsan
Detta blev onödigt förvirrande för mig. För en diskret slumpvariabel verkar man skriva och detta kallas för sannolikhets(mass?)funktionen (PMF på eng?). Den beskriver... ja vadå? För dess primitiva funktion beskriver fördelningen av sannolikheter och kallas därför väldigt passande sannolikhetsfördelningsfunktionen. Men när man anger exempelvis en Poissonfördelning skrivs den i dess sannolikhetsfunktion , varför? Är det för att man identifierar en viss fördelning av sannolikheter som Poisson, men det som är intressant är den specifika sannolikheten för vissa värden (som fås av PMF?). När det istället kommer till kontinuerliga slumpvariabler definieras täthetsfunktionen och det är på samma sätt där att fördelningar anges i dess täthetsfunktion. Beror det på samma sak (man är ute efter sannolikheten)?
Detta blev väldigt oklart. Det är svårt att ställa frågor när man inte riktigt var det faktiskt går snett i förståelsen. Har man en bra metod för att tänka på allt detta och se det framför sig får man gärna dela med sig. Jag anar att det handlar om att se allting som areor (och sedan volymer för fler tvådimensionella slumpvariabler).
Jag är inte helt hundra att jag förstår vad du undrar. Men om jag slänger ut några livlinor kanske vi hittar en tåt att dra i gemensamt.
För sannolikhetsfunktioner gäller att fördelningsfunktionen är
F(x) = P(X ≤ x)
Detta gäller både diskreta och kontinuerliga stokastiska variabler X.
För diskreta variabler gäller
f(x) = P(X = x)
(fast man ofta noterar det f(k) = p(k) = P(X = k) eller på något snarlikt sätt).
Alltså sannolikheten att en tärning visar 4 är P(X = 4) = 1/6.
MEN
för kontinuerliga funktioner funkar inte detta. Säg att bussen går med 10-minutersintervaller. Du kommer vid en slumpmässig tidpunkt. Då är sannolikheten att väntetiden X är mindre än, säg, 7 minuter
F(x) = P(X ≤ 7) = 7/10.
Vad är sannolikheten att väntetiden är exakt 7 minuter? Den är noll. Det är problemet med kontinuerliga funderingar; sannolikheten är noll för varje utfall. Även om det tar ungefär 7 minuter så kommer en tillräckligt noggrann kronometer visa att väntetiden avvek från 7 minuter med några små små enheter.
Därför har man infört begreppet täthetsfunktion för kontinuerliga variabler. Den är derivatan av F(x), så vi får täthetsfunktionen f(x) = F’(x).
f(x) har den trevliga egenskapen att den har högre värde i ett område där det är troligare att utfallet landar. Om du t ex mäter längden av en slumpvis vald person så är det troligare att längden ligger intill 150 cm än intill 250 cm, så f(150) är större än f(250), fastän sannolikheten är noll både för utfallet exakt 150 och exakt 250.
f(x) har en viktig egenskap. Vi kan fråga oss vad sannolikheten är att längden ligger mellan 149 och 151 cm.
Den är P(X ≤ 151) – P(X ≤ 149) =
= F(151) – F(149) som är
(trumvirvel)
integralen av f(x) från 149 till 151.
Så integralen f(x) dx från 0 till 300 (eller hur lång nu den längsta människan är) blir alltså lika med 1.
Var detta svar på din fråga?
EDIT: Råkade skriva f’ i stället för f på de sista raderna. Rättat nu.
Snyggt jobbat!
Varför är det smidigare att ange fördelningar i dess täthetsfunktion? Beror det helt enkelt på att varje exempelvis exponentialfördelning har samma täthetsfunktion men dess exakta fördelning skiljer sig åt med en konstant? Och då blir det därför lättare att räkna nerifrån och upp än att hela tiden behandla fördelningsfunktionen (som i mitt huvud blir överst för jag tänker att man integrerar upp och deriverar ner funktioner)?
Som Marilyn säger: Ur en kontinuerlig fördelning (längd, vikt, tid...) är sannolikheten att få exakt ett visst värde alltid noll. Däremot kan man slå exakt en tvåa med en tärning.
Det är jag med på, även om det kanske inte framgår av min frågeställning.
Jag syftade på varför fördelningen anges i och inte bara dess när man slår upp den exempelvis.
Jag gissar att eftersom enheten blir "sannolikhet per någonting" blir värdet mer användbart.
T. ex. betyder "2% per cm" att sannolikheten för det sökta värdet plusminus 5mm är 0.02.
Rent principiellt spelar det ingen roll hur fördelningen anges, har man den ena har man (i princip) den andra (gäller även för kopplingen mellan sannolikhetsfunktionen för diskreta variabler och fördelningsfunktionen). Dock kan det ibland vara svårt att beräkna en av dem. Ett sådant exempel är normalfördelningen: täthetsfunktionen är lätt att skriva ut, men Fördelningsfunktionen (som är integralen av täthetsfunktionen från minus oändligheten till x) går inte att beräkna analytiskt
MrPotatohead skrev:Snyggt jobbat!
Varför är det smidigare att ange fördelningar i dess täthetsfunktion? Beror det helt enkelt på att varje exempelvis exponentialfördelning har samma täthetsfunktion men dess exakta fördelning skiljer sig åt med en konstant? Och då blir det därför lättare att räkna nerifrån och upp än att hela tiden behandla fördelningsfunktionen (som i mitt huvud blir överst för jag tänker att man integrerar upp och deriverar ner funktioner)?
Hmm, exponentialfördelningen har täthetsfunktionen
f(t) = c e^(–ct)
och fördelnfknen
F(t) = 1 – e^(–ct)
så parametern c (vanligen lambda som jag inte fixar att skriva) finns i båda.
I övrigt instämmer jag med Handel. T ex normalfördelningens täthetsfunktion har en central komponent e^(–x^2) som vi inte kan integrera analytiskt. Så fördelningsfunktionen går bara att skriva på tabellform, opraktiskt.
Okej, det verkar som man tänkt till kring detta. Stort tack för hjälpen. Denna kurs börjar komma sig. Även om jag insett att jag råkar vara världens sämsta kombinatoriker.😋
Av alla vetenskapliga discipliner är kombinatorik den där experten löper störst risk att göra elementära fel.
Marilyn skrev:Av alla vetenskapliga discipliner är kombinatorik den där experten löper störst risk att göra elementära fel.
Sant! Jag gör fel hela tiden :) Kombinatorik hatas av varje narcissistisk matematiker... :) Det är lätt att bli "nedtagen på jorden" om man känner sig speciellt smart en dag…
Tack för trösten! :)