this dir | view | cards | source | edit | dark
top
Zkouška
Základy pravděpodobnosti
Věta o základních vlastnostech pravděpodobnosti
definice
F ⊆ P ( Ω ) \mathcal F\subseteq\mathcal P(\Omega) F ⊆ P ( Ω ) je prostor jevů, pokud…
∅ , Ω ∈ F \emptyset,\Omega\in\mathcal F ∅ , Ω ∈ F
A ∈ F ⟹ A c = Ω ∖ A ∈ F A\in\mathcal F\implies A^c=\Omega\setminus A\in\mathcal F A ∈ F ⟹ A c = Ω ∖ A ∈ F
A 1 , A 2 , … ∈ F ⟹ ⋃ A i ∈ F A_1,A_2,\ldots\in\mathcal F\implies\bigcup A_i\in \mathcal F A 1 , A 2 , … ∈ F ⟹ ⋃ A i ∈ F
P : F → [ 0 , 1 ] P:\mathcal F\to[0,1] P : F → [ 0 , 1 ] je pravděpodobnost, pokud…
P ( Ω ) = 1 P(\Omega)=1 P ( Ω ) = 1
P ( ⋃ A i ) = ∑ P ( A i ) P(\bigcup A_i)=\sum P(A_i) P ( ⋃ A i ) = ∑ P ( A i ) pro A 1 , A 2 , … ∈ F A_1,A_2,\ldots\in \mathcal F A 1 , A 2 , … ∈ F po dvou disjunktní
věta
P ( A ) + P ( A c ) = 1 P(A)+P(A^c)=1 P ( A ) + P ( A c ) = 1
jsou disjunktní ∧ A ∪ A c = Ω ⟹ \land\; A\cup A^c=\Omega\implies ∧ A ∪ A c = Ω ⟹ použijeme druhý bod definice
A ⊆ B ⟹ P ( B ∖ A ) = P ( B ) − P ( A ) ⟹ P ( A ) ≤ P ( B ) A\subseteq B\implies P(B\setminus A)=P(B)-P(A)\implies P(A)\leq P(B) A ⊆ B ⟹ P ( B ∖ A ) = P ( B ) − P ( A ) ⟹ P ( A ) ≤ P ( B )
B B B rozložíme na dvě disjunktní množiny: B = A ∪ ( B ∖ A ) B=A\cup(B\setminus A) B = A ∪ ( B ∖ A )
P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B ) P(A\cup B)=P(A)+P(B)-P(A\cap B) P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B )
A ∪ B A\cup B A ∪ B rozložíme na tři disjunktní množiny (rozdíly a průnik)
P ( A 1 ∪ A 2 ∪ … ) ≤ ∑ i P ( A i ) P(A_1\cup A_2\cup\dots)\leq\sum_i P(A_i) P ( A 1 ∪ A 2 ∪ … ) ≤ ∑ i P ( A i ) … subaditivita, Booleova nerovnost
uvažujeme sjednocení disjunktních B i = A i ∖ ⋃ j < i A j B_i=A_i\setminus\bigcup_{j\lt i}A_j B i = A i ∖ ⋃ j < i A j
∀ i : B i ⊆ A i \forall i:B_i\subseteq A_i ∀ i : B i ⊆ A i , tedy P ( B i ) ≤ P ( A i ) P(B_i)\leq P(A_i) P ( B i ) ≤ P ( A i )
zjevně ⋃ B i = ⋃ A i \bigcup B_i=\bigcup A_i ⋃ B i = ⋃ A i
Podmíněná pravděpodobnost, její zřetězení
pokud A , B ∈ F A,B\in\mathcal F A , B ∈ F a P ( B ) > 0 P(B)\gt 0 P ( B ) > 0 , definujeme podmíněnou pravděpodobnost A A A při B B B jako P ( A ∣ B ) = P ( A ∩ B ) P ( B ) P(A\mid B)=\frac{P(A\cap B)}{P(B)} P ( A ∣ B ) = P ( B ) P ( A ∩ B )
zjevně P ( A ∩ B ) = P ( A ) ⋅ P ( B ∣ A ) P(A\cap B)=P(A)\cdot P(B\mid A) P ( A ∩ B ) = P ( A ) ⋅ P ( B ∣ A )
P ( A 1 ∩ A 2 ∩ ⋯ ∩ A n ) = P ( A 1 ) P ( A 2 ∣ A 1 ) P ( A 3 ∣ A 1 ∩ A 2 ) … P ( A n ∣ A 1 ∩ ⋯ ∩ A n − 1 ) P(A_1\cap A_2\cap \dots\cap A_n)=P(A_1)P(A_2\mid A_1)P(A_3\mid A_1\cap A_2)\dots P(A_n\mid A_1\cap\dots\cap A_{n-1}) P ( A 1 ∩ A 2 ∩ ⋯ ∩ A n ) = P ( A 1 ) P ( A 2 ∣ A 1 ) P ( A 3 ∣ A 1 ∩ A 2 ) … P ( A n ∣ A 1 ∩ ⋯ ∩ A n − 1 )
lze ukázat indukcí (nebo neformálně rozepsáním členů vpravo a vykrácením)
Věta o úplné pravděpodobnosti
věta
mějme B 1 , B 2 , … B_1,B_2,\dots B 1 , B 2 , … rozklad Ω \Omega Ω
P ( A ) = ∑ i P ( B i ) ⋅ P ( A ∣ B i ) P(A)=\sum_iP(B_i)\cdot P(A\mid B_i) P ( A ) = ∑ i P ( B i ) ⋅ P ( A ∣ B i )
sčítance s P ( B i ) = 0 P(B_i)=0 P ( B i ) = 0 považujeme za nulové
důkaz
B i B_i B i tvoří rozklad, takže A A A můžeme napsat jako disjunktní sjednocení množin A ∩ B i A\cap B_i A ∩ B i
pak P ( A ) = ∑ i P ( A ∩ B i ) P(A)=\sum_i P(A\cap B_i) P ( A ) = ∑ i P ( A ∩ B i )
Bayesova věta
věta
mějme B 1 , B 2 , … B_1,B_2,\dots B 1 , B 2 , … rozklad Ω \Omega Ω
P ( B j ∣ A ) = P ( B j ) ⋅ P ( A ∣ B j ) ∑ i P ( B i ) ⋅ P ( A ∣ B i ) P(B_j\mid A)=\frac{P(B_j)\cdot P(A\mid B_j)}{\sum_i P(B_i)\cdot P(A\mid B_i)} P ( B j ∣ A ) = ∑ i P ( B i ) ⋅ P ( A ∣ B i ) P ( B j ) ⋅ P ( A ∣ B j )
důkaz
P ( A ) ⋅ P ( B j ∣ A ) = P ( A ∩ B j ) = P ( B j ) ⋅ P ( A ∣ B j ) P(A)\cdot P(B_j\mid A)=P(A\cap B_j)=P(B_j)\cdot P(A\mid B_j) P ( A ) ⋅ P ( B j ∣ A ) = P ( A ∩ B j ) = P ( B j ) ⋅ P ( A ∣ B j )
P ( A ) = ∑ i P ( B i ) ⋅ P ( A ∣ B i ) P(A)=\sum_iP(B_i)\cdot P(A\mid B_i) P ( A ) = ∑ i P ( B i ) ⋅ P ( A ∣ B i )
Nezávislost jevů
jevy A , B ∈ F A,B\in\mathcal F A , B ∈ F jsou nezávislé, pokud P ( A ∩ B ) = P ( A ) ⋅ P ( B ) P(A\cap B)=P(A)\cdot P(B) P ( A ∩ B ) = P ( A ) ⋅ P ( B )
můžeme uvažovat i větší množiny jevů
jevy v množině jsou (vzájemně) nezávislé, pokud pro každou konečnou podmnožinu platí, že P ( ⋂ ) = ∏ P P(\bigcap)=\prod P P ( ⋂ ) = ∏ P
pokud podmínka platí jen pro dvouprvkové podmnožiny, jsou jevy po dvou nezávislé
Diskrétní náhodné veličiny
Diskrétní náhodné veličiny: popis pomocí pravděpodobnostní funkce
p X ( x ) = P ( { X = x } ) p_X(x)=P(\set{X=x}) p X ( x ) = P ({ X = x })
Příklady diskrétních rozdělení: Bernoulliho, geometrické, binomické, Poissonovo
Bernoulliho/alternativní rozdělení Ber ( p ) \text{Ber}(p) Ber ( p )
počet úspěchů při jednom pokusu (kde p p p je pravděpodobnost úspěchu)
p X ( 1 ) = p p_X(1)=p p X ( 1 ) = p
p X ( 0 ) = 1 − p p_X(0)=1-p p X ( 0 ) = 1 − p
jinak p X ( x ) = 0 p_X(x)=0 p X ( x ) = 0
E ( X ) = p \mathbb E(X)=p E ( X ) = p
var ( X ) = p ( 1 − p ) \text{var}(X)=p(1-p) var ( X ) = p ( 1 − p )
Geometrické rozdělení Geom ( p ) \text{Geom}(p) Geom ( p )
při kolikátém pokusu poprvé uspějeme
p X ( k ) = ( 1 − p ) k − 1 ⋅ p p_X(k)=(1-p)^{k-1}\cdot p p X ( k ) = ( 1 − p ) k − 1 ⋅ p
E ( X ) = 1 / p \mathbb E(X)=1/p E ( X ) = 1/ p
var ( X ) = 1 − p p 2 \text{var}(X)=\frac{1-p}{p^2} var ( X ) = p 2 1 − p
Binomické rozdělení Bin ( n , p ) \text{Bin}(n,p) Bin ( n , p )
počet úspěchů při n n n nezávislých pokusech
p X ( k ) = ( n k ) p k ( 1 − p ) n − k p_X(k)={n\choose k}p^k(1-p)^{n-k} p X ( k ) = ( k n ) p k ( 1 − p ) n − k
E ( X ) = n p \mathbb E(X)=np E ( X ) = n p
var ( X ) = n p ( 1 − p ) \text{var}(X)=np(1-p) var ( X ) = n p ( 1 − p )
Poissonovo rozdělení Pois ( λ ) \text{Pois}(\lambda) Pois ( λ )
počet doručených zpráv za časový úsek, λ \lambda λ je průměrná hodnota
p X ( k ) = λ k k ! e − λ p_X(k)=\frac{\lambda^k}{k!}e^{-\lambda} p X ( k ) = k ! λ k e − λ
Pois ( λ ) \text{Pois}(\lambda) Pois ( λ ) je limitou Bin ( n , λ / n ) \text{Bin}(n,\lambda/n) Bin ( n , λ / n ) pro n → ∞ n\to\infty n → ∞
p X n ( k ) = ( n k ) ( λ n ) k ( 1 − λ n ) n − k p_{X_n}(k)={n\choose k}(\frac\lambda n)^k(1-\frac\lambda n)^{n-k} p X n ( k ) = ( k n ) ( n λ ) k ( 1 − n λ ) n − k
= n ( n − 1 ) … ( n − k + 1 ) k ! λ k n k ( 1 − λ n ) n ( 1 − λ n ) − k =\frac{n(n-1)\dots(n-k+1)}{k!}\frac{\lambda^k}{n^k}(1-\frac\lambda n)^n(1-\frac\lambda n)^{-k} = k ! n ( n − 1 ) … ( n − k + 1 ) n k λ k ( 1 − n λ ) n ( 1 − n λ ) − k
= λ k k ! n ( n − 1 ) … ( n − k + 1 ) n k ⏟ → 1 ( 1 − λ n ) n ⏟ → e − λ ( 1 − λ n ) − k ⏟ → 1 =\frac{\lambda^k}{k!}\underbrace{\frac{n(n-1)\dots(n-k+1)}{n^k}}_{\to\,1}\underbrace{(1-\frac\lambda n)^n}_{\to\,e^{-\lambda}}\underbrace{(1-\frac\lambda n)^{-k}}_{\to\,1} = k ! λ k → 1 n k n ( n − 1 ) … ( n − k + 1 ) → e − λ ( 1 − n λ ) n → 1 ( 1 − n λ ) − k
E ( X ) = λ \mathbb E(X)=\lambda E ( X ) = λ
var ( X ) = λ \text{var}(X)=\lambda var ( X ) = λ
Střední hodnota diskrétní náhodné veličiny: definice, vlastnosti (linearita, podmíněná střední hodnota, věta o celkové střední hodnotě), výpočet
E ( X ) = ∑ x ∈ Im ( X ) x ⋅ P ( X = x ) \mathbb E(X)=\sum_{x\in\text{Im}(X)}x\cdot P(X=x) E ( X ) = ∑ x ∈ Im ( X ) x ⋅ P ( X = x )
pozorování: E ( X ) = ∑ ω ∈ Ω X ( ω ) ⋅ P ( { ω } ) \mathbb E(X)=\sum_{\omega\in\Omega}X(\omega)\cdot P(\set{\omega}) E ( X ) = ∑ ω ∈ Ω X ( ω ) ⋅ P ({ ω })
pravidlo naivního statistika
E ( g ( X ) ) = ∑ x ∈ Im ( X ) g ( x ) P ( X = x ) \mathbb E(g(X))=\sum_{x\in\text{Im}(X)}g(x)P(X=x) E ( g ( X )) = ∑ x ∈ Im ( X ) g ( x ) P ( X = x )
důkaz
položme Y = g ( X ) Y=g(X) Y = g ( X )
z definice: E ( Y ) = ∑ y ∈ Im ( Y ) y P ( Y = y ) \mathbb E(Y)=\sum_{y\in\text{Im}(Y)}y P(Y=y) E ( Y ) = ∑ y ∈ Im ( Y ) y P ( Y = y )
zjevně P ( Y = y ) = ∑ x ∈ Im ( X ) , g ( x ) = y P ( X = x ) P(Y=y)=\sum_{x\in\text{Im}(X),g(x)=y} P(X=x) P ( Y = y ) = ∑ x ∈ Im ( X ) , g ( x ) = y P ( X = x )
protože y y y může být obrazem více různých x x x
dosadíme E ( Y ) = ∑ y ∈ Im ( Y ) y ∑ x ∈ Im ( X ) , g ( x ) = y P ( X = x ) \mathbb E(Y)=\sum_{y\in\text{Im}(Y)}y \sum_{x\in\text{Im}(X),g(x)=y} P(X=x) E ( Y ) = ∑ y ∈ Im ( Y ) y ∑ x ∈ Im ( X ) , g ( x ) = y P ( X = x )
tedy E ( Y ) = ∑ y ∈ Im ( Y ) ∑ x ∈ Im ( X ) , g ( x ) = y y P ( X = x ) \mathbb E(Y)=\sum_{y\in\text{Im}(Y)} \sum_{x\in\text{Im}(X),g(x)=y}y P(X=x) E ( Y ) = ∑ y ∈ Im ( Y ) ∑ x ∈ Im ( X ) , g ( x ) = y y P ( X = x )
E ( Y ) = ∑ x ∈ Im ( X ) g ( x ) P ( X = x ) \mathbb E(Y)=\sum_{x\in\text{Im}(X)}g(x) P(X=x) E ( Y ) = ∑ x ∈ Im ( X ) g ( x ) P ( X = x )
linearita E ( a X + b ) = a E ( X ) + b \mathbb E(aX+b)=a\mathbb E(X)+b E ( a X + b ) = a E ( X ) + b plyne z PNS pro funkci a x + b ax+b a x + b
podmíněná střední hodnota E ( X ∣ B ) = ∑ x ∈ Im ( X ) x ⋅ P ( X = x ∣ B ) \mathbb E(X\mid B)=\sum_{x\in\text{Im}(X)}x\cdot P(X=x\mid B) E ( X ∣ B ) = ∑ x ∈ Im ( X ) x ⋅ P ( X = x ∣ B )
věta o celkové střední hodnotě: E ( X ) = ∑ i P ( B i ) ⋅ E ( X ∣ B i ) \mathbb E(X)=\sum_i P(B_i)\cdot \mathbb E(X\mid B_i) E ( X ) = ∑ i P ( B i ) ⋅ E ( X ∣ B i )
Alternativní vzorec střední hodnoty pomocí survival funkce
E ( X ) = ∑ n = 0 ∞ P ( X > n ) \mathbb E(X)=\sum_{n=0}^\infty P(X\gt n) E ( X ) = ∑ n = 0 ∞ P ( X > n )
idea důkazu
E ( X ) = p X ( 1 ) + p X ( 2 ) + p X ( 3 ) + … \mathbb E(X)=p_X(1)+p_X(2)+p_X(3)+\dots E ( X ) = p X ( 1 ) + p X ( 2 ) + p X ( 3 ) + …
+ p X ( 2 ) + p X ( 3 ) + … +\,p_X(2)+p_X(3)+\dots + p X ( 2 ) + p X ( 3 ) + …
+ p X ( 3 ) + … +\,p_X(3)+\dots + p X ( 3 ) + …
Rozptyl a jeho vlastnosti
rozptyl … var ( X ) = E ( ( X − E X ) 2 ) \text{var}(X)=\mathbb E((X-\mathbb EX)^2) var ( X ) = E (( X − E X ) 2 )
směrodatná odchylka … σ X = var ( X ) \sigma_X=\sqrt{\text{var}(X)} σ X = var ( X )
variační koeficient … CV X = σ X / E ( X ) \text{CV}_X=\sigma_X/\mathbb E(X) CV X = σ X / E ( X )
věta: var ( X ) = E ( X 2 ) − E ( X ) 2 \text{var}(X)=\mathbb E(X^2)-\mathbb E(X)^2 var ( X ) = E ( X 2 ) − E ( X ) 2
důkaz: E ( ( X − μ ) 2 ) = E ( X 2 − 2 μ X + μ 2 ) = E ( X 2 ) − 2 μ E ( X ) + μ 2 \mathbb E((X-\mu)^2)=\mathbb E(X^2-2\mu X+\mu^2)=\mathbb E(X^2)-2\mu\mathbb E(X)+\mu^2 E (( X − μ ) 2 ) = E ( X 2 − 2 μ X + μ 2 ) = E ( X 2 ) − 2 μ E ( X ) + μ 2
Náhodný vektor: sdružená pravděpodobnostní funkce a její vztah s funkcemi marginálními
p X , Y ( x , y ) = P ( { ω ∈ Ω : X ( ω ) = x ∧ Y ( ω ) = y } ) p_{X,Y}(x,y)=P(\set{\omega\in\Omega:X(\omega)=x\land Y(\omega)=y}) p X , Y ( x , y ) = P ({ ω ∈ Ω : X ( ω ) = x ∧ Y ( ω ) = y })
p X ( x ) = ∑ y p X , Y ( x , y ) p_X(x)=\sum_{y} p_{X,Y}(x,y) p X ( x ) = ∑ y p X , Y ( x , y )
podobně pro p Y ( y ) p_Y(y) p Y ( y )
využíváme toho, že máme disjunktní sjednocení
Pravděpodobnostní funkce libovolné funkce dvou náhodných veličin
věta
mějme náhodný vektor ( X , Y ) (X,Y) ( X , Y ) a funkci g : R 2 → R g:\mathbb R^2\to\mathbb R g : R 2 → R
pak Z = g ( X , Y ) Z=g(X,Y) Z = g ( X , Y ) je náhodná veličina na ( Ω , F , P ) (\Omega,\mathcal F,P) ( Ω , F , P )
přičemž p Z ( z ) = ∑ x ∈ Im ( X ) , y ∈ Im ( Y ) : g ( x , y ) = z P ( X = x ∧ Y = y ) p_Z(z)=\sum_{x\in\text{Im}(X),y\in\text{Im}(Y): g(x,y)=z} P(X=x\land Y=y) p Z ( z ) = ∑ x ∈ Im ( X ) , y ∈ Im ( Y ) : g ( x , y ) = z P ( X = x ∧ Y = y )
důkaz
P ( ( X , Y ) ∈ A ) = ∑ a ∈ A P ( ( X , Y ) = a ) P((X,Y)\in A)=\sum_{a\in A} P((X,Y)=a) P (( X , Y ) ∈ A ) = ∑ a ∈ A P (( X , Y ) = a )
plyne přímo z pravděpodobnosti disjunktního sjednocení (je to součet pravděpodobností)
Nezávislost náhodných veličin
X , Y X,Y X , Y jsou nezávislé, jestliže pro každé x , y ∈ R x,y\in\mathbb R x , y ∈ R jsou jevy { X = x } \set{X=x} { X = x } a { Y = y } \set{Y=y} { Y = y } nezávislé
to nastane, právě když P ( X = x , Y = y ) = P ( X = x ) ⋅ P ( Y = y ) P(X=x,Y=y)=P(X=x)\cdot P(Y=y) P ( X = x , Y = y ) = P ( X = x ) ⋅ P ( Y = y )
neboli p X , Y ( x , y ) = p X ( x ) ⋅ p Y ( y ) p_{X,Y}(x,y)=p_X(x)\cdot p_Y(y) p X , Y ( x , y ) = p X ( x ) ⋅ p Y ( y )
PNS pro funkci náhodného vektoru, střední hodnota součtu n.v., součinu nezávislých n.v.
E ( g ( X , Y ) ) = ∑ x ∑ y g ( x , y ) P ( X = x ∧ Y = y ) \mathbb E(g(X,Y))=\sum_x\sum_y g(x,y) P(X=x\land Y=y) E ( g ( X , Y )) = ∑ x ∑ y g ( x , y ) P ( X = x ∧ Y = y )
vyplývá ze vzorce pro pravděpodobnostní funkci funkce dvou náhodných veličin
E ( a X + b Y ) = a E ( X ) + b E ( Y ) \mathbb E(aX+bY)=a\mathbb E(X)+b\mathbb E(Y) E ( a X + bY ) = a E ( X ) + b E ( Y )
E ( X Y ) = E ( X ) E ( Y ) \mathbb E(XY)=\mathbb E(X)\mathbb E(Y) E ( X Y ) = E ( X ) E ( Y )
Konvoluční vzorec
pravděpodobnostní funkce součtu Z = X + Y Z=X+Y Z = X + Y
P ( Z = z ) = ∑ x ∈ Im ( X ) P ( X = x ∧ Y = z − x ) P(Z=z)=\sum_{x\in\text{Im}(X)} P(X=x\land Y=z-x) P ( Z = z ) = ∑ x ∈ Im ( X ) P ( X = x ∧ Y = z − x )
pro nezávislé X , Y X,Y X , Y
P ( Z = z ) = ∑ x ∈ Im ( X ) P ( X = x ) P ( Y = z − x ) P(Z=z)=\sum_{x\in\text{Im}(X)} P(X=x)P(Y=z-x) P ( Z = z ) = ∑ x ∈ Im ( X ) P ( X = x ) P ( Y = z − x )
obojí vyplývá ze vzorce pro pravděpodobnostní funkci funkce dvou náhodných veličin
Kovariance a její vlastnosti
definice: cov ( X , Y ) = E ( ( X − E X ) ( Y − E Y ) ) \text{cov}(X,Y)=\mathbb E((X-\mathbb EX)(Y-\mathbb EY)) cov ( X , Y ) = E (( X − E X ) ( Y − E Y ))
věta: cov ( X , Y ) = E ( X Y ) − E ( X ) E ( Y ) \text{cov}(X,Y)=\mathbb E(XY)-\mathbb E(X)\mathbb E(Y) cov ( X , Y ) = E ( X Y ) − E ( X ) E ( Y )
je to přímočaré roznásobení definice
pro nezávislé X , Y X,Y X , Y platí cov ( X , Y ) = 0 \text{cov}(X,Y)=0 cov ( X , Y ) = 0
zjevně cov ( X , X ) = var ( X ) \text{cov}(X,X)=\text{var}(X) cov ( X , X ) = var ( X )
cov ( a X + b Y , Z ) = a cov ( X , Z ) + b cov ( Y , Z ) \text{cov}(aX+bY,Z)=a\text{cov}(X,Z)+b\text{cov}(Y,Z) cov ( a X + bY , Z ) = a cov ( X , Z ) + b cov ( Y , Z )
korelace
ρ ( X , Y ) = cov ( X , Y ) σ X ⋅ σ Y \rho(X,Y)=\frac{\text{cov}(X,Y)}{\sigma_X\cdot\sigma_Y} ρ ( X , Y ) = σ X ⋅ σ Y cov ( X , Y )
Rozptyl součtu náhodných veličin
věta
nechť X = ∑ i = 1 n X i X=\sum_{i=1}^n X_i X = ∑ i = 1 n X i
pak var ( X ) = ∑ i = 1 n ∑ j = 1 n cov ( X i , X j ) \text{var}(X)=\sum_{i=1}^n\sum_{j=1}^n\text{cov}(X_i,X_j) var ( X ) = ∑ i = 1 n ∑ j = 1 n cov ( X i , X j )
důkaz
var ( X ) = cov ( X , X ) = cov ( ∑ X i , ∑ X i ) \text{var}(X)=\text{cov}(X,X)=\text{cov}(\sum X_i,\sum X_i) var ( X ) = cov ( X , X ) = cov ( ∑ X i , ∑ X i )
použiju cov ( a X + b Y , Z ) = a cov ( X , Z ) + b cov ( Y , Z ) \text{cov}(aX+bY,Z)=a\text{cov}(X,Z)+b\text{cov}(Y,Z) cov ( a X + bY , Z ) = a cov ( X , Z ) + b cov ( Y , Z ) , rozložím všechny členy
věta
pro jevy po dvou nezávislé
var ( X ) = ∑ i = 1 n ∑ j = 1 n cov ( X i , X j ) = ∑ i = 1 n var ( X i ) \text{var}(X)=\sum_{i=1}^n\sum_{j=1}^n\text{cov}(X_i,X_j)=\sum_{i=1}^n\text{var}(X_i) var ( X ) = ∑ i = 1 n ∑ j = 1 n cov ( X i , X j ) = ∑ i = 1 n var ( X i )
důkaz druhé rovnosti
cov ( X i , X j ) = 0 ⟺ i ≠ j \text{cov}(X_i,X_j)=0\iff i\neq j cov ( X i , X j ) = 0 ⟺ i = j
Spojité náhodné veličiny
Distribuční funkce, její vlastnosti
distribuční funkce náhodné veličiny X X X je funkce F X : R → [ 0 , 1 ] F_X:\mathbb R\to [0,1] F X : R → [ 0 , 1 ] definovaná předpisem F X ( x ) : = P ( X ≤ x ) F_X(x):=P(X\leq x) F X ( x ) := P ( X ≤ x )
zjevně P ( a < X ≤ b ) = F X ( b ) − F X ( a ) P(a\lt X\leq b)=F_X(b)-F_X(a) P ( a < X ≤ b ) = F X ( b ) − F X ( a )
vlastnosti
F X F_X F X je neklesající
lim x → + ∞ F X ( x ) = 1 \lim_{x\to+\infty} F_X(x)=1 lim x → + ∞ F X ( x ) = 1
lim x → − ∞ F X ( x ) = 0 \lim_{x\to-\infty} F_X(x)=0 lim x → − ∞ F X ( x ) = 0
F X F_X F X je zprava spojitá
Spojité náhodné veličiny a jejich popis pomocí hustoty
náhodná veličina X X X se nazývá spojitá, pokud existuje nezáporná reálná funkce f X f_X f X tak, že F X ( x ) = P ( X ≤ x ) = ∫ − ∞ x f X ( t ) d t F_X(x)=P(X\leq x)=\int_{-\infty}^x f_X(t)\text dt F X ( x ) = P ( X ≤ x ) = ∫ − ∞ x f X ( t ) d t
hustota f X f_X f X … „limita histogramů“
zjevně ∫ − ∞ ∞ f = 1 \int_{-\infty}^\infty f=1 ∫ − ∞ ∞ f = 1
Využití hustoty – výpočet pravděpodobnosti intervalu, každý bod má pravděpodobnost nula
P ( X = x ) = 0 P(X=x)=0 P ( X = x ) = 0
P ( a ≤ X ≤ b ) = ∫ a b f X ( t ) d t P(a\leq X\leq b)=\int_a^b f_X(t)\text dt P ( a ≤ X ≤ b ) = ∫ a b f X ( t ) d t
Střední hodnota u spojitých veličin: definice, pravidlo naivního statistika, rozptyl, linearita
E ( X ) = ∫ − ∞ ∞ x f X ( x ) d x \mathbb E(X)=\int_{-\infty}^{\infty} x f_X(x)\text dx E ( X ) = ∫ − ∞ ∞ x f X ( x ) d x
E ( g ( X ) ) = ∫ − ∞ ∞ g ( x ) f X ( x ) d x \mathbb E(g(X))=\int_{-\infty}^\infty g(x)f_X(x)\text dx E ( g ( X )) = ∫ − ∞ ∞ g ( x ) f X ( x ) d x
opět platí linearita střední hodnoty
var ( X ) = E ( ( X − μ ) 2 ) = ∫ − ∞ ∞ ( x − μ ) 2 f X ( x ) d x \text{var}(X)=\mathbb E((X-\mu)^2)=\int_{-\infty}^\infty (x-\mu)^2 f_X(x)\text dx var ( X ) = E (( X − μ ) 2 ) = ∫ − ∞ ∞ ( x − μ ) 2 f X ( x ) d x
opět platí var ( X ) = E ( X 2 ) − ( E ( X ) ) 2 \text{var}(X)=\mathbb E(X^2)-(\mathbb E(X))^2 var ( X ) = E ( X 2 ) − ( E ( X ) ) 2
z linearity střední hodnoty
Příklady spojitých rozdělení: uniformní a exponenciální
uniformní U ( a , b ) U(a,b) U ( a , b )
f X ( x ) = 1 b − a f_X(x)=\frac 1{b-a} f X ( x ) = b − a 1
F X ( x ) = x − a b − a F_X(x)=\frac{x-a}{b-a} F X ( x ) = b − a x − a
E ( X ) = a + b 2 \mathbb E(X)=\frac{a+b}2 E ( X ) = 2 a + b
var ( X ) = ( b − a ) 2 12 \text{var}(X)=\frac{(b-a)^2}{12} var ( X ) = 12 ( b − a ) 2
exponenciální Exp ( λ ) \text{Exp}(\lambda) Exp ( λ )
f X ( x ) = λ e − λ x f_X(x)=\lambda e^{-\lambda x} f X ( x ) = λ e − λ x pro x ≥ 0 x\geq 0 x ≥ 0
F X ( x ) = 1 − e − λ x F_X(x)=1-e^{-\lambda x} F X ( x ) = 1 − e − λ x pro x ≥ 0 x\geq 0 x ≥ 0
E ( X ) = 1 / λ \mathbb E(X)=1/\lambda E ( X ) = 1/ λ
var ( X ) = 1 / λ 2 \text{var}(X)=1/\lambda^2 var ( X ) = 1/ λ 2
Normální rozdělení
standardní normální rozdělení
N ( 0 , 1 ) N(0,1) N ( 0 , 1 )
f X ( x ) = φ ( x ) = 1 2 π e − x 2 / 2 f_X(x)=\varphi(x)=\frac1{\sqrt{2\pi}} e^{-x^2/2} f X ( x ) = φ ( x ) = 2 π 1 e − x 2 /2
obecné normální rozdělení
N ( μ , σ 2 ) N(\mu,\sigma^2) N ( μ , σ 2 )
f X ( x ) = 1 σ 2 π e − 1 2 ( x − μ σ ) 2 f_X(x)=\frac 1{\sigma\sqrt{2\pi}}e^{-\frac12(\frac{x-\mu}{\sigma})^2} f X ( x ) = σ 2 π 1 e − 2 1 ( σ x − μ ) 2
máme-li X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X ∼ N ( μ , σ 2 ) , pak pro Z = X − μ σ Z=\frac{X-\mu}\sigma Z = σ X − μ platí Z ∼ N ( 0 , 1 ) Z\sim N(0,1) Z ∼ N ( 0 , 1 )
pro normální nezávislé náhodné veličiny X i ∼ N ( μ i , σ i 2 ) X_i\sim N(\mu_i,\sigma_i^2) X i ∼ N ( μ i , σ i 2 ) (nechť je jich konečně) je i součet normální náhodná veličina ∑ X i ∼ N ( ∑ μ i , ∑ σ i 2 ) \sum X_i\sim N(\sum\mu_i,\sum\sigma_i^2) ∑ X i ∼ N ( ∑ μ i , ∑ σ i 2 )
pravidlo 3 σ 3\sigma 3 σ
P ( μ − σ < X < μ + σ ) ≐ 0.68 P(\mu-\sigma\lt X\lt\mu+\sigma)\doteq 0.68 P ( μ − σ < X < μ + σ ) ≐ 0.68
P ( μ − 2 σ < X < μ + 2 σ ) ≐ 0.95 P(\mu-2\sigma\lt X\lt\mu+2\sigma)\doteq 0.95 P ( μ − 2 σ < X < μ + 2 σ ) ≐ 0.95
P ( μ − 3 σ < X < μ + 3 σ ) ≐ 0.997 P(\mu-3\sigma\lt X\lt\mu+3\sigma)\doteq 0.997 P ( μ − 3 σ < X < μ + 3 σ ) ≐ 0.997
Cauchyho rozdělení (jako varování)
f ( x ) = 1 π ( 1 + x 2 ) f(x)=\frac1{\pi(1+x^2)} f ( x ) = π ( 1 + x 2 ) 1
nemá střední hodnotu
Paretovo rozdělení
F X ( x ) = 1 − ( x 0 x ) α F_X(x)=1-(\frac{x_0}x)^\alpha F X ( x ) = 1 − ( x x 0 ) α pro x ≥ x 0 x\geq x_0 x ≥ x 0 (jinak 0)
f X = α x 0 α / x α + 1 f_X=\alpha x_0^\alpha/x^{\alpha+1} f X = α x 0 α / x α + 1 pro x ≥ x 0 x\geq x_0 x ≥ x 0 (jinak 0)
E ( X ) = x 0 α α − 1 \mathbb E(X)=x_0\frac\alpha{\alpha-1} E ( X ) = x 0 α − 1 α pro α > 1 \alpha\gt 1 α > 1
Kvantilová funkce stručně
Q x ( p ) = min { x ∈ R : p ≤ F X ( x ) } Q_x(p)=\min\set{x\in\mathbb R:p\leq F_X(x)} Q x ( p ) = min { x ∈ R : p ≤ F X ( x ) }
pro spojité X X X platí Q X = F X − 1 Q_X=F^{-1}_X Q X = F X − 1
medián … Q X ( 1 / 2 ) Q_X(1/2) Q X ( 1/2 )
1. kvartil … Q X ( 1 / 4 ) Q_X(1/4) Q X ( 1/4 )
3. kvartil … Q X ( 3 / 4 ) Q_X(3/4) Q X ( 3/4 )
Sdružená distribuční funkce
F X , Y ( x , y ) = P ( { ω ∈ Ω : X ( ω ) ≤ x ∧ Y ( ω ) ≤ y } ) F_{X,Y}(x,y)=P(\set{\omega\in\Omega:X(\omega)\leq x\land Y(\omega)\leq y}) F X , Y ( x , y ) = P ({ ω ∈ Ω : X ( ω ) ≤ x ∧ Y ( ω ) ≤ y })
někdy lze použít F X , Y ( x , y ) = ∫ − ∞ x ∫ − ∞ y f X , Y ( x , y ) d x d y F_{X,Y}(x,y)=\int_{-\infty}^x\int_{-\infty}^y f_{X,Y}(x,y)\text dx\text dy F X , Y ( x , y ) = ∫ − ∞ x ∫ − ∞ y f X , Y ( x , y ) d x d y
pak f X , Y f_{X,Y} f X , Y je sdružená hustota
Pravděpodobnost obdélníku pomocí sdružené distribuční funkce
P ( X ∈ ( a , b ] ∧ Y ∈ ( c , d ] ) = F ( b , d ) − F ( a , d ) − F ( b , c ) + F ( a , c ) P(X\in(a,b]\land Y\in(c,d])=F(b,d)-F(a,d)-F(b,c)+F(a,c) P ( X ∈ ( a , b ] ∧ Y ∈ ( c , d ]) = F ( b , d ) − F ( a , d ) − F ( b , c ) + F ( a , c )
Marginální hustota
f X ( x ) = ∫ y ∈ R f X , Y ( x , y ) d y f_X(x)=\int_{y\in\mathbb R}f_{X,Y}(x,y)\text dy f X ( x ) = ∫ y ∈ R f X , Y ( x , y ) d y
podobně f Y f_Y f Y
Nezávislost (pomocí distribuční funkce i pomocí hustoty)
F X , Y ( x , y ) = F X ( x ) F Y ( y ) F_{X,Y}(x,y)=F_X(x)F_Y(y) F X , Y ( x , y ) = F X ( x ) F Y ( y )
f X , Y ( x , y ) = f X ( x ) f Y ( y ) f_{X,Y}(x,y)=f_X(x)f_Y(y) f X , Y ( x , y ) = f X ( x ) f Y ( y )
Konvoluce pro spojité náhodné veličiny
pro nezávislé náhodné veličiny
f Z ( z ) = ∫ − ∞ ∞ f X ( x ) f Y ( z − x ) d x f_Z(z)=\int_{-\infty}^\infty f_X(x)f_Y(z-x)\text dx f Z ( z ) = ∫ − ∞ ∞ f X ( x ) f Y ( z − x ) d x
Markovova nerovnost
pro X ≥ 0 X\geq 0 X ≥ 0 a a > 0 a\gt0 a > 0 platí P ( X ≥ a ) ≤ E ( X ) a P(X\geq a)\leq\frac{\mathbb E(X)}a P ( X ≥ a ) ≤ a E ( X )
důkaz
E ( X ) = P ( X ≥ a ) ⋅ E ( X ∣ X ≥ a ) + P ( X < a ) ⋅ E ( X ∣ X < a ) \mathbb E(X)=P(X\geq a)\cdot\mathbb E(X\mid X\geq a)+P(X\lt a)\cdot\mathbb E(X\mid X\lt a) E ( X ) = P ( X ≥ a ) ⋅ E ( X ∣ X ≥ a ) + P ( X < a ) ⋅ E ( X ∣ X < a )
≥ P ( X ≥ a ) ⋅ a + 0 \geq P(X\geq a)\cdot a+0 ≥ P ( X ≥ a ) ⋅ a + 0
Čebyševova nerovnost
P ( ∣ X − μ ∣ ≥ t ⋅ σ ) ≤ 1 t 2 P(|X-\mu|\geq t\cdot\sigma)\leq\frac1{t^2} P ( ∣ X − μ ∣ ≥ t ⋅ σ ) ≤ t 2 1
důkaz
položíme Y = ( X − μ ) 2 Y=(X-\mu)^2 Y = ( X − μ ) 2
zjevně E ( Y ) = σ 2 \mathbb E(Y)=\sigma^2 E ( Y ) = σ 2
použijeme Markovovu nerovnost pro Y Y Y
P ( Y ≥ t 2 σ 2 ) ≤ σ 2 t 2 σ 2 P(Y\geq t^2\sigma^2)\leq\frac{\sigma^2}{t^2\sigma^2} P ( Y ≥ t 2 σ 2 ) ≤ t 2 σ 2 σ 2
Silný zákon velkých čísel
mějme X 1 , X 2 , … X_1,X_2,\dots X 1 , X 2 , … stejně rozdělené nezávislé náhodné veličiny
X ˉ n = ( X 1 + ⋯ + X n ) / n \bar X_n=(X_1+\dots+X_n)/n X ˉ n = ( X 1 + ⋯ + X n ) / n … výběrový průměr
lim n → ∞ X ˉ n = μ \lim_{n\to\infty}\bar X_n=\mu lim n → ∞ X ˉ n = μ skoro jistě (s pravděpodobností 1)
použití: Monte Carlo integrování kruhu
Slabý zákon velkých čísel (zlepšení přesnosti opakovaným měřením)
věta
nechť X 1 , X 2 , … X_1,X_2,\dots X 1 , X 2 , … jsou stejně rozdělené nezávislé náhodné veličiny
X ˉ n = ( X 1 + ⋯ + X n ) / n \bar X_n=(X_1+\dots+X_n)/n X ˉ n = ( X 1 + ⋯ + X n ) / n … výběrový průměr
∀ ϵ > 0 : lim n → ∞ P ( ∣ X ˉ n − μ ∣ > ε ) = 0 \forall\epsilon\gt 0:\lim_{n\to\infty} P(|\bar X_n-\mu|\gt\varepsilon)=0 ∀ ϵ > 0 : lim n → ∞ P ( ∣ X ˉ n − μ ∣ > ε ) = 0
říkáme, že X ˉ n \bar X_n X ˉ n konverguje k μ \mu μ v pravděpodobnosti, píšeme X ˉ n → P μ \bar X_n\xrightarrow P\mu X ˉ n P μ
důkaz
E X ˉ n = E X 1 + X 2 + ⋯ + X n n = μ n n = μ \mathbb E\bar X_n=\mathbb E\frac{X_1+X_2+\dots+X_n}{n}=\frac{\mu n}n=\mu E X ˉ n = E n X 1 + X 2 + ⋯ + X n = n μ n = μ
var X ˉ n = var X 1 + ⋯ + X n n 2 = n ⋅ σ 2 n 2 = σ 2 n \text{var}\bar X_n=\text{var}\frac{X_1+\dots+X_n}{n^2}=\frac{n\cdot\sigma^2}{n^2}=\frac{\sigma^2}n var X ˉ n = var n 2 X 1 + ⋯ + X n = n 2 n ⋅ σ 2 = n σ 2
použijeme Čebyševovu nerovnost pro t = n ε / σ t=\sqrt n\varepsilon/\sigma t = n ε / σ , přičemž za σ \sigma σ musíme dosadit σ / n \sigma/\sqrt{n} σ / n
P ( ∣ X ˉ n − μ ∣ ≥ ε ) ≤ σ 2 n ⋅ ε 2 P(|\bar X_n-\mu|\geq \varepsilon)\leq\frac{\sigma^2}{n\cdot\varepsilon^2} P ( ∣ X ˉ n − μ ∣ ≥ ε ) ≤ n ⋅ ε 2 σ 2
Centrální limitní věta – znění, vysvětlení
nechť X 1 , X 2 , … X_1,X_2,\dots X 1 , X 2 , … jsou stejně rozdělené se střední hodnotou μ \mu μ a rozptylem σ 2 \sigma^2 σ 2
označme Y n = ( X 1 + ⋯ + X n ) − n μ σ n Y_n=\frac{(X_1+\dots+X_n)-n\mu}{\sigma\sqrt{n}} Y n = σ n ( X 1 + ⋯ + X n ) − n μ
pak Y n → d N ( 0 , 1 ) Y_n\xrightarrow d N(0,1) Y n d N ( 0 , 1 )
Y n Y_n Y n konverguje v distribuci k N ( 0 , 1 ) N(0,1) N ( 0 , 1 )
tzn. lim n → ∞ F Y n ( x ) = Φ ( x ) \lim_{n\to\infty} F_{Y_n}(x)=\Phi(x) lim n → ∞ F Y n ( x ) = Φ ( x )
CLV se hodí k aproximaci distribuce součtu nebo průměru velkého počtu náhodných veličin normálním rozdělením
takže můžeme provádět bodové a intervalové odhady i tam, kde data nejsou normálně rozdělená, ale známe rozptyl
Statistika
Explorační vs. konfirmační analýza
explorační analýza – něco počítáme pro napozorovaná data, objevujeme zajímavé zákonitosti
konfirmační analýza – ověřujeme, jestli jsou zákonitosti pravdivé
Odhady konzistentní a (asymptoticky) nevychýlené, vychýlení (bias) a střední kvadratická chyba
pro náhodný výběr X 1 , … , X n ∼ F θ X_1,\dots,X_n\sim F_\theta X 1 , … , X n ∼ F θ a libovolnou funkci g g g nazveme bodový odhad θ ^ n \hat\theta_n θ ^ n
nevychýlený/nestranný, pokud E ( θ ^ n ) = g ( θ ) \mathbb E(\hat\theta_n)=g(\theta) E ( θ ^ n ) = g ( θ )
asymptoticky nevychýlený, pokud lim n → ∞ E ( θ ^ n ) = g ( θ ) \lim_{n\to\infty}\mathbb E(\hat\theta_n)=g(\theta) lim n → ∞ E ( θ ^ n ) = g ( θ )
konzistentní, pokud θ ^ n → P g ( θ ) \hat\theta_n\xrightarrow P g(\theta) θ ^ n P g ( θ )
dále definujeme
vychýlení … bias ( θ ^ n ) = E ( θ ^ n ) − θ \text{bias}(\hat\theta_n)=\mathbb E(\hat\theta_n)-\theta bias ( θ ^ n ) = E ( θ ^ n ) − θ
střední kvadratickou chybu … MSE ( θ ^ n ) = E ( ( θ ^ n − θ ) 2 ) \text{MSE}(\hat\theta_n)=\mathbb E((\hat\theta_n-\theta)^2) MSE ( θ ^ n ) = E (( θ ^ n − θ ) 2 )
věta: MSE ( θ ^ n ) = bias ( θ ^ n ) 2 + var ( θ ^ n ) \text{MSE}(\hat\theta_n)=\text{bias}(\hat\theta_n)^2+\text{var}(\hat\theta_n) MSE ( θ ^ n ) = bias ( θ ^ n ) 2 + var ( θ ^ n )
důkaz
var ( θ ^ n ) = var ( θ ^ n − θ ) \text{var}(\hat\theta_n)=\text{var}(\hat\theta_n-\theta) var ( θ ^ n ) = var ( θ ^ n − θ )
posunutím se rozptyl nezmění
= E ( ( θ ^ n − θ ) 2 ) − ( E ( θ ^ n − θ ) ) 2 =\mathbb E((\hat\theta_n-\theta)^2)-(\mathbb E(\hat\theta_n-\theta))^2 = E (( θ ^ n − θ ) 2 ) − ( E ( θ ^ n − θ ) ) 2
podle věty o výpočtu rozptylu
první člen je MSE, druhý je druhá mocnina biasu (pak už stačí jen upravit rovnici)
Konstrukce odhadů pomocí metody momentů i maximální věrohodnosti
metoda momentů
r r r -tý moment X X X … E X r = m r ( θ ) \mathbb EX^r=m_r(\theta) E X r = m r ( θ )
r r r -tý výběrový moment … 1 n ∑ i = 1 n X i r = m r ^ \frac1n\sum_{i=1}^n X_i^r=\widehat{m_r} n 1 ∑ i = 1 n X i r = m r
konzistentní nevychýlený odhad pro r r r -tý moment
nalezneme θ \theta θ takové, že m r ( θ ) = m r ^ m_r(\theta)=\widehat{m_r} m r ( θ ) = m r
typicky stačí použít první moment, dostaneme nějakou rovnici
m 1 = μ m_1=\mu m 1 = μ
m 2 = E ( X 2 ) = var ( X ) + ( E X ) 2 = σ 2 + μ 2 m_2=\mathbb E(X^2)=\text{var}(X)+(\mathbb EX)^2=\sigma^2+\mu^2 m 2 = E ( X 2 ) = var ( X ) + ( E X ) 2 = σ 2 + μ 2
metoda maximální věrohodnosti
θ ^ M L = argmax θ p ( x ; θ ) \hat\theta_{ML}=\text{argmax}_\theta\;p(x;\theta) θ ^ M L = argmax θ p ( x ; θ )
argmax θ f ( x ; θ ) \text{argmax}_\theta\;f(x;\theta) argmax θ f ( x ; θ )
abych se nemusel rozhodovat mezi p p p a f f f , budu používat L L L
výpočetně jednodušší bude používat logaritmus L L L , který označíme ℓ \ell ℓ
příklad
ve vzorku k k k leváků z n n n lidí, hledáme pravděpodobnost θ \theta θ , že je někdo levák
L ( x ; θ ) = θ k ( 1 − θ ) n − k L(x;\theta)=\theta^k(1-\theta)^{n-k} L ( x ; θ ) = θ k ( 1 − θ ) n − k
ℓ ( x ; θ ) = k log θ + ( n − k ) log ( 1 − θ ) \ell(x;\theta)=k\log\theta+(n-k)\log(1-\theta) ℓ ( x ; θ ) = k log θ + ( n − k ) log ( 1 − θ )
ℓ ′ ( x ; θ ) = k θ − n − k 1 − θ \ell'(x;\theta)=\frac k\theta-\frac{n-k}{1-\theta} ℓ ′ ( x ; θ ) = θ k − 1 − θ n − k
hledáme maximum, položíme derivaci rovnou nule (a zkontrolujeme krajní hodnoty)
podobně pro spojitý případ – „maximalizujeme“ rovnici pro pravděpodobnost konkrétního výběru
Výběrový průměr a rozptyl
populační vs. výběrový průměr/rozptyl
populační … pro celou populaci
výběrový … pro konkrétní vzorek dat
X n ‾ = 1 n ∑ i = 1 n X i \overline{X_n}=\frac1n\sum_{i=1}^n X_i X n = n 1 ∑ i = 1 n X i
konzistentní nevychýlený odhad μ \mu μ
S n 2 ^ = 1 n − 1 ∑ i = 1 n ( X i − X n ‾ ) 2 \widehat{S_n^2}=\frac1{n-1}\sum_{i=1}^n(X_i-\overline{X_n})^2 S n 2 = n − 1 1 ∑ i = 1 n ( X i − X n ) 2
konzistentní nevychýlený odhad σ 2 \sigma^2 σ 2
proč se rozptyl dělí n − 1 n-1 n − 1
E X i = μ ⟹ E X n ‾ = μ \mathbb EX_i=\mu\implies\mathbb E\overline{X_n}=\mu E X i = μ ⟹ E X n = μ
var ( X i ) = σ 2 ⟹ var ( X n ‾ ) = σ 2 n \text{var}(X_i)=\sigma^2\implies\text{var}(\overline{X_n})=\frac{\sigma^2}n var ( X i ) = σ 2 ⟹ var ( X n ) = n σ 2
σ ( X i ) = σ ⟹ σ ( X n ‾ ) = σ n \sigma(X_i)=\sigma\implies\sigma(\overline{X_n})=\frac\sigma{\sqrt{n}} σ ( X i ) = σ ⟹ σ ( X n ) = n σ
více viz záznam přednášky
Intervalové odhady – obecná metoda založená na normálním rozdělení
statistiky D ≤ H D\leq H D ≤ H určují konfidenční interval o spolehlivosti 1 − α 1-\alpha 1 − α , pokud P ( D ≤ θ ≤ H ) = 1 − α P(D\leq\theta\leq H)=1-\alpha P ( D ≤ θ ≤ H ) = 1 − α
zkráceně ( 1 − α ) (1-\alpha) ( 1 − α ) -CI
interval budeme uvažovat ve tvaru [ x − δ , x + δ ] [x-\delta,x+\delta] [ x − δ , x + δ ]
postup
máme nestranný bodový odhad θ ^ \hat\theta θ ^ pro parametr θ \theta θ
θ ^ \hat\theta θ ^ má normální rozdělení
θ ^ ± z α / 2 ⋅ se \hat\theta\pm z_{\alpha/2}\cdot\text{se} θ ^ ± z α /2 ⋅ se je ( 1 − α ) (1-\alpha) ( 1 − α ) -CI
z α / 2 : = Φ − 1 ( 1 − α / 2 ) z_{\alpha/2}:=\Phi^{-1}(1-\alpha/2) z α /2 := Φ − 1 ( 1 − α /2 )
se : = σ ( θ ^ ) \text{se}:=\sigma(\hat\theta) se := σ ( θ ^ )
idea
provedeme standardizaci Z = stand ( θ ^ ) = θ ^ − E ( θ ^ ) σ ( θ ^ ) = θ ^ − θ σ ( θ ^ ) Z=\text{stand}(\hat\theta)=\frac{\hat\theta-\mathbb E(\hat\theta)}{\sigma(\hat\theta)}=\frac{\hat\theta-\theta}{\sigma(\hat\theta)} Z = stand ( θ ^ ) = σ ( θ ^ ) θ ^ − E ( θ ^ ) = σ ( θ ^ ) θ ^ − θ
tohle má normální rozdělení
Schéma testování hypotéz: nulová hypotéza, alternativní hypotéza, hladina významnosti
nulová hypotéza … defaultní, konzervativní model
alternativní hypotéza … alternativní model, „zajímavost“
nulovou hypotézu buď zamítneme, nebo nezamítneme
chyba 1. druhu – chybné zamítnutí, „trapas“
chyba 2. druhu – chybné přijetí, „promarněná příležitost“
hladina významnosti α \alpha α … pravděpodobnost chyby 1. druhu
typicky se volí α = 0.05 \alpha=0.05 α = 0.05
β \beta β … pravděpodobnost chyby 2. druhu
kritický obor … je to množina, kterou určíme před provedením testu; pokud se výsledek našeho testu bude nacházet v kritickém oboru, zamítneme nulovou hypotézu
tedy α = P ( h ( X ) ∈ W ; H 0 ) \alpha=P(h(X)\in W; H_0) α = P ( h ( X ) ∈ W ; H 0 )
síla testu … 1 − β 1-\beta 1 − β
p p p -hodnota … nejmenší α \alpha α taková, že na hladině α \alpha α zamítáme H 0 H_0 H 0
Testování střední hodnoty normálního rozdělení (známý vs. neznámý rozptyl, neboli z-test vs. t-test)
známe rozptyl
teorie: Z = X n ‾ − θ 0 σ / n ∼ N ( 0 , 1 ) Z=\frac{\overline{X_n}-\theta_0}{\sigma/\sqrt n}\sim N(0,1) Z = σ / n X n − θ 0 ∼ N ( 0 , 1 ) pokud H 0 H_0 H 0
podle centrální limitní věty tohle funguje i pro veličiny, které nemají normální rozdělení, ale známe jejich rozptyl
najdeme bodový odhad θ ^ \hat\theta θ ^ pro θ \theta θ
třeba pokud nás zajímá μ \mu μ , tak prostě použijeme výběrový průměr
δ = σ n ⋅ Φ − 1 ( 1 − α / 2 ) \delta=\frac{\sigma}{\sqrt{n}}\cdot \Phi^{-1}(1-\alpha/2) δ = n σ ⋅ Φ − 1 ( 1 − α /2 )
vrátíme [ θ ^ − δ , θ ^ + δ ] [\hat\theta-\delta,\hat\theta+\delta] [ θ ^ − δ , θ ^ + δ ]
neznáme rozptyl
teorie: T T T bude jako Z Z Z , akorát místo σ \sigma σ použijeme σ ˉ \bar\sigma σ ˉ
máme n n n hodnot
spočteme výběrovou odchylku σ ˉ \bar\sigma σ ˉ
δ = σ ˉ n ⋅ Ψ n − 1 − 1 ( 1 − α / 2 ) \delta=\frac{\bar\sigma}{\sqrt n}\cdot \Psi^{-1}_{n-1}(1-\alpha/2) δ = n σ ˉ ⋅ Ψ n − 1 − 1 ( 1 − α /2 )
zbytek stejný, jako když známe rozptyl
Numerická/ordinální/kategorická data
numerická data … důležitá jsou čísla
ordinální data … hodnoty mají pořadí (třeba úrovně vzdělání), ale nemají žádný číselný význam
kategorická data … hodnoty nemají žádné konkrétní pořadí, jde o kategorie
Multinomické rozdělení
n n n -krát opakuji pokus, kde může nastat jedna z k k k možností, přičemž i i i -tá má pravděpodobnost p i p_i p i
X i X_i X i … kolikrát nastala i i i -tá možnost
pak ( X 1 , … , X k ) (X_1,\dots,X_k) ( X 1 , … , X k ) má multinomické rozdělení s parametry n , ( p 1 , … , p k ) n,(p_1,\dots,p_k) n , ( p 1 , … , p k )
příklad: hážeme 6stěnnou kostkou
Test dobré shody (G-test, χ 2 χ^2 χ 2 -test) – předvedení a částečné zdůvodnění
O i O_i O i … reálný výsledek
E i E_i E i … očekávaný výsledek
proč uvažujeme n − 1 n-1 n − 1 stupňů volnosti, když máme n n n hodnot?
z n − 1 n-1 n − 1 hodnot můžu n n n -tou hodnotu dopočítat
χ 2 = ∑ i ( E i − O i ) 2 E i \chi^2=\sum_i\frac{(E_i-O_i)^2}{E_i} χ 2 = ∑ i E i ( E i − O i ) 2
G = 2 ∑ i O i ln O i E i G=2\sum_i O_i \ln\frac{O_i}{E_i} G = 2 ∑ i O i ln E i O i
χ 2 \chi^2 χ 2 a G G G se přibližně rovnají (díky aproximaci pomocí Taylorova polynomu)
jak zjistit, jestli je kostka spravedlivá?
vygenerujeme hodně multinomických rozdělení – díky nim najdeme kritický obor W W W (pomocí grafu χ 2 \chi^2 χ 2 )
pokud χ 2 \chi^2 χ 2 pro naši konkrétní kostku náleží W W W , prohlásíme, že kostka není spravedlivá
Jednovýběrový vs. dvouvýběrový test vs. párový test
jednovýběrový test … klasický intervalový odhad
např. H 0 H_0 H 0 … μ = 5 \mu=5 μ = 5
dvouvýběrový test … máme dvě sady dat, porovnáváme parametry
např. H 0 H_0 H 0 … μ X = μ Y \mu_X=\mu_Y μ X = μ Y
párový test … data jsou ve dvojicích
např. H 0 H_0 H 0 … μ X = μ Y \mu_X=\mu_Y μ X = μ Y
dvojice dat spolu nějak souvisí
uvažuju R i = Y i − X i R_i=Y_i-X_i R i = Y i − X i , použiju jednovýběrový test
příklad použití dvouvýběrového testu
„jsou stejné střední hodnoty?“
hledáme θ = μ X − μ Y \theta=\mu_X-\mu_Y θ = μ X − μ Y
známe-li σ X , σ Y \sigma_X,\sigma_Y σ X , σ Y , pak σ ( θ ^ ) = σ X 2 n + σ Y 2 m \sigma(\hat\theta)=\sqrt{\frac{\sigma_X^2}n+\frac{\sigma_Y^2}m} σ ( θ ^ ) = n σ X 2 + m σ Y 2
Lineární regrese (a možné komplikace)
x i x_i x i … nezávislá proměnná, predictor
y i y_i y i … závislá proměnná, response
cíl … y = θ 0 + θ 1 x y=\theta_0+\theta_1x y = θ 0 + θ 1 x
θ 0 \theta_0 θ 0 … intercept
θ 1 \theta_1 θ 1 … slope
chybu měříme pomocí kvadratické odchylky ∑ i = 1 n ( y i − ( θ 0 + θ 1 x i ) ) 2 \sum_{i=1}^n(y_i-(\theta_0+\theta_1x_i))^2 ∑ i = 1 n ( y i − ( θ 0 + θ 1 x i ) ) 2
řešení
θ ^ 1 = c o v ( x , y ) v a r ( x ) \hat\theta_1=\frac{cov(x,y)}{var(x)} θ ^ 1 = v a r ( x ) co v ( x , y )
použijeme výběrový rozptyl a výběrovou kovarianci
θ ^ 0 = y ˉ − θ 1 x ˉ \hat\theta_0=\bar y-\theta_1\bar x θ ^ 0 = y ˉ − θ 1 x ˉ
komplikace
někdy nechceme provádat lineární regresi – je fajn se podívat na graf
zavádějící proměnná (confounding variable) – není v datech, ale kdybychom ji přidali, všechno by dávalo větší smysl
Simpsonův paradox – jedna strana vítězí v jednotlivých kategoriích, ale dohromady vítězí ta druhá
Neparametrické testy – vlastnosti empirické distribuční funkce (KS test)
když nemůžu distribuci popsat pomocí parametrů nějaké obvyklé distribuční funkce → neparametrická statistika
empirická distribuční funkce … F ^ n ( x ) = \hat F_n(x)= F ^ n ( x ) = počet dobrých / počet všech
F ^ n ( x ) = ∑ i = 1 n I ( X i ≤ x ) n \hat F_n(x)=\frac{\sum_{i=1}^n I(X_i\leq x)}{n} F ^ n ( x ) = n ∑ i = 1 n I ( X i ≤ x )
F ^ n ( x ) = \hat F_n(x)= F ^ n ( x ) = jaký poměr hodnot je nejvýš x x x
vlastnosti
střední hodnota F ^ n ( x ) \hat F_n(x) F ^ n ( x ) je F ( x ) F(x) F ( x )
F ^ n ( x ) → P F ( x ) \hat F_n(x)\xrightarrow P F(x) F ^ n ( x ) P F ( x )
podle slabého zákona velkých čísel
KS test (věta)
pravděpodobnost, že F ( x ) F(x) F ( x ) leží v pásku F ^ n ( x ) ± ε \hat F_n(x)\pm\varepsilon F ^ n ( x ) ± ε je aspoň 1 − α 1-\alpha 1 − α
přičemž ε = 1 2 n log 2 α \varepsilon=\sqrt{\frac1{2n}\log\frac2\alpha} ε = 2 n 1 log α 2
Generování náhodných veličin (inverzní transformace, rejection sampling)
uniformní rozdělení U ( 0 , 1 ) U(0,1) U ( 0 , 1 ) – dejme tomu, že ho máme (je těžké ho generovat)
diskrétní náhodná veličina – uděláme rozklad intervalu od nuly do jedné tak, aby P ( X = i ) = ∣ A i ∣ P(X=i)=|A_i| P ( X = i ) = ∣ A i ∣ , kde ∣ A i ∣ |A_i| ∣ A i ∣ je část intervalu
inverzní transformace
Q X ( p ) = F X − 1 ( p ) Q_X(p)=F_X^{-1}(p) Q X ( p ) = F X − 1 ( p ) pro X X X spojitou
Q X ( p ) = min { x : F X ( x ) ≥ p } Q_X(p)=\min\set{x:F_X(x)\geq p} Q X ( p ) = min { x : F X ( x ) ≥ p }
zjevně Q ( p ) ≤ x ⟺ p ≤ F ( x ) Q(p)\leq x\iff p\leq F(x) Q ( p ) ≤ x ⟺ p ≤ F ( x )
věta: Q ( U ) Q(U) Q ( U ) má distribuční funkci F F F
kde U ∼ U ( 0 , 1 ) U\sim U(0,1) U ∼ U ( 0 , 1 )
důkaz
mějme X = Q ( U ) X=Q(U) X = Q ( U )
P ( X ≤ x ) = P ( Q ( U ) ≤ x ) = P ( U ≤ F ( x ) ) = F ( x ) P(X\leq x)=P(Q(U)\leq x)=P(U\leq F(x))=F(x) P ( X ≤ x ) = P ( Q ( U ) ≤ x ) = P ( U ≤ F ( x )) = F ( x )
rejection sampling
generujeme uniformně náhodně bod ( x , y ) (x,y) ( x , y ) pod křivkou f X f_X f X
pak x x x má hustotu f X f_X f X
generovat bod pod křivkou je těžké → generujeme body všude a zahodíme ty, které nejsou pod křivkou