diff --git a/zf-statistik.tex b/zf-statistik.tex index 407c65d..07e990b 100644 --- a/zf-statistik.tex +++ b/zf-statistik.tex @@ -237,7 +237,7 @@ $$\sigma(X) = \sqrt{\mathrm{Var}(X)}$$ $$P(X = 1) = \pi, P(X = 0) = 1 - \pi, 0 \leq \pi \leq 1$$ Beschreibt das eintreffen bzw. nicht-eintreffen eines bestimmten Ereignisses. -\subsubsection{Binomialverteilung \footnote{Dabei ist $\binom{n}{x} = \frac{n!}{x!(n-x)!}$}} +\subsubsection{Binomialverteilung \footnote{Dabei ist $\binom{n}{x} = \frac{n!}{x!(n-x)!}$ (TR: nCr($n,x$))})} $$P(X = x) = \binom{n}{x} \pi^x(1 - \pi)^{n-x}, x \in \mathbb{N}_0$$ Dabei ist $0 \leq \pi \leq 1$ der Erfolgsparameter der Verteilung. \\ Notation: $X \sim \mathrm{Bin}(n,\pi)$ ($X$ folgt einer Binomialverteilung mit Parametern $n$ und $\pi$) @@ -249,6 +249,9 @@ Zusammenhänge: \item $X_1 \sim \mathrm{Bin}(n_1,\pi); X_2 \sim \mathrm{Bin}(n_2,\pi)$ unabhängig $\Rightarrow P(X_1=x_1 \cap X_2=x_2) = P(X_1 = x_1) \cdot P(X_2 = x_2)$ \end{itemize} +\textbf{Beispiel} \\ +Urne mit Zurücklegen + \subsubsection{Poisson-($\lambda$)-verteilung} $$P(X = x) = \mathrm{exp}(-\lambda)\frac{\lambda^x}{x!}, x \in \mathbb{N}_0$$ Dabei sind $\mathbb{E}(X) = \lambda, \mathrm{Var}(X) = \lambda, \sigma(X) = \sqrt{\lambda}$ \\ @@ -282,7 +285,7 @@ Einfluss von entfernten Ereignissen auf Wahrscheinlichkeiten von neuen Ziehungen $$P(X = x)=\frac{\binom{m}{x}\binom{N-m}{n-x}}{\binom{N}{n}}$$ -$X \sim \mathrm{Hyper}(N,n,m)$, dabei $N$ die total möglichen Ereignisse, $m$ die "Gewinne" und es wird $n$ gezogen. +$X \sim \mathrm{Hyper}(N,n,m)$, dabei $N$ die total möglichen Ereignisse, $m$ die Gewinne und es wird $n$ gezogen. \subsection{Kennwerte} \subsubsection{Bernoulli-Verteilung} @@ -391,6 +394,7 @@ $$P(X \leq c) \leq \alpha$$ Also berechne mit Tabelle (schaue wo $P(X=x) \leq \alpha$ für verschiedene $x$ (kumulativ)) oder R. \subsubsection{Normalapproximation der Binomialverteilung} +Gilt, wenn $n\pi > 5$ und $n(1-\pi) > 5$ (Faustregel) \\ Für eine Verteilung $X \sim \mathrm{Binom}(n,\pi)$ und $\alpha = 0.05$ gilt für einseitige Tests: $$c \approx \begin{cases} n\pi_0+1.64\sqrt{n\pi_0(1-\pi_0)} \mathrm{\; bei \;} H_0: \pi > \pi_0 \mathrm{\; (aufgerundet)} \\ @@ -472,7 +476,7 @@ Einteilung in Klassen, auftragen der Beobachtugen je Klasse in Balkendiagramm Rechteck, vom 75\%- und 25\%-Quantil begrenzt \begin{figure}[H] \centering - \includegraphics[width=.2\textwidth]{boxplot.png} + \includegraphics[width=.15\textwidth]{boxplot.png} \caption{Beispiel Boxplot (IQR = Interquartile-Range)} \label{fig:boxplot} \end{figure} @@ -506,6 +510,8 @@ $$F(x) = P(X \leq x)$$ \subsubsection{Wahrscheinlichkeits-Dichte} $$f(x) = \dot{F}(x) \Longleftrightarrow F(x) = \int_{-\infty}^xf(y)\mathrm{d}y$$ +$$f(x) \geq 0, \forall x$$ + \subsection{Kennzahlen von stetigen Verteilungen} \begin{center} \begin{tabular}{rl} @@ -575,6 +581,10 @@ $$F(x) \Rightarrow \mathrm{Tabelle!}$$ \end{tabular} \end{center} +\textbf{Summe} \\ +Seien $X_1 \sim \mathcal{N}(\mu_1,\sigma_1^2)$ i.i.d., $X_2 \sim \mathcal{N}(\mu_2,\sigma_2^2)$ i.i.d. und $Y = X_1 + X_2$ dann ist +$$Y \sim \mathcal{N}(\mu_1 + \mu_2, \sigma_1^2+\sigma_2^2)$$ + \subsubsection{Standard-Normalverteilung} $X \sim \mathcal{N}(0,1), \mathbb{W}_X = \mathbb{R}, \mu = 0 \; \mathrm{und} \; \sigma = 1$ $$\varphi (x) = \frac{1}{\sqrt{2\pi}}\mathrm{exp}\bigg(-\frac{x^2}{2}\bigg)$$ @@ -596,7 +606,7 @@ dann sind \begin{tabular}{rl} $\mathbb{E}(Y) =$ & $a +b\mathbb{E}(X)$ \\ Var$(Y) =$ & $b^2 \cdot \mathrm{Var}(X)$ \\ - $\sigma_Y =$ & $b \cdot \sqrt{\mathrm{Var}(X)}$ \\ + $\sigma_Y =$ & $|b| \cdot \sqrt{\mathrm{Var}(X)}$ \\ $q_Y(\alpha) =$ & $a+b\cdot q_X(\alpha)$ \end{tabular} \end{center} @@ -637,7 +647,7 @@ $$Y = g(X_1, X_2, ... , X_n)$$ Unabhängig heisst, dass es keine gemeinsamen Prozesse gibt, die den Ausgang beeinflussen. \\ \textit{Notation}: $$X_1,X_2,...,X_n \; \mathrm{i.i.d}$$ -wobei \textit{i.i.d} für "independent, identically distributed" steht. \\ +wobei \textit{i.i.d} für \textit{independent, identically distributed} steht. \\ Es gilt dann immer $$\mathbb{E}(X_1 + X_2) = \mathbb{E}(X_1) + \mathbb{E}(X_2)$$ wenn $X_1,X_2$ unabhängig, auch @@ -839,7 +849,7 @@ $d_i$ seinen Realisierungen von $D_1,...D_n$ i.i.d. Somit vereinfacht sich die B Falls eine Paarung wie in \ref{sec:paired} nicht möglich ist und die Daten $$X_1,...X_n \mathrm{i.i.d}$$ $$Y_1,...Y_m \mathrm{i.i.d}$$ -entsprechen, wobei $m \neq n$ nicht zwingend notwendig ist. Entscheidend ist, dass $x_i$ und $yi$ zu verschiedenen Versuchseinheiten geören und als unabhängig angenommen werden können. +entsprechen, wobei $m \neq n$ nicht zwingend notwendig ist. Entscheidend ist, dass $x_i$ und $yi$ zu verschiedenen Versuchseinheiten gehören und als unabhängig angenommen werden können. \subsubsection{t-Test für ungepaarte Stichproben} \begin{enumerate} @@ -866,7 +876,7 @@ entsprechen, wobei $m \neq n$ nicht zwingend notwendig ist. Entscheidend ist, da \begin{center} \begin{tabular}{rl} $\displaystyle S_{pool}$ & $\displaystyle = \sqrt{\frac{1}{n+m-2}\bigg(\sum_{i=1}^n(X_i-\bar{X_n})^2+\sum_{i=1}^m(Y_i-\bar{Y_m})^2\bigg)}$ \\ - & $\displaystyle = \sqrt{\frac{1}{n+m-2}\bigg((n-1)\hat{\sigma_X}^2+(m-1)\hat{\sigma_Y}^2\bigg)}$ + & $\displaystyle = \sqrt{\frac{(n-1)\hat{\sigma_X}^2+(m-1)\hat{\sigma_Y}^2}{n+m-2}}$ \end{tabular} \end{center} Verteilung der Teststatistik unter $H_0: T \sim t_{n+m-2}$ @@ -929,7 +939,7 @@ $$\hat{\sigma}^2 = \frac{1}{n-2}\sum_{i=1}^nR_i^2$$ $$Y_i = \beta_0 + \beta_1x_i + E_i$$ \\ $$E_1, E_2, ..., E_n \; \mathrm{i.i.d.} \; \mathcal{N}(0, \sigma_X^2)$$ \item \textbf{Nullhypothese}: - $$H_0: \beta = 0$$ + $$H_0: \beta_1 = 0$$ \textbf{Alternativhypothese}: $$H_A: \beta_1 \neq 0$$ \item \textbf{Teststatistik}: @@ -944,6 +954,9 @@ $$\hat{\sigma}^2 = \frac{1}{n-2}\sum_{i=1}^nR_i^2$$ \end{enumerate} Analog funktioniert auch ein \textit{t-Test} für $H_0: \beta_0 = 0, H_A: \beta_0 \neq 0$ +\subsubsection{t-Wert} +$$\frac{\hat{\beta_i}}{s(\hat{\beta_i})}$$ + \subsubsection{P-Wert} Vgl. dazu \ref{sec:pval}, jedoch anstatt $n-1$ sind es hier $n-2$ Freiheitsgrade. Der P-Wert der Regression wird meist nicht von Hand berechnet (vgl. \ref{sec:rreg}). @@ -1317,7 +1330,7 @@ $$R^2 = \hat{\rho}_{Y\hat{Y}}^2$$ Eigentliche Regression: \begin{lstlisting} ## Um das lineare Regressionsmodell Y_i = beta_0 + beta_1 x_i + E_i zu fitten, benutzt man - fit <- lm(y ~ x) + fit <- lm(y ~ x) #("y gegen x") ## Man kann Achsenabschnitt und Steigung sehen, wenn man sich das Objekt 'fit' anschaut: fit