diff --git a/zf-statistik.tex b/zf-statistik.tex index 24779d5..96421c9 100644 --- a/zf-statistik.tex +++ b/zf-statistik.tex @@ -237,15 +237,16 @@ $$\sigma(X) = \sqrt{\mathrm{Var}(X)}$$ $$P(X = 1) = \pi, P(X = 0) = 1 - \pi, 0 \leq \pi \leq 1$$ Beschreibt das eintreffen bzw. nicht-eintreffen eines bestimmten Ereignisses. -\subsubsection{Binominalverteilung \footnote{Dabei ist $\binom{n}{x} = \frac{n!}{x!(n-x)!}$}} +\subsubsection{Binomialverteilung \footnote{Dabei ist $\binom{n}{x} = \frac{n!}{x!(n-x)!}$}} $$P(X = x) = \binom{n}{x} \pi^x(1 - \pi)^{n-x}, x \in \mathbb{N}_0$$ Dabei ist $0 \leq \pi \leq 1$ der Erfolgsparameter der Verteilung. \\ -Notation: $X \sim \mathrm{Bin}(n,\pi)$ ($X$ folgt einer Binominalverteilung mit Parametern $n$ und $\pi$) +Notation: $X \sim \mathrm{Bin}(n,\pi)$ ($X$ folgt einer Binomialverteilung mit Parametern $n$ und $\pi$) Zusammenhänge: \begin{itemize} \item $\mathrm{Bin}(1,\pi) = \mathrm{Bernoulli}(\pi)$ \item $X_1 \sim \mathrm{Bin}(n_1,\pi); X_2 \sim \mathrm{Bin}(n_2,\pi)$ unabhängig $\Rightarrow S := X_1 + X_2$, dann $S \sim \mathrm{Bin}(n_1+n_2,\pi)$ + \item $X_1 \sim \mathrm{Bin}(n_1,\pi); X_2 \sim \mathrm{Bin}(n_2,\pi)$ unabhängig $\Rightarrow P(X_1=x_1 \cap X_2=x_2) = P(X_1 = x_1) \cdot P(X_2 = x_2)$ \end{itemize} \subsubsection{Poisson-($\lambda$)-verteilung} @@ -253,10 +254,10 @@ $$P(X = x) = \mathrm{exp}(-\lambda)\frac{\lambda^x}{x!}, x \in \mathbb{N}_0$$ Dabei sind $\mathbb{E}(X) = \lambda, \mathrm{Var}(X) = \lambda, \sigma(X) = \sqrt{\lambda}$ \\ Für zwei unabhängige Poisson-Verteilungen $X \sim \mathrm{Poisson(\lambda_x)}, Y \sim \mathrm{Poisson}(\lambda_y)$ ist $X + Y \sim \mathrm{Poisson}(\lambda_x + \lambda_y)$ \\ Es gilt auch -$$P(X > n) = P(X \leq n) = 1 - (P(X = 0) + P(X=1) + ... + P(X = n))$$ +$$P(X > n) = 1 - P(X \leq n) = 1 - (P(X = 0) + P(X=1) + ... + P(X = n))$$ \subsubsection{Geometrische Verteilung} -Sei $X \sim \mathrm{Poisson}(\pi)$, dann ist +Sei $X \sim \mathrm{Bernoulli}(\pi)$, dann ist $$Y = P(X=n) = \pi (1 - \pi)^{n-1}$$ die Anzahl Fehlversuche bis zu einem erfogreichen Versuch. @@ -268,7 +269,7 @@ wobei $\lambda = n\pi$ \begin{figure}[H] \centering \includegraphics[width=.15\textwidth]{poisson-approx.png} - \caption{Poisson Approximation der Binominalverteilung} + \caption{Poisson Approximation der Binomialverteilung} \label{fig:poisson-approx} \end{figure} @@ -329,9 +330,6 @@ $X \sim \mathrm{Hyper}(N,n,m)$, dabei $N$ die total möglichen Ereignisse, $m$ d \end{tabular} \end{center} -\begin{center} - \rule{.5\linewidth}{0.25pt} -\end{center} \section{Statistik für Zähldaten} \begin{enumerate} @@ -343,7 +341,7 @@ $X \sim \mathrm{Hyper}(N,n,m)$, dabei $N$ die total möglichen Ereignisse, $m$ d \subsection{Punktschätzung von Parametern} $\hat{X}$ bezeichnet den Schätzwert von $X$ \\ \\ -Bei \textbf{Binominalverteilung}: +Bei \textbf{Binomialverteilung}: \subsubsection{Momentenmehtode} Aus $\mathbb{E}(X) = n\pi \Leftrightarrow \pi = \frac{\mathbb{E}(X)}{x}$, daraus $\hat{\mathbb{E}(X)}=x$ und somit $$\hat{\pi} = \frac{x}{n}$$ @@ -355,7 +353,7 @@ Vorgehen: \item $\frac{\mathrm{d}P}{\mathrm{d}\pi} = 0$ \item auflösen nach $\pi$ \end{itemize} -Dies ist für eine Binominalverteilung ebenfalls $\hat{\pi} = \frac{x}{n}$ +Dies ist für eine Binomialverteilung ebenfalls $\hat{\pi} = \frac{x}{n}$ \subsection{Aufbau statistischer Test} $P(X \geq c)$ für verschiedene $c$ @@ -382,9 +380,25 @@ $P(X \geq c)$ für verschiedene $c$ $$K = \begin{cases} [0,c_u] \cup [c_0,n] & H_A: \pi \neq \pi_0 \\ [c,n] & H_A: \pi > \pi_0 \\ [0,c] & H_A: \pi < \pi_0 \end{cases}$$ + Wobei $c$ der Wert ist bei dem $P(X \leq c) = \alpha$ \item Testentscheid: Ist $t \in K$? Falls ja wird $H_0$ verworfen, falls nicht wird sie als korrekt angenommen\footnote{Achtung: Das heisst nicht, dass $H_0$ gültig ist! (Falsifizierbarkeit)} \end{enumerate} +\textbf{Bsp. Berechnung von $c$} \\ +Es sei $X \sim \mathrm{Bin}(150,0.1)$ unter $H_A: \pi < 0.1$. Dann soll +$$P(X \leq c) \leq \alpha$$ +Also berechne mit Tabelle (schaue wo $P(X=x) \leq \alpha$ für verschiedene $x$ (kumulativ)) oder R. + +\subsubsection{Normalapproximation der Binomialverteilung} +Für eine Verteilung $X \sim \mathrm{Binom}(n,\pi)$ und $\alpha = 0.05$ gilt für einseitige Tests: +$$c \approx \begin{cases} + n\pi_0+1.64\sqrt{n\pi_0(1-\pi_0)} \mathrm{\; bei \;} H_0: \pi > \pi_0 \mathrm{\; (abgerundet)} \\ + n\pi_0-1.64\sqrt{n\pi_0(1-\pi_0)} \mathrm{\; bei \;} H_0: \pi < \pi_0 \mathrm{\; (aufgerundet)} \\ +\end{cases}$$ + +Für einen zweiseitigen Test ($\pi \neq \pi_0$) gilt: +$$c_0 \approx n\pi_0+1.96\sqrt{n\pi_0(1-\pi_0)} \mathrm{\; (abgerundet)}$$ +$$c_u \approx n\pi_0-1.96\sqrt{n\pi_0(1-\pi_0)} \mathrm{\; (aufgerundet)}$$ \subsubsection{Fehler 1. und 2. Art} \label{sec:fehler12} \begin{enumerate} @@ -397,7 +411,7 @@ Fehler 1. Art soll möglichst vermieden werden! \subsubsection{Macht (Power)} \label{sec:macht} -$$\mathrm{Macht}:=1-P(\mathrm{Fehler \; 2. \; Art}) = P_{H_A} (X \in K)$$ +$$\mathrm{Macht}:=1-P(\mathrm{Fehler \; 2. \; Art}) = P_{H_A} (X \in K) = P(X \geq c) \mathrm{\; z.B.}$$ Idee: Wie gross muss eine Stichprobe sein, damit mit einer bestimmten Macht $\beta=x$ eine Hypothese bewiesen werden kann auf Signifikanzniveau $\alpha$? \subsubsection{P-Wert} @@ -406,13 +420,11 @@ Der P-Wert ist ein Wert zwischen 0 und 1, der angibt, wie gut Nullhypothese und \subsubsection{Vertrauensintervall (VI)} \label{sec:vertrauensintervall} $$I:=\{\pi_0;\; \mathrm{Nullhypothese} \; H_0:\pi = \pi_0 \mathrm{wird \; beibehalten}\}$$ +Für grosse $n$ gilt +$$I \approx \frac{x}{n} \pm \sqrt{\frac{x}{n}(1-\frac{x}{n})\frac{1}{n}}$$ Die Werte von $\pi_0$ bei denen $H_0: \pi = \pi_0$ nicht verworfen wird, ist ein $(1-\alpha)$-VI. $$P_\pi(\pi \in I(X) \gtrapprox 1-\alpha)$$ -Ein $(1-\alpha)$-VI, enthält den wahren Parameter $\pi$ mit einer Wahrscheinlichkeit von $(1-\alpha)$ - -\begin{center} - \rule{.5\linewidth}{0.25pt} -\end{center} +Ein $(1-\alpha)$-VI, enthält den wahren Parameter $\pi$ mit einer Wahrscheinlichkeit von $(1-\alpha)$ \\ \section{Modelle und Statistik für Zähldaten} \subsection{Deskriptive Statistik} @@ -488,7 +500,7 @@ $$F(x) = P(X \leq x)$$ \label{fig:kumulative} \end{figure} -\subsubsection{(Wahrscheinlichkeits-)Dichte)} +\subsubsection{Wahrscheinlichkeits-Dichte} $$f(x) = \dot{F}(x) \Longleftrightarrow F(x) = \int_{-\infty}^xf(y)\mathrm{d}y$$ \subsection{Kennzahlen von stetigen Verteilungen} @@ -541,7 +553,7 @@ $$F(x) = \begin{cases} \textbf{Kennzahlen} \begin{center} \begin{tabular}{rl} - $\mathbb{E}(X) =$ & $\frac{1}{\lambda}x$ \\ + $\mathbb{E}(X) =$ & $\frac{1}{\lambda}$ \\ Var$(X) =$ & $\frac{1}{\lambda^2}$ \\ $\sigma_X =$ & $\frac{1}{\lambda}$ \end{tabular} @@ -699,8 +711,8 @@ Wenn $\mathbb{E}(X_i) = \mu$ und $\mathrm{Var}(X_i) = \sigma_X^2$ gesucht: \item \textbf{Verwerfungsbereich für die Teststatistik}:\\ $$K=\begin{cases} (-\infty,-\Phi^{-1}(1-\frac{\alpha}{2}]\cup [\Phi^{-1}(1-\frac{\alpha}{2}),\infty), \quad \, \mathrm{bei} \; H_A: \mu \neq \mu_0 \\ - (-\infty,-\Phi^{-1}(1-\frac{\alpha}{2}], \qquad\qquad\qquad\qquad\qquad\kern .025em \mathrm{bei} \; H_A: \mu < \mu_0 \\ - [\Phi^{-1}(1-\frac{\alpha}{2}),\infty), \qquad\qquad\qquad\qquad\qquad\quad\kern 0.25em \mathrm{bei} \; H_A: \mu > \mu_0 + (-\infty,-\Phi^{-1}(1-\alpha], \qquad\qquad\qquad\qquad\qquad\kern .025em \mathrm{bei} \; H_A: \mu < \mu_0 \\ + [\Phi^{-1}(1-\alpha),\infty), \qquad\qquad\qquad\qquad\qquad\quad\kern 0.25em \mathrm{bei} \; H_A: \mu > \mu_0 \end{cases}$$ \item \textbf{Testentscheid}:\\ Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt. @@ -737,8 +749,8 @@ $$P_\mu(T \in K) = \mathrm{Macht}(\mu)$$ \item \textbf{Verwerfungsbereich für die Teststatistik}:\\ $$K=\begin{cases} (-\infty,-t_{n-1;1-\frac{\alpha}{2}}] \cup [t_{n-1;1-\frac{\alpha}{2}},\infty), \quad \;\; \mathrm{bei} \; H_A: \mu \neq \mu_0 \\ - (-\infty,-t_{n-1;1-\frac{\alpha}{2}}], \qquad\qquad\qquad\qquad\kern 1.6em \mathrm{bei} \; H_A: \mu < \mu_0 \\ - [t_{n-1;1-\frac{\alpha}{2}},\infty), \qquad\qquad\qquad\qquad\qquad\quad\kern 0.25em \mathrm{bei} \; H_A: \mu > \mu_0 + (-\infty,-t_{n-1;1-\alpha}], \qquad\qquad\qquad\qquad\kern 1.6em \mathrm{bei} \; H_A: \mu < \mu_0 \\ + [t_{n-1;1-\alpha},\infty), \qquad\qquad\qquad\qquad\qquad\quad\kern 0.25em \mathrm{bei} \; H_A: \mu > \mu_0 \end{cases}$$ \item \textbf{Testentscheid}:\\ Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt. @@ -751,9 +763,9 @@ wobei $F_{t_{n-a}}$ die kumulative Verteilungsfunktion der t-Verteilung mit $n-1 \subsubsection{Vertrauensintervall für $\mu$} Vgl. auch \ref{sec:vertrauensintervall}\\ -Aus -$$\mu_0 \leq \bar{x_n}+\frac{\hat{\sigma_X}\cdot t_{n-1;1-\frac{\alpha}{2}}}{\sqrt{n}} \mathrm{\; und \;} \mu_0 \geq \bar{x_n}-\frac{\hat{\sigma_X}\cdot t_{n-1;1-\frac{\alpha}{2}}}{\sqrt{n}}$$ -folgt das Intervall +Für einseitige Intervalle +$$\mu_0 \leq \bar{x_n}+\frac{\hat{\sigma_X}\cdot t_{n-1;1-\alpha}}{\sqrt{n}} \mathrm{\; und \;} \mu_0 \geq \bar{x_n}-\frac{\hat{\sigma_X}\cdot t_{n-1;1-\alpha}}{\sqrt{n}}$$ +und das zweiseitige Intervall $$I = \bigg[\bar{x_n} - t_{n-1;1-\frac{\alpha}{2}}\frac{\hat{\sigma_X}}{\sqrt{n}},\bar{x_n} + t_{n-1;1-\frac{\alpha}{2}}\frac{\hat{\sigma_X}}{\sqrt{n}}\bigg]$$ \subsubsection{Vorzeichentest} @@ -776,8 +788,8 @@ $$I = \bigg[\bar{x_n} - t_{n-1;1-\frac{\alpha}{2}}\frac{\hat{\sigma_X}}{\sqrt{n} \item \textbf{Verwerfungsbereich für die Teststatistik}: \\ $$K=\begin{cases} [0,c_u] \cup [c_0,n], \quad \;\; \mathrm{bei} \; H_A: \mu \neq \mu_0 \\ - [0,c_u], \qquad\qquad\kern 1.44em \mathrm{bei} \; H_A: \mu < \mu_0 \\ - [c_0,n], \qquad\qquad\quad\kern 0.46em \mathrm{bei} \; H_A: \mu > \mu_0 + [0,c], \qquad\qquad\kern 2.1em \mathrm{bei} \; H_A: \mu < \mu_0 \\ + [c,n], \qquad\qquad\quad\kern 1em \mathrm{bei} \; H_A: \mu > \mu_0 \end{cases}$$ \item \textbf{Testentscheid}: \\ Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt. @@ -843,8 +855,8 @@ entsprechen, wobei $m \neq n$ nicht zwingend notwendig ist. Entscheidend ist, da \item \textbf{Verwerfungsbereich für die Teststatistik}:\\ $$K=\begin{cases} (-\infty,-t_{n+m-2;1-\frac{\alpha}{2}}] \cup [t_{n+m-2;1-\frac{\alpha}{2}},\infty), \quad \;\; \mathrm{bei} \; H_A: \mu_X \neq \mu_Y \\ - (-\infty,-t_{n+m-2;1-\frac{\alpha}{2}}], \qquad\qquad\qquad\qquad\kern 3.2em \mathrm{bei} \; H_A: \mu_X < \mu_Y \\ - [t_{n+m-2;1-\frac{\alpha}{2}},\infty), \qquad\qquad\qquad\qquad\qquad\quad\kern 2em \mathrm{bei} \; H_A: \mu_X > \mu_Y + (-\infty,-t_{n+m-2;1-\alpha}], \qquad\qquad\qquad\qquad\kern 3.2em \mathrm{bei} \; H_A: \mu_X < \mu_Y \\ + [t_{n+m-2;1-\alpha},\infty), \qquad\qquad\qquad\qquad\qquad\quad\kern 2em \mathrm{bei} \; H_A: \mu_X > \mu_Y \end{cases}$$ \item \textbf{Testentscheid}:\\ Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt. @@ -860,10 +872,6 @@ $$F_Y(x):=F_X(x-\delta)$$ was einer verschobenen Funktion von $F_X$ entspricht. -\begin{center} - \rule{.5\linewidth}{0.25pt} -\end{center} - \section{Regression} \subsection{Einfache Lineare Regression} \subsubsection{Modell} @@ -883,13 +891,13 @@ $Y$ bezeichnen wir als \textbf{Zielvariable (response variable)}, $x$ als \textb Das Modell aus \ref{sec:regmod} mit der \textit{Methode der kleinsten Quadrate} liefert $$\hat{\beta_0},\hat{\beta_1} \mathrm{\; Minimierung \; von \;} \sum_{i=1}^n(Y_i-(\beta_0+\beta_1x_i))^2,$$ daraus ergibt sich -$$\hat{\beta_1} = \frac{\sum_{i=1}^n(Y_i-\bar{Y_n})(x_i-\bar{x_n})}{\sum_{i=1}^n(x_i-\bar{x_n})^2}$$ +$$\hat{\beta_1} = \frac{\sum_{i=1}^n(y_i-\bar{y})(x_i-\bar{x})}{\sum_{i=1}^n(x_i-\bar{x})^2}$$ und -$$\hat{\beta_0} = \bar{Y_n} - \hat{\beta_1}\bar{x_n}$$ +$$\hat{\beta_0} = \bar{y} - \hat{\beta_1}\bar{x}$$ dabei gilt $$\mathbb{E}(\hat{\beta_0}) = \beta_0, \mathbb{E}(\hat{\beta_1}) = \beta_1$$ Für den \textbf{Standardfehler} gilt -$$s(\hat{\beta_1}) = \frac{\sigma}{\sqrt{\sum_{i=1}^n(x_i-\bar{x_n})^2}}.$$ +$$s(\hat{\beta_1}) = \frac{\sigma}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2}}.$$ Die \textbf{Residuen} $$R_i = Y_i - (\hat{\beta_0}+\hat{\beta_1)x_i}, i \in \{1,2,...,n\}$$ somit approximieren wir $E_i \approx R_i$ und daraus @@ -1385,10 +1393,10 @@ fit <- lm(y ~ x1 + x2) \multirow{2}{*}{} & \multicolumn{4}{c}{Annahmen} & \multicolumn{1}{|c}{\multirow{2}{*}{\begin{tabular}{l}$n_\mathrm{min}$ bei \\ $\alpha = 0.05$\end{tabular}}} & \multicolumn{1}{|c}{\multirow{2}{*}{\begin{tabular}{c}Macht \\ für Bsp.\end{tabular}}} \\ & \multicolumn{1}{c}{\begin{tabular}{c}$\sigma_X$ \\ bekannt\end{tabular}} & \multicolumn{1}{c}{$X_i \sim \mathcal{N}$} & \multicolumn{1}{c}{\begin{tabular}{c}sym. \\ Verteilung\end{tabular}} & \multicolumn{1}{c}{i.i.d.} & \multicolumn{1}{|c|}{} & \multicolumn{1}{c}{} \\ \hline\hline - z-Test & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c|}{$\sbullet$} & 1 & 89\% \\ - t-Test & & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c|}{$\sbullet$} & 2 & 79\% \\ - Wilcoxon & & & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c|}{$\sbullet$} & 6 & 79\% \\ - Vorzeichen & & & & \multicolumn{1}{c|}{$\sbullet$} & 5 & 48\% \\ + z-Test & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c|}{$\sbullet$} & 1 & $****$ \\ + t-Test & & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c|}{$\sbullet$} & 2 & $***$ \\ + Wilcoxon & & & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c|}{$\sbullet$} & 6 & $**$ \\ + Vorzeichen & & & & \multicolumn{1}{c|}{$\sbullet$} & 5 & $*$ \\ \hline \end{tabular} \caption{Übersicht der verschiedenen Tests für $\mu$}