Some Additions and corrections

This commit is contained in:
Jannis Portmann 2020-01-10 11:05:17 +01:00
parent 01ef139aaa
commit 954cdbe437

View file

@ -237,15 +237,16 @@ $$\sigma(X) = \sqrt{\mathrm{Var}(X)}$$
$$P(X = 1) = \pi, P(X = 0) = 1 - \pi, 0 \leq \pi \leq 1$$
Beschreibt das eintreffen bzw. nicht-eintreffen eines bestimmten Ereignisses.
\subsubsection{Binominalverteilung \footnote{Dabei ist $\binom{n}{x} = \frac{n!}{x!(n-x)!}$}}
\subsubsection{Binomialverteilung \footnote{Dabei ist $\binom{n}{x} = \frac{n!}{x!(n-x)!}$}}
$$P(X = x) = \binom{n}{x} \pi^x(1 - \pi)^{n-x}, x \in \mathbb{N}_0$$
Dabei ist $0 \leq \pi \leq 1$ der Erfolgsparameter der Verteilung. \\
Notation: $X \sim \mathrm{Bin}(n,\pi)$ ($X$ folgt einer Binominalverteilung mit Parametern $n$ und $\pi$)
Notation: $X \sim \mathrm{Bin}(n,\pi)$ ($X$ folgt einer Binomialverteilung mit Parametern $n$ und $\pi$)
Zusammenhänge:
\begin{itemize}
\item $\mathrm{Bin}(1,\pi) = \mathrm{Bernoulli}(\pi)$
\item $X_1 \sim \mathrm{Bin}(n_1,\pi); X_2 \sim \mathrm{Bin}(n_2,\pi)$ unabhängig $\Rightarrow S := X_1 + X_2$, dann $S \sim \mathrm{Bin}(n_1+n_2,\pi)$
\item $X_1 \sim \mathrm{Bin}(n_1,\pi); X_2 \sim \mathrm{Bin}(n_2,\pi)$ unabhängig $\Rightarrow P(X_1=x_1 \cap X_2=x_2) = P(X_1 = x_1) \cdot P(X_2 = x_2)$
\end{itemize}
\subsubsection{Poisson-($\lambda$)-verteilung}
@ -253,10 +254,10 @@ $$P(X = x) = \mathrm{exp}(-\lambda)\frac{\lambda^x}{x!}, x \in \mathbb{N}_0$$
Dabei sind $\mathbb{E}(X) = \lambda, \mathrm{Var}(X) = \lambda, \sigma(X) = \sqrt{\lambda}$ \\
Für zwei unabhängige Poisson-Verteilungen $X \sim \mathrm{Poisson(\lambda_x)}, Y \sim \mathrm{Poisson}(\lambda_y)$ ist $X + Y \sim \mathrm{Poisson}(\lambda_x + \lambda_y)$ \\
Es gilt auch
$$P(X > n) = P(X \leq n) = 1 - (P(X = 0) + P(X=1) + ... + P(X = n))$$
$$P(X > n) = 1 - P(X \leq n) = 1 - (P(X = 0) + P(X=1) + ... + P(X = n))$$
\subsubsection{Geometrische Verteilung}
Sei $X \sim \mathrm{Poisson}(\pi)$, dann ist
Sei $X \sim \mathrm{Bernoulli}(\pi)$, dann ist
$$Y = P(X=n) = \pi (1 - \pi)^{n-1}$$
die Anzahl Fehlversuche bis zu einem erfogreichen Versuch.
@ -268,7 +269,7 @@ wobei $\lambda = n\pi$
\begin{figure}[H]
\centering
\includegraphics[width=.15\textwidth]{poisson-approx.png}
\caption{Poisson Approximation der Binominalverteilung}
\caption{Poisson Approximation der Binomialverteilung}
\label{fig:poisson-approx}
\end{figure}
@ -329,9 +330,6 @@ $X \sim \mathrm{Hyper}(N,n,m)$, dabei $N$ die total möglichen Ereignisse, $m$ d
\end{tabular}
\end{center}
\begin{center}
\rule{.5\linewidth}{0.25pt}
\end{center}
\section{Statistik für Zähldaten}
\begin{enumerate}
@ -343,7 +341,7 @@ $X \sim \mathrm{Hyper}(N,n,m)$, dabei $N$ die total möglichen Ereignisse, $m$ d
\subsection{Punktschätzung von Parametern}
$\hat{X}$ bezeichnet den Schätzwert von $X$
\\ \\
Bei \textbf{Binominalverteilung}:
Bei \textbf{Binomialverteilung}:
\subsubsection{Momentenmehtode}
Aus $\mathbb{E}(X) = n\pi \Leftrightarrow \pi = \frac{\mathbb{E}(X)}{x}$, daraus $\hat{\mathbb{E}(X)}=x$ und somit
$$\hat{\pi} = \frac{x}{n}$$
@ -355,7 +353,7 @@ Vorgehen:
\item $\frac{\mathrm{d}P}{\mathrm{d}\pi} = 0$
\item auflösen nach $\pi$
\end{itemize}
Dies ist für eine Binominalverteilung ebenfalls $\hat{\pi} = \frac{x}{n}$
Dies ist für eine Binomialverteilung ebenfalls $\hat{\pi} = \frac{x}{n}$
\subsection{Aufbau statistischer Test}
$P(X \geq c)$ für verschiedene $c$
@ -382,9 +380,25 @@ $P(X \geq c)$ für verschiedene $c$
$$K = \begin{cases}
[0,c_u] \cup [c_0,n] & H_A: \pi \neq \pi_0 \\ [c,n] & H_A: \pi > \pi_0 \\ [0,c] & H_A: \pi < \pi_0
\end{cases}$$
Wobei $c$ der Wert ist bei dem $P(X \leq c) = \alpha$
\item Testentscheid: Ist $t \in K$? Falls ja wird $H_0$ verworfen, falls nicht wird sie als korrekt angenommen\footnote{Achtung: Das heisst nicht, dass $H_0$ gültig ist! (Falsifizierbarkeit)}
\end{enumerate}
\textbf{Bsp. Berechnung von $c$} \\
Es sei $X \sim \mathrm{Bin}(150,0.1)$ unter $H_A: \pi < 0.1$. Dann soll
$$P(X \leq c) \leq \alpha$$
Also berechne mit Tabelle (schaue wo $P(X=x) \leq \alpha$ für verschiedene $x$ (kumulativ)) oder R.
\subsubsection{Normalapproximation der Binomialverteilung}
Für eine Verteilung $X \sim \mathrm{Binom}(n,\pi)$ und $\alpha = 0.05$ gilt für einseitige Tests:
$$c \approx \begin{cases}
n\pi_0+1.64\sqrt{n\pi_0(1-\pi_0)} \mathrm{\; bei \;} H_0: \pi > \pi_0 \mathrm{\; (abgerundet)} \\
n\pi_0-1.64\sqrt{n\pi_0(1-\pi_0)} \mathrm{\; bei \;} H_0: \pi < \pi_0 \mathrm{\; (aufgerundet)} \\
\end{cases}$$
Für einen zweiseitigen Test ($\pi \neq \pi_0$) gilt:
$$c_0 \approx n\pi_0+1.96\sqrt{n\pi_0(1-\pi_0)} \mathrm{\; (abgerundet)}$$
$$c_u \approx n\pi_0-1.96\sqrt{n\pi_0(1-\pi_0)} \mathrm{\; (aufgerundet)}$$
\subsubsection{Fehler 1. und 2. Art}
\label{sec:fehler12}
\begin{enumerate}
@ -397,7 +411,7 @@ Fehler 1. Art soll möglichst vermieden werden!
\subsubsection{Macht (Power)}
\label{sec:macht}
$$\mathrm{Macht}:=1-P(\mathrm{Fehler \; 2. \; Art}) = P_{H_A} (X \in K)$$
$$\mathrm{Macht}:=1-P(\mathrm{Fehler \; 2. \; Art}) = P_{H_A} (X \in K) = P(X \geq c) \mathrm{\; z.B.}$$
Idee: Wie gross muss eine Stichprobe sein, damit mit einer bestimmten Macht $\beta=x$ eine Hypothese bewiesen werden kann auf Signifikanzniveau $\alpha$?
\subsubsection{P-Wert}
@ -406,13 +420,11 @@ Der P-Wert ist ein Wert zwischen 0 und 1, der angibt, wie gut Nullhypothese und
\subsubsection{Vertrauensintervall (VI)}
\label{sec:vertrauensintervall}
$$I:=\{\pi_0;\; \mathrm{Nullhypothese} \; H_0:\pi = \pi_0 \mathrm{wird \; beibehalten}\}$$
Für grosse $n$ gilt
$$I \approx \frac{x}{n} \pm \sqrt{\frac{x}{n}(1-\frac{x}{n})\frac{1}{n}}$$
Die Werte von $\pi_0$ bei denen $H_0: \pi = \pi_0$ nicht verworfen wird, ist ein $(1-\alpha)$-VI.
$$P_\pi(\pi \in I(X) \gtrapprox 1-\alpha)$$
Ein $(1-\alpha)$-VI, enthält den wahren Parameter $\pi$ mit einer Wahrscheinlichkeit von $(1-\alpha)$
\begin{center}
\rule{.5\linewidth}{0.25pt}
\end{center}
Ein $(1-\alpha)$-VI, enthält den wahren Parameter $\pi$ mit einer Wahrscheinlichkeit von $(1-\alpha)$ \\
\section{Modelle und Statistik für Zähldaten}
\subsection{Deskriptive Statistik}
@ -488,7 +500,7 @@ $$F(x) = P(X \leq x)$$
\label{fig:kumulative}
\end{figure}
\subsubsection{(Wahrscheinlichkeits-)Dichte)}
\subsubsection{Wahrscheinlichkeits-Dichte}
$$f(x) = \dot{F}(x) \Longleftrightarrow F(x) = \int_{-\infty}^xf(y)\mathrm{d}y$$
\subsection{Kennzahlen von stetigen Verteilungen}
@ -541,7 +553,7 @@ $$F(x) = \begin{cases}
\textbf{Kennzahlen}
\begin{center}
\begin{tabular}{rl}
$\mathbb{E}(X) =$ & $\frac{1}{\lambda}x$ \\
$\mathbb{E}(X) =$ & $\frac{1}{\lambda}$ \\
Var$(X) =$ & $\frac{1}{\lambda^2}$ \\
$\sigma_X =$ & $\frac{1}{\lambda}$
\end{tabular}
@ -699,8 +711,8 @@ Wenn $\mathbb{E}(X_i) = \mu$ und $\mathrm{Var}(X_i) = \sigma_X^2$ gesucht:
\item \textbf{Verwerfungsbereich für die Teststatistik}:\\
$$K=\begin{cases}
(-\infty,-\Phi^{-1}(1-\frac{\alpha}{2}]\cup [\Phi^{-1}(1-\frac{\alpha}{2}),\infty), \quad \, \mathrm{bei} \; H_A: \mu \neq \mu_0 \\
(-\infty,-\Phi^{-1}(1-\frac{\alpha}{2}], \qquad\qquad\qquad\qquad\qquad\kern .025em \mathrm{bei} \; H_A: \mu < \mu_0 \\
[\Phi^{-1}(1-\frac{\alpha}{2}),\infty), \qquad\qquad\qquad\qquad\qquad\quad\kern 0.25em \mathrm{bei} \; H_A: \mu > \mu_0
(-\infty,-\Phi^{-1}(1-\alpha], \qquad\qquad\qquad\qquad\qquad\kern .025em \mathrm{bei} \; H_A: \mu < \mu_0 \\
[\Phi^{-1}(1-\alpha),\infty), \qquad\qquad\qquad\qquad\qquad\quad\kern 0.25em \mathrm{bei} \; H_A: \mu > \mu_0
\end{cases}$$
\item \textbf{Testentscheid}:\\
Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt.
@ -737,8 +749,8 @@ $$P_\mu(T \in K) = \mathrm{Macht}(\mu)$$
\item \textbf{Verwerfungsbereich für die Teststatistik}:\\
$$K=\begin{cases}
(-\infty,-t_{n-1;1-\frac{\alpha}{2}}] \cup [t_{n-1;1-\frac{\alpha}{2}},\infty), \quad \;\; \mathrm{bei} \; H_A: \mu \neq \mu_0 \\
(-\infty,-t_{n-1;1-\frac{\alpha}{2}}], \qquad\qquad\qquad\qquad\kern 1.6em \mathrm{bei} \; H_A: \mu < \mu_0 \\
[t_{n-1;1-\frac{\alpha}{2}},\infty), \qquad\qquad\qquad\qquad\qquad\quad\kern 0.25em \mathrm{bei} \; H_A: \mu > \mu_0
(-\infty,-t_{n-1;1-\alpha}], \qquad\qquad\qquad\qquad\kern 1.6em \mathrm{bei} \; H_A: \mu < \mu_0 \\
[t_{n-1;1-\alpha},\infty), \qquad\qquad\qquad\qquad\qquad\quad\kern 0.25em \mathrm{bei} \; H_A: \mu > \mu_0
\end{cases}$$
\item \textbf{Testentscheid}:\\
Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt.
@ -751,9 +763,9 @@ wobei $F_{t_{n-a}}$ die kumulative Verteilungsfunktion der t-Verteilung mit $n-1
\subsubsection{Vertrauensintervall für $\mu$}
Vgl. auch \ref{sec:vertrauensintervall}\\
Aus
$$\mu_0 \leq \bar{x_n}+\frac{\hat{\sigma_X}\cdot t_{n-1;1-\frac{\alpha}{2}}}{\sqrt{n}} \mathrm{\; und \;} \mu_0 \geq \bar{x_n}-\frac{\hat{\sigma_X}\cdot t_{n-1;1-\frac{\alpha}{2}}}{\sqrt{n}}$$
folgt das Intervall
Für einseitige Intervalle
$$\mu_0 \leq \bar{x_n}+\frac{\hat{\sigma_X}\cdot t_{n-1;1-\alpha}}{\sqrt{n}} \mathrm{\; und \;} \mu_0 \geq \bar{x_n}-\frac{\hat{\sigma_X}\cdot t_{n-1;1-\alpha}}{\sqrt{n}}$$
und das zweiseitige Intervall
$$I = \bigg[\bar{x_n} - t_{n-1;1-\frac{\alpha}{2}}\frac{\hat{\sigma_X}}{\sqrt{n}},\bar{x_n} + t_{n-1;1-\frac{\alpha}{2}}\frac{\hat{\sigma_X}}{\sqrt{n}}\bigg]$$
\subsubsection{Vorzeichentest}
@ -776,8 +788,8 @@ $$I = \bigg[\bar{x_n} - t_{n-1;1-\frac{\alpha}{2}}\frac{\hat{\sigma_X}}{\sqrt{n}
\item \textbf{Verwerfungsbereich für die Teststatistik}: \\
$$K=\begin{cases}
[0,c_u] \cup [c_0,n], \quad \;\; \mathrm{bei} \; H_A: \mu \neq \mu_0 \\
[0,c_u], \qquad\qquad\kern 1.44em \mathrm{bei} \; H_A: \mu < \mu_0 \\
[c_0,n], \qquad\qquad\quad\kern 0.46em \mathrm{bei} \; H_A: \mu > \mu_0
[0,c], \qquad\qquad\kern 2.1em \mathrm{bei} \; H_A: \mu < \mu_0 \\
[c,n], \qquad\qquad\quad\kern 1em \mathrm{bei} \; H_A: \mu > \mu_0
\end{cases}$$
\item \textbf{Testentscheid}: \\
Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt.
@ -843,8 +855,8 @@ entsprechen, wobei $m \neq n$ nicht zwingend notwendig ist. Entscheidend ist, da
\item \textbf{Verwerfungsbereich für die Teststatistik}:\\
$$K=\begin{cases}
(-\infty,-t_{n+m-2;1-\frac{\alpha}{2}}] \cup [t_{n+m-2;1-\frac{\alpha}{2}},\infty), \quad \;\; \mathrm{bei} \; H_A: \mu_X \neq \mu_Y \\
(-\infty,-t_{n+m-2;1-\frac{\alpha}{2}}], \qquad\qquad\qquad\qquad\kern 3.2em \mathrm{bei} \; H_A: \mu_X < \mu_Y \\
[t_{n+m-2;1-\frac{\alpha}{2}},\infty), \qquad\qquad\qquad\qquad\qquad\quad\kern 2em \mathrm{bei} \; H_A: \mu_X > \mu_Y
(-\infty,-t_{n+m-2;1-\alpha}], \qquad\qquad\qquad\qquad\kern 3.2em \mathrm{bei} \; H_A: \mu_X < \mu_Y \\
[t_{n+m-2;1-\alpha},\infty), \qquad\qquad\qquad\qquad\qquad\quad\kern 2em \mathrm{bei} \; H_A: \mu_X > \mu_Y
\end{cases}$$
\item \textbf{Testentscheid}:\\
Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt.
@ -860,10 +872,6 @@ $$F_Y(x):=F_X(x-\delta)$$
was einer verschobenen Funktion von $F_X$ entspricht.
\begin{center}
\rule{.5\linewidth}{0.25pt}
\end{center}
\section{Regression}
\subsection{Einfache Lineare Regression}
\subsubsection{Modell}
@ -883,13 +891,13 @@ $Y$ bezeichnen wir als \textbf{Zielvariable (response variable)}, $x$ als \textb
Das Modell aus \ref{sec:regmod} mit der \textit{Methode der kleinsten Quadrate} liefert
$$\hat{\beta_0},\hat{\beta_1} \mathrm{\; Minimierung \; von \;} \sum_{i=1}^n(Y_i-(\beta_0+\beta_1x_i))^2,$$
daraus ergibt sich
$$\hat{\beta_1} = \frac{\sum_{i=1}^n(Y_i-\bar{Y_n})(x_i-\bar{x_n})}{\sum_{i=1}^n(x_i-\bar{x_n})^2}$$
$$\hat{\beta_1} = \frac{\sum_{i=1}^n(y_i-\bar{y})(x_i-\bar{x})}{\sum_{i=1}^n(x_i-\bar{x})^2}$$
und
$$\hat{\beta_0} = \bar{Y_n} - \hat{\beta_1}\bar{x_n}$$
$$\hat{\beta_0} = \bar{y} - \hat{\beta_1}\bar{x}$$
dabei gilt
$$\mathbb{E}(\hat{\beta_0}) = \beta_0, \mathbb{E}(\hat{\beta_1}) = \beta_1$$
Für den \textbf{Standardfehler} gilt
$$s(\hat{\beta_1}) = \frac{\sigma}{\sqrt{\sum_{i=1}^n(x_i-\bar{x_n})^2}}.$$
$$s(\hat{\beta_1}) = \frac{\sigma}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2}}.$$
Die \textbf{Residuen}
$$R_i = Y_i - (\hat{\beta_0}+\hat{\beta_1)x_i}, i \in \{1,2,...,n\}$$
somit approximieren wir $E_i \approx R_i$ und daraus
@ -1385,10 +1393,10 @@ fit <- lm(y ~ x1 + x2)
\multirow{2}{*}{} & \multicolumn{4}{c}{Annahmen} & \multicolumn{1}{|c}{\multirow{2}{*}{\begin{tabular}{l}$n_\mathrm{min}$ bei \\ $\alpha = 0.05$\end{tabular}}} & \multicolumn{1}{|c}{\multirow{2}{*}{\begin{tabular}{c}Macht \\ für Bsp.\end{tabular}}} \\
& \multicolumn{1}{c}{\begin{tabular}{c}$\sigma_X$ \\ bekannt\end{tabular}} & \multicolumn{1}{c}{$X_i \sim \mathcal{N}$} & \multicolumn{1}{c}{\begin{tabular}{c}sym. \\ Verteilung\end{tabular}} & \multicolumn{1}{c}{i.i.d.} & \multicolumn{1}{|c|}{} & \multicolumn{1}{c}{} \\
\hline\hline
z-Test & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c|}{$\sbullet$} & 1 & 89\% \\
t-Test & & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c|}{$\sbullet$} & 2 & 79\% \\
Wilcoxon & & & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c|}{$\sbullet$} & 6 & 79\% \\
Vorzeichen & & & & \multicolumn{1}{c|}{$\sbullet$} & 5 & 48\% \\
z-Test & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c|}{$\sbullet$} & 1 & $****$ \\
t-Test & & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c|}{$\sbullet$} & 2 & $***$ \\
Wilcoxon & & & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c|}{$\sbullet$} & 6 & $**$ \\
Vorzeichen & & & & \multicolumn{1}{c|}{$\sbullet$} & 5 & $*$ \\
\hline
\end{tabular}
\caption{Übersicht der verschiedenen Tests für $\mu$}