Some Additions and corrections

2020-01-10 11:05:17 +01:00 · 2020-01-10 11:05:17 +01:00 · 954cdbe437
commit 954cdbe437
parent 01ef139aaa
1 changed files with 48 additions and 40 deletions
--- a/zf-statistik.tex
+++ b/zf-statistik.tex
@ -237,15 +237,16 @@ $$\sigma(X) = \sqrt{\mathrm{Var}(X)}$$
 $$P(X = 1) = \pi, P(X = 0) = 1 - \pi, 0 \leq \pi \leq 1$$
 Beschreibt das eintreffen bzw. nicht-eintreffen eines bestimmten Ereignisses.

-\subsubsection{Binominalverteilung \footnote{Dabei ist $\binom{n}{x} = \frac{n!}{x!(n-x)!}$}}
+\subsubsection{Binomialverteilung \footnote{Dabei ist $\binom{n}{x} = \frac{n!}{x!(n-x)!}$}}
 $$P(X = x) = \binom{n}{x} \pi^x(1 - \pi)^{n-x}, x \in \mathbb{N}_0$$
 Dabei ist $0 \leq \pi \leq 1$ der Erfolgsparameter der Verteilung. \\
-Notation: $X \sim \mathrm{Bin}(n,\pi)$ ($X$ folgt einer Binominalverteilung mit Parametern $n$ und $\pi$)
+Notation: $X \sim \mathrm{Bin}(n,\pi)$ ($X$ folgt einer Binomialverteilung mit Parametern $n$ und $\pi$)

 Zusammenhänge:
 \begin{itemize}
 	\item $\mathrm{Bin}(1,\pi) = \mathrm{Bernoulli}(\pi)$
 	\item $X_1 \sim \mathrm{Bin}(n_1,\pi); X_2 \sim \mathrm{Bin}(n_2,\pi)$ unabhängig $\Rightarrow S := X_1 + X_2$, dann $S \sim \mathrm{Bin}(n_1+n_2,\pi)$
+  \item $X_1 \sim \mathrm{Bin}(n_1,\pi); X_2 \sim \mathrm{Bin}(n_2,\pi)$ unabhängig $\Rightarrow P(X_1=x_1 \cap X_2=x_2) = P(X_1 = x_1) \cdot P(X_2 = x_2)$
 \end{itemize}

 \subsubsection{Poisson-($\lambda$)-verteilung}
@ -253,10 +254,10 @@ $$P(X = x) = \mathrm{exp}(-\lambda)\frac{\lambda^x}{x!}, x \in \mathbb{N}_0$$
 Dabei sind $\mathbb{E}(X) = \lambda, \mathrm{Var}(X) = \lambda, \sigma(X) = \sqrt{\lambda}$ \\
 Für zwei unabhängige Poisson-Verteilungen $X \sim \mathrm{Poisson(\lambda_x)}, Y \sim \mathrm{Poisson}(\lambda_y)$ ist $X + Y \sim \mathrm{Poisson}(\lambda_x + \lambda_y)$ \\
 Es gilt auch
-$$P(X > n) = P(X \leq n) = 1 - (P(X = 0) + P(X=1) + ... + P(X = n))$$
+$$P(X > n) = 1 - P(X \leq n) = 1 - (P(X = 0) + P(X=1) + ... + P(X = n))$$

 \subsubsection{Geometrische Verteilung}
-Sei $X \sim \mathrm{Poisson}(\pi)$, dann ist
+Sei $X \sim \mathrm{Bernoulli}(\pi)$, dann ist
 $$Y = P(X=n) = \pi (1 - \pi)^{n-1}$$
 die Anzahl Fehlversuche bis zu einem erfogreichen Versuch.

@ -268,7 +269,7 @@ wobei $\lambda = n\pi$
 \begin{figure}[H]
  \centering
  \includegraphics[width=.15\textwidth]{poisson-approx.png}
-  \caption{Poisson Approximation der Binominalverteilung}
+  \caption{Poisson Approximation der Binomialverteilung}
  \label{fig:poisson-approx}
 \end{figure}

@ -329,9 +330,6 @@ $X \sim \mathrm{Hyper}(N,n,m)$, dabei $N$ die total möglichen Ereignisse, $m$ d
  \end{tabular}
 \end{center}

-\begin{center}
-	\rule{.5\linewidth}{0.25pt}
-\end{center}

 \section{Statistik für Zähldaten}
 \begin{enumerate}
@ -343,7 +341,7 @@ $X \sim \mathrm{Hyper}(N,n,m)$, dabei $N$ die total möglichen Ereignisse, $m$ d
 \subsection{Punktschätzung von Parametern}
 $\hat{X}$ bezeichnet den Schätzwert von $X$
 \\ \\
-Bei \textbf{Binominalverteilung}:
+Bei \textbf{Binomialverteilung}:
 \subsubsection{Momentenmehtode}
 Aus $\mathbb{E}(X) = n\pi \Leftrightarrow \pi = \frac{\mathbb{E}(X)}{x}$, daraus $\hat{\mathbb{E}(X)}=x$ und somit
 $$\hat{\pi} = \frac{x}{n}$$
@ -355,7 +353,7 @@ Vorgehen:
 	\item $\frac{\mathrm{d}P}{\mathrm{d}\pi} = 0$
 	\item auflösen nach $\pi$
 \end{itemize}
-Dies ist für eine Binominalverteilung ebenfalls $\hat{\pi} = \frac{x}{n}$
+Dies ist für eine Binomialverteilung ebenfalls $\hat{\pi} = \frac{x}{n}$

 \subsection{Aufbau statistischer Test}
 $P(X \geq c)$ für verschiedene $c$
@ -382,9 +380,25 @@ $P(X \geq c)$ für verschiedene $c$
 	$$K = \begin{cases}
 		[0,c_u] \cup [c_0,n] & H_A: \pi \neq \pi_0 \\ [c,n] & H_A: \pi > \pi_0 \\ [0,c] & H_A: \pi < \pi_0
 	\end{cases}$$
+  Wobei $c$ der Wert ist bei dem $P(X \leq c) = \alpha$
 	\item Testentscheid: Ist $t \in K$? Falls ja wird $H_0$ verworfen, falls nicht wird sie als korrekt angenommen\footnote{Achtung: Das heisst nicht, dass $H_0$ gültig ist! (Falsifizierbarkeit)}
 \end{enumerate}

+\textbf{Bsp. Berechnung von $c$} \\
+Es sei $X \sim \mathrm{Bin}(150,0.1)$ unter $H_A: \pi < 0.1$. Dann soll
+$$P(X \leq c) \leq \alpha$$
+Also berechne mit Tabelle (schaue wo $P(X=x) \leq \alpha$ für verschiedene $x$ (kumulativ)) oder R.
+
+\subsubsection{Normalapproximation der Binomialverteilung}
+Für eine Verteilung $X \sim \mathrm{Binom}(n,\pi)$ und $\alpha = 0.05$ gilt für einseitige Tests:
+$$c \approx \begin{cases}
+  n\pi_0+1.64\sqrt{n\pi_0(1-\pi_0)} \mathrm{\; bei \;} H_0: \pi > \pi_0 \mathrm{\; (abgerundet)} \\
+  n\pi_0-1.64\sqrt{n\pi_0(1-\pi_0)} \mathrm{\; bei \;} H_0: \pi < \pi_0 \mathrm{\; (aufgerundet)} \\
+\end{cases}$$
+
+Für einen zweiseitigen Test ($\pi \neq \pi_0$) gilt:
+$$c_0 \approx n\pi_0+1.96\sqrt{n\pi_0(1-\pi_0)} \mathrm{\; (abgerundet)}$$
+$$c_u \approx n\pi_0-1.96\sqrt{n\pi_0(1-\pi_0)} \mathrm{\; (aufgerundet)}$$
 \subsubsection{Fehler 1. und 2. Art}
 \label{sec:fehler12}
 \begin{enumerate}
@ -397,7 +411,7 @@ Fehler 1. Art soll möglichst vermieden werden!

 \subsubsection{Macht (Power)}
 \label{sec:macht}
-$$\mathrm{Macht}:=1-P(\mathrm{Fehler \; 2. \; Art}) = P_{H_A} (X \in K)$$
+$$\mathrm{Macht}:=1-P(\mathrm{Fehler \; 2. \; Art}) = P_{H_A} (X \in K) = P(X \geq c) \mathrm{\; z.B.}$$
 Idee: Wie gross muss eine Stichprobe sein, damit mit einer bestimmten Macht $\beta=x$ eine Hypothese bewiesen werden kann auf Signifikanzniveau $\alpha$?

 \subsubsection{P-Wert}
@ -406,13 +420,11 @@ Der P-Wert ist ein Wert zwischen 0 und 1, der angibt, wie gut Nullhypothese und
 \subsubsection{Vertrauensintervall (VI)}
 \label{sec:vertrauensintervall}
 $$I:=\{\pi_0;\; \mathrm{Nullhypothese} \; H_0:\pi = \pi_0 \mathrm{wird \; beibehalten}\}$$
+Für grosse $n$ gilt
+$$I \approx \frac{x}{n} \pm \sqrt{\frac{x}{n}(1-\frac{x}{n})\frac{1}{n}}$$
 Die Werte von $\pi_0$ bei denen $H_0: \pi = \pi_0$ nicht verworfen wird, ist ein $(1-\alpha)$-VI.
 $$P_\pi(\pi \in I(X) \gtrapprox 1-\alpha)$$
-Ein $(1-\alpha)$-VI, enthält den wahren Parameter $\pi$ mit einer Wahrscheinlichkeit von $(1-\alpha)$
-
-\begin{center}
-	\rule{.5\linewidth}{0.25pt}
-\end{center}
+Ein $(1-\alpha)$-VI, enthält den wahren Parameter $\pi$ mit einer Wahrscheinlichkeit von $(1-\alpha)$ \\

 \section{Modelle und Statistik für Zähldaten}
 \subsection{Deskriptive Statistik}
@ -488,7 +500,7 @@ $$F(x) = P(X \leq x)$$
  \label{fig:kumulative}
 \end{figure}

-\subsubsection{(Wahrscheinlichkeits-)Dichte)}
+\subsubsection{Wahrscheinlichkeits-Dichte}
 $$f(x) = \dot{F}(x) \Longleftrightarrow F(x) = \int_{-\infty}^xf(y)\mathrm{d}y$$

 \subsection{Kennzahlen von stetigen Verteilungen}
@ -541,7 +553,7 @@ $$F(x) = \begin{cases}
 \textbf{Kennzahlen}
 \begin{center}
  \begin{tabular}{rl}
-    $\mathbb{E}(X) =$ & $\frac{1}{\lambda}x$ \\
+    $\mathbb{E}(X) =$ & $\frac{1}{\lambda}$ \\
    Var$(X) =$ & $\frac{1}{\lambda^2}$ \\
    $\sigma_X =$ & $\frac{1}{\lambda}$
  \end{tabular}
@ -699,8 +711,8 @@ Wenn $\mathbb{E}(X_i) = \mu$ und $\mathrm{Var}(X_i) = \sigma_X^2$ gesucht:
  \item \textbf{Verwerfungsbereich für die Teststatistik}:\\
    $$K=\begin{cases}
      (-\infty,-\Phi^{-1}(1-\frac{\alpha}{2}]\cup [\Phi^{-1}(1-\frac{\alpha}{2}),\infty), \quad \, \mathrm{bei} \; H_A: \mu \neq \mu_0 \\
-      (-\infty,-\Phi^{-1}(1-\frac{\alpha}{2}], \qquad\qquad\qquad\qquad\qquad\kern .025em \mathrm{bei} \; H_A: \mu < \mu_0 \\
-      [\Phi^{-1}(1-\frac{\alpha}{2}),\infty), \qquad\qquad\qquad\qquad\qquad\quad\kern 0.25em \mathrm{bei} \; H_A: \mu > \mu_0
+      (-\infty,-\Phi^{-1}(1-\alpha], \qquad\qquad\qquad\qquad\qquad\kern .025em \mathrm{bei} \; H_A: \mu < \mu_0 \\
+      [\Phi^{-1}(1-\alpha),\infty), \qquad\qquad\qquad\qquad\qquad\quad\kern 0.25em \mathrm{bei} \; H_A: \mu > \mu_0
    \end{cases}$$
    \item \textbf{Testentscheid}:\\
      Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt.
@ -737,8 +749,8 @@ $$P_\mu(T \in K) = \mathrm{Macht}(\mu)$$
    \item \textbf{Verwerfungsbereich für die Teststatistik}:\\
      $$K=\begin{cases}
        (-\infty,-t_{n-1;1-\frac{\alpha}{2}}] \cup [t_{n-1;1-\frac{\alpha}{2}},\infty), \quad \;\; \mathrm{bei} \; H_A: \mu \neq \mu_0 \\
-        (-\infty,-t_{n-1;1-\frac{\alpha}{2}}], \qquad\qquad\qquad\qquad\kern 1.6em \mathrm{bei} \; H_A: \mu < \mu_0 \\
-        [t_{n-1;1-\frac{\alpha}{2}},\infty), \qquad\qquad\qquad\qquad\qquad\quad\kern 0.25em \mathrm{bei} \; H_A: \mu > \mu_0
+        (-\infty,-t_{n-1;1-\alpha}], \qquad\qquad\qquad\qquad\kern 1.6em \mathrm{bei} \; H_A: \mu < \mu_0 \\
+        [t_{n-1;1-\alpha},\infty), \qquad\qquad\qquad\qquad\qquad\quad\kern 0.25em \mathrm{bei} \; H_A: \mu > \mu_0
      \end{cases}$$
      \item \textbf{Testentscheid}:\\
        Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt.
@ -751,9 +763,9 @@ wobei $F_{t_{n-a}}$ die kumulative Verteilungsfunktion der t-Verteilung mit $n-1

 \subsubsection{Vertrauensintervall für $\mu$}
 Vgl. auch \ref{sec:vertrauensintervall}\\
-Aus
-$$\mu_0 \leq \bar{x_n}+\frac{\hat{\sigma_X}\cdot t_{n-1;1-\frac{\alpha}{2}}}{\sqrt{n}} \mathrm{\; und \;} \mu_0 \geq \bar{x_n}-\frac{\hat{\sigma_X}\cdot t_{n-1;1-\frac{\alpha}{2}}}{\sqrt{n}}$$
-folgt das Intervall
+Für einseitige Intervalle
+$$\mu_0 \leq \bar{x_n}+\frac{\hat{\sigma_X}\cdot t_{n-1;1-\alpha}}{\sqrt{n}} \mathrm{\; und \;} \mu_0 \geq \bar{x_n}-\frac{\hat{\sigma_X}\cdot t_{n-1;1-\alpha}}{\sqrt{n}}$$
+und das zweiseitige Intervall
 $$I = \bigg[\bar{x_n} - t_{n-1;1-\frac{\alpha}{2}}\frac{\hat{\sigma_X}}{\sqrt{n}},\bar{x_n} + t_{n-1;1-\frac{\alpha}{2}}\frac{\hat{\sigma_X}}{\sqrt{n}}\bigg]$$

 \subsubsection{Vorzeichentest}
@ -776,8 +788,8 @@ $$I = \bigg[\bar{x_n} - t_{n-1;1-\frac{\alpha}{2}}\frac{\hat{\sigma_X}}{\sqrt{n}
  \item \textbf{Verwerfungsbereich für die Teststatistik}: \\
    $$K=\begin{cases}
      [0,c_u] \cup [c_0,n], \quad \;\; \mathrm{bei} \; H_A: \mu \neq \mu_0 \\
-      [0,c_u], \qquad\qquad\kern 1.44em \mathrm{bei} \; H_A: \mu < \mu_0 \\
-      [c_0,n], \qquad\qquad\quad\kern 0.46em \mathrm{bei} \; H_A: \mu > \mu_0
+      [0,c], \qquad\qquad\kern 2.1em \mathrm{bei} \; H_A: \mu < \mu_0 \\
+      [c,n], \qquad\qquad\quad\kern 1em \mathrm{bei} \; H_A: \mu > \mu_0
    \end{cases}$$
  \item \textbf{Testentscheid}: \\
    Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt.
@ -843,8 +855,8 @@ entsprechen, wobei $m \neq n$ nicht zwingend notwendig ist. Entscheidend ist, da
    \item \textbf{Verwerfungsbereich für die Teststatistik}:\\
      $$K=\begin{cases}
        (-\infty,-t_{n+m-2;1-\frac{\alpha}{2}}] \cup [t_{n+m-2;1-\frac{\alpha}{2}},\infty), \quad \;\; \mathrm{bei} \; H_A: \mu_X \neq \mu_Y \\
-        (-\infty,-t_{n+m-2;1-\frac{\alpha}{2}}], \qquad\qquad\qquad\qquad\kern 3.2em \mathrm{bei} \; H_A: \mu_X < \mu_Y \\
-        [t_{n+m-2;1-\frac{\alpha}{2}},\infty), \qquad\qquad\qquad\qquad\qquad\quad\kern 2em \mathrm{bei} \; H_A: \mu_X > \mu_Y
+        (-\infty,-t_{n+m-2;1-\alpha}], \qquad\qquad\qquad\qquad\kern 3.2em \mathrm{bei} \; H_A: \mu_X < \mu_Y \\
+        [t_{n+m-2;1-\alpha},\infty), \qquad\qquad\qquad\qquad\qquad\quad\kern 2em \mathrm{bei} \; H_A: \mu_X > \mu_Y
      \end{cases}$$
      \item \textbf{Testentscheid}:\\
        Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt.
@ -860,10 +872,6 @@ $$F_Y(x):=F_X(x-\delta)$$
 was einer verschobenen Funktion von $F_X$ entspricht.


-\begin{center}
-	\rule{.5\linewidth}{0.25pt}
-\end{center}
-
 \section{Regression}
 \subsection{Einfache Lineare Regression}
 \subsubsection{Modell}
@ -883,13 +891,13 @@ $Y$ bezeichnen wir als \textbf{Zielvariable (response variable)}, $x$ als \textb
 Das Modell aus \ref{sec:regmod} mit der \textit{Methode der kleinsten Quadrate} liefert
 $$\hat{\beta_0},\hat{\beta_1} \mathrm{\; Minimierung \; von \;} \sum_{i=1}^n(Y_i-(\beta_0+\beta_1x_i))^2,$$
 daraus ergibt sich
-$$\hat{\beta_1} = \frac{\sum_{i=1}^n(Y_i-\bar{Y_n})(x_i-\bar{x_n})}{\sum_{i=1}^n(x_i-\bar{x_n})^2}$$
+$$\hat{\beta_1} = \frac{\sum_{i=1}^n(y_i-\bar{y})(x_i-\bar{x})}{\sum_{i=1}^n(x_i-\bar{x})^2}$$
 und
-$$\hat{\beta_0} = \bar{Y_n} - \hat{\beta_1}\bar{x_n}$$
+$$\hat{\beta_0} = \bar{y} - \hat{\beta_1}\bar{x}$$
 dabei gilt
 $$\mathbb{E}(\hat{\beta_0}) = \beta_0, \mathbb{E}(\hat{\beta_1}) = \beta_1$$
 Für den \textbf{Standardfehler} gilt
-$$s(\hat{\beta_1}) = \frac{\sigma}{\sqrt{\sum_{i=1}^n(x_i-\bar{x_n})^2}}.$$
+$$s(\hat{\beta_1}) = \frac{\sigma}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2}}.$$
 Die \textbf{Residuen}
 $$R_i = Y_i - (\hat{\beta_0}+\hat{\beta_1)x_i}, i \in \{1,2,...,n\}$$
 somit approximieren wir $E_i \approx R_i$ und daraus
@ -1385,10 +1393,10 @@ fit <- lm(y ~ x1 + x2)
    \multirow{2}{*}{} & \multicolumn{4}{c}{Annahmen} & \multicolumn{1}{|c}{\multirow{2}{*}{\begin{tabular}{l}$n_\mathrm{min}$ bei \\ $\alpha = 0.05$\end{tabular}}} & \multicolumn{1}{|c}{\multirow{2}{*}{\begin{tabular}{c}Macht \\ für Bsp.\end{tabular}}} \\
     & \multicolumn{1}{c}{\begin{tabular}{c}$\sigma_X$ \\ bekannt\end{tabular}} & \multicolumn{1}{c}{$X_i \sim \mathcal{N}$} & \multicolumn{1}{c}{\begin{tabular}{c}sym. \\ Verteilung\end{tabular}} & \multicolumn{1}{c}{i.i.d.} & \multicolumn{1}{|c|}{} & \multicolumn{1}{c}{} \\
     \hline\hline
-    z-Test & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c|}{$\sbullet$} & 1 & 89\% \\
-    t-Test &  & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c|}{$\sbullet$} & 2 & 79\% \\
-    Wilcoxon &  &  & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c|}{$\sbullet$} & 6 & 79\% \\
-    Vorzeichen &  &  &  & \multicolumn{1}{c|}{$\sbullet$} & 5 & 48\% \\
+    z-Test & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c|}{$\sbullet$} & 1 & $****$ \\
+    t-Test &  & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c|}{$\sbullet$} & 2 & $***$ \\
+    Wilcoxon &  &  & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c|}{$\sbullet$} & 6 & $**$ \\
+    Vorzeichen &  &  &  & \multicolumn{1}{c|}{$\sbullet$} & 5 & $*$ \\
    \hline
  \end{tabular}
  \caption{Übersicht der verschiedenen Tests für $\mu$}