Update zf-statistik.tex

Some Improvements and additions
2020-01-30 15:26:06 +01:00 · 2020-01-30 15:26:06 +01:00 · 367df6725b
commit 367df6725b
parent cb372c2a9d
1 changed files with 22 additions and 9 deletions
--- a/zf-statistik.tex
+++ b/zf-statistik.tex
@ -237,7 +237,7 @@ $$\sigma(X) = \sqrt{\mathrm{Var}(X)}$$
 $$P(X = 1) = \pi, P(X = 0) = 1 - \pi, 0 \leq \pi \leq 1$$
 Beschreibt das eintreffen bzw. nicht-eintreffen eines bestimmten Ereignisses.
-\subsubsection{Binomialverteilung \footnote{Dabei ist $\binom{n}{x} = \frac{n!}{x!(n-x)!}$}}
+\subsubsection{Binomialverteilung \footnote{Dabei ist $\binom{n}{x} = \frac{n!}{x!(n-x)!}$ (TR: nCr($n,x$))})}
 $$P(X = x) = \binom{n}{x} \pi^x(1 - \pi)^{n-x}, x \in \mathbb{N}_0$$
 Dabei ist $0 \leq \pi \leq 1$ der Erfolgsparameter der Verteilung. \\
 Notation: $X \sim \mathrm{Bin}(n,\pi)$ ($X$ folgt einer Binomialverteilung mit Parametern $n$ und $\pi$)
@ -249,6 +249,9 @@ Zusammenhänge:
  \item $X_1 \sim \mathrm{Bin}(n_1,\pi); X_2 \sim \mathrm{Bin}(n_2,\pi)$ unabhängig $\Rightarrow P(X_1=x_1 \cap X_2=x_2) = P(X_1 = x_1) \cdot P(X_2 = x_2)$
 \end{itemize}
 \textbf{Beispiel} \\
 Urne mit Zurücklegen
 \subsubsection{Poisson-($\lambda$)-verteilung}
 $$P(X = x) = \mathrm{exp}(-\lambda)\frac{\lambda^x}{x!}, x \in \mathbb{N}_0$$
 Dabei sind $\mathbb{E}(X) = \lambda, \mathrm{Var}(X) = \lambda, \sigma(X) = \sqrt{\lambda}$ \\
@ -282,7 +285,7 @@ Einfluss von entfernten Ereignissen auf Wahrscheinlichkeiten von neuen Ziehungen
 $$P(X = x)=\frac{\binom{m}{x}\binom{N-m}{n-x}}{\binom{N}{n}}$$
-$X \sim \mathrm{Hyper}(N,n,m)$, dabei $N$ die total möglichen Ereignisse, $m$ die "Gewinne" und es wird $n$ gezogen.
+$X \sim \mathrm{Hyper}(N,n,m)$, dabei $N$ die total möglichen Ereignisse, $m$ die Gewinne und es wird $n$ gezogen.
 \subsection{Kennwerte}
 \subsubsection{Bernoulli-Verteilung}
@ -391,6 +394,7 @@ $$P(X \leq c) \leq \alpha$$
 Also berechne mit Tabelle (schaue wo $P(X=x) \leq \alpha$ für verschiedene $x$ (kumulativ)) oder R.
 \subsubsection{Normalapproximation der Binomialverteilung}
 Gilt, wenn $n\pi > 5$ und $n(1-\pi) > 5$ (Faustregel) \\
 Für eine Verteilung $X \sim \mathrm{Binom}(n,\pi)$ und $\alpha = 0.05$ gilt für einseitige Tests:
 $$c \approx \begin{cases}
  n\pi_0+1.64\sqrt{n\pi_0(1-\pi_0)} \mathrm{\; bei \;} H_0: \pi > \pi_0 \mathrm{\; (aufgerundet)} \\
@ -472,7 +476,7 @@ Einteilung in Klassen, auftragen der Beobachtugen je Klasse in Balkendiagramm
 Rechteck, vom 75\%- und 25\%-Quantil begrenzt
 \begin{figure}[H]
  \centering
-  \includegraphics[width=.2\textwidth]{boxplot.png}
+  \includegraphics[width=.15\textwidth]{boxplot.png}
  \caption{Beispiel Boxplot (IQR = Interquartile-Range)}
  \label{fig:boxplot}
 \end{figure}
@ -506,6 +510,8 @@ $$F(x) = P(X \leq x)$$
 \subsubsection{Wahrscheinlichkeits-Dichte}
 $$f(x) = \dot{F}(x) \Longleftrightarrow F(x) = \int_{-\infty}^xf(y)\mathrm{d}y$$
 $$f(x) \geq 0, \forall x$$
 \subsection{Kennzahlen von stetigen Verteilungen}
 \begin{center}
  \begin{tabular}{rl}
@ -575,6 +581,10 @@ $$F(x) \Rightarrow \mathrm{Tabelle!}$$
  \end{tabular}
 \end{center}
 \textbf{Summe} \\
 Seien $X_1 \sim \mathcal{N}(\mu_1,\sigma_1^2)$ i.i.d., $X_2 \sim \mathcal{N}(\mu_2,\sigma_2^2)$ i.i.d. und $Y = X_1 + X_2$ dann ist
 $$Y \sim \mathcal{N}(\mu_1 + \mu_2, \sigma_1^2+\sigma_2^2)$$
 \subsubsection{Standard-Normalverteilung}
 $X \sim \mathcal{N}(0,1), \mathbb{W}_X = \mathbb{R}, \mu = 0 \; \mathrm{und} \; \sigma = 1$
 $$\varphi (x) = \frac{1}{\sqrt{2\pi}}\mathrm{exp}\bigg(-\frac{x^2}{2}\bigg)$$
@ -596,7 +606,7 @@ dann sind
  \begin{tabular}{rl}
    $\mathbb{E}(Y) =$ & $a +b\mathbb{E}(X)$ \\
    Var$(Y) =$ & $b^2 \cdot \mathrm{Var}(X)$ \\
-    $\sigma_Y =$ & $b \cdot \sqrt{\mathrm{Var}(X)}$ \\
+    $\sigma_Y =$ & $|b| \cdot \sqrt{\mathrm{Var}(X)}$ \\
    $q_Y(\alpha) =$ & $a+b\cdot q_X(\alpha)$
  \end{tabular}
 \end{center}
@ -637,7 +647,7 @@ $$Y = g(X_1, X_2, ... , X_n)$$
 Unabhängig heisst, dass es keine gemeinsamen Prozesse gibt, die den Ausgang beeinflussen. \\
 \textit{Notation}:
 $$X_1,X_2,...,X_n \; \mathrm{i.i.d}$$
-wobei \textit{i.i.d} für "independent, identically distributed" steht. \\
+wobei \textit{i.i.d} für \textit{independent, identically distributed} steht. \\
 Es gilt dann immer
 $$\mathbb{E}(X_1 + X_2) = \mathbb{E}(X_1) + \mathbb{E}(X_2)$$
 wenn $X_1,X_2$ unabhängig, auch
@ -839,7 +849,7 @@ $d_i$ seinen Realisierungen von $D_1,...D_n$ i.i.d. Somit vereinfacht sich die B
 Falls eine Paarung wie in \ref{sec:paired} nicht möglich ist und die Daten
 $$X_1,...X_n \mathrm{i.i.d}$$
 $$Y_1,...Y_m \mathrm{i.i.d}$$
-entsprechen, wobei $m \neq n$ nicht zwingend notwendig ist. Entscheidend ist, dass $x_i$ und $yi$ zu verschiedenen Versuchseinheiten geören und als unabhängig angenommen werden können.
+entsprechen, wobei $m \neq n$ nicht zwingend notwendig ist. Entscheidend ist, dass $x_i$ und $yi$ zu verschiedenen Versuchseinheiten gehören und als unabhängig angenommen werden können.
 \subsubsection{t-Test für ungepaarte Stichproben}
 \begin{enumerate}
@ -866,7 +876,7 @@ entsprechen, wobei $m \neq n$ nicht zwingend notwendig ist. Entscheidend ist, da
      \begin{center}
        \begin{tabular}{rl}
          $\displaystyle S_{pool}$ & $\displaystyle = \sqrt{\frac{1}{n+m-2}\bigg(\sum_{i=1}^n(X_i-\bar{X_n})^2+\sum_{i=1}^m(Y_i-\bar{Y_m})^2\bigg)}$ \\
-          & $\displaystyle = \sqrt{\frac{1}{n+m-2}\bigg((n-1)\hat{\sigma_X}^2+(m-1)\hat{\sigma_Y}^2\bigg)}$
+          & $\displaystyle = \sqrt{\frac{(n-1)\hat{\sigma_X}^2+(m-1)\hat{\sigma_Y}^2}{n+m-2}}$
        \end{tabular}
      \end{center}
      Verteilung der Teststatistik unter $H_0: T \sim t_{n+m-2}$
@ -929,7 +939,7 @@ $$\hat{\sigma}^2 = \frac{1}{n-2}\sum_{i=1}^nR_i^2$$
  $$Y_i = \beta_0 + \beta_1x_i + E_i$$ \\
  $$E_1, E_2, ..., E_n \; \mathrm{i.i.d.} \; \mathcal{N}(0, \sigma_X^2)$$
  \item \textbf{Nullhypothese}:
-      $$H_0: \beta = 0$$
+      $$H_0: \beta_1 = 0$$
    \textbf{Alternativhypothese}:
      $$H_A: \beta_1 \neq 0$$
    \item \textbf{Teststatistik}:
@ -944,6 +954,9 @@ $$\hat{\sigma}^2 = \frac{1}{n-2}\sum_{i=1}^nR_i^2$$
 \end{enumerate}
 Analog funktioniert auch ein \textit{t-Test} für $H_0: \beta_0 = 0, H_A: \beta_0 \neq 0$
 \subsubsection{t-Wert}
 $$\frac{\hat{\beta_i}}{s(\hat{\beta_i})}$$
 \subsubsection{P-Wert}
 Vgl. dazu \ref{sec:pval}, jedoch anstatt $n-1$ sind es hier $n-2$ Freiheitsgrade. Der P-Wert der Regression wird meist nicht von Hand berechnet (vgl. \ref{sec:rreg}).
@ -1317,7 +1330,7 @@ $$R^2 = \hat{\rho}_{Y\hat{Y}}^2$$
 Eigentliche Regression:
 \begin{lstlisting}
  ## Um das lineare Regressionsmodell Y_i = beta_0 + beta_1 x_i + E_i zu fitten, benutzt man
-  fit <- lm(y ~ x)
+  fit <- lm(y ~ x) #("y gegen x")
  ## Man kann Achsenabschnitt und Steigung sehen, wenn man sich das Objekt 'fit' anschaut:
  fit