Update zf-statistik.tex

Some Improvements and additions
This commit is contained in:
Jannis Portmann 2020-01-30 15:26:06 +01:00
parent cb372c2a9d
commit 367df6725b

View file

@ -237,7 +237,7 @@ $$\sigma(X) = \sqrt{\mathrm{Var}(X)}$$
$$P(X = 1) = \pi, P(X = 0) = 1 - \pi, 0 \leq \pi \leq 1$$ $$P(X = 1) = \pi, P(X = 0) = 1 - \pi, 0 \leq \pi \leq 1$$
Beschreibt das eintreffen bzw. nicht-eintreffen eines bestimmten Ereignisses. Beschreibt das eintreffen bzw. nicht-eintreffen eines bestimmten Ereignisses.
\subsubsection{Binomialverteilung \footnote{Dabei ist $\binom{n}{x} = \frac{n!}{x!(n-x)!}$}} \subsubsection{Binomialverteilung \footnote{Dabei ist $\binom{n}{x} = \frac{n!}{x!(n-x)!}$ (TR: nCr($n,x$))})}
$$P(X = x) = \binom{n}{x} \pi^x(1 - \pi)^{n-x}, x \in \mathbb{N}_0$$ $$P(X = x) = \binom{n}{x} \pi^x(1 - \pi)^{n-x}, x \in \mathbb{N}_0$$
Dabei ist $0 \leq \pi \leq 1$ der Erfolgsparameter der Verteilung. \\ Dabei ist $0 \leq \pi \leq 1$ der Erfolgsparameter der Verteilung. \\
Notation: $X \sim \mathrm{Bin}(n,\pi)$ ($X$ folgt einer Binomialverteilung mit Parametern $n$ und $\pi$) Notation: $X \sim \mathrm{Bin}(n,\pi)$ ($X$ folgt einer Binomialverteilung mit Parametern $n$ und $\pi$)
@ -249,6 +249,9 @@ Zusammenhänge:
\item $X_1 \sim \mathrm{Bin}(n_1,\pi); X_2 \sim \mathrm{Bin}(n_2,\pi)$ unabhängig $\Rightarrow P(X_1=x_1 \cap X_2=x_2) = P(X_1 = x_1) \cdot P(X_2 = x_2)$ \item $X_1 \sim \mathrm{Bin}(n_1,\pi); X_2 \sim \mathrm{Bin}(n_2,\pi)$ unabhängig $\Rightarrow P(X_1=x_1 \cap X_2=x_2) = P(X_1 = x_1) \cdot P(X_2 = x_2)$
\end{itemize} \end{itemize}
\textbf{Beispiel} \\
Urne mit Zurücklegen
\subsubsection{Poisson-($\lambda$)-verteilung} \subsubsection{Poisson-($\lambda$)-verteilung}
$$P(X = x) = \mathrm{exp}(-\lambda)\frac{\lambda^x}{x!}, x \in \mathbb{N}_0$$ $$P(X = x) = \mathrm{exp}(-\lambda)\frac{\lambda^x}{x!}, x \in \mathbb{N}_0$$
Dabei sind $\mathbb{E}(X) = \lambda, \mathrm{Var}(X) = \lambda, \sigma(X) = \sqrt{\lambda}$ \\ Dabei sind $\mathbb{E}(X) = \lambda, \mathrm{Var}(X) = \lambda, \sigma(X) = \sqrt{\lambda}$ \\
@ -282,7 +285,7 @@ Einfluss von entfernten Ereignissen auf Wahrscheinlichkeiten von neuen Ziehungen
$$P(X = x)=\frac{\binom{m}{x}\binom{N-m}{n-x}}{\binom{N}{n}}$$ $$P(X = x)=\frac{\binom{m}{x}\binom{N-m}{n-x}}{\binom{N}{n}}$$
$X \sim \mathrm{Hyper}(N,n,m)$, dabei $N$ die total möglichen Ereignisse, $m$ die "Gewinne" und es wird $n$ gezogen. $X \sim \mathrm{Hyper}(N,n,m)$, dabei $N$ die total möglichen Ereignisse, $m$ die Gewinne und es wird $n$ gezogen.
\subsection{Kennwerte} \subsection{Kennwerte}
\subsubsection{Bernoulli-Verteilung} \subsubsection{Bernoulli-Verteilung}
@ -391,6 +394,7 @@ $$P(X \leq c) \leq \alpha$$
Also berechne mit Tabelle (schaue wo $P(X=x) \leq \alpha$ für verschiedene $x$ (kumulativ)) oder R. Also berechne mit Tabelle (schaue wo $P(X=x) \leq \alpha$ für verschiedene $x$ (kumulativ)) oder R.
\subsubsection{Normalapproximation der Binomialverteilung} \subsubsection{Normalapproximation der Binomialverteilung}
Gilt, wenn $n\pi > 5$ und $n(1-\pi) > 5$ (Faustregel) \\
Für eine Verteilung $X \sim \mathrm{Binom}(n,\pi)$ und $\alpha = 0.05$ gilt für einseitige Tests: Für eine Verteilung $X \sim \mathrm{Binom}(n,\pi)$ und $\alpha = 0.05$ gilt für einseitige Tests:
$$c \approx \begin{cases} $$c \approx \begin{cases}
n\pi_0+1.64\sqrt{n\pi_0(1-\pi_0)} \mathrm{\; bei \;} H_0: \pi > \pi_0 \mathrm{\; (aufgerundet)} \\ n\pi_0+1.64\sqrt{n\pi_0(1-\pi_0)} \mathrm{\; bei \;} H_0: \pi > \pi_0 \mathrm{\; (aufgerundet)} \\
@ -472,7 +476,7 @@ Einteilung in Klassen, auftragen der Beobachtugen je Klasse in Balkendiagramm
Rechteck, vom 75\%- und 25\%-Quantil begrenzt Rechteck, vom 75\%- und 25\%-Quantil begrenzt
\begin{figure}[H] \begin{figure}[H]
\centering \centering
\includegraphics[width=.2\textwidth]{boxplot.png} \includegraphics[width=.15\textwidth]{boxplot.png}
\caption{Beispiel Boxplot (IQR = Interquartile-Range)} \caption{Beispiel Boxplot (IQR = Interquartile-Range)}
\label{fig:boxplot} \label{fig:boxplot}
\end{figure} \end{figure}
@ -506,6 +510,8 @@ $$F(x) = P(X \leq x)$$
\subsubsection{Wahrscheinlichkeits-Dichte} \subsubsection{Wahrscheinlichkeits-Dichte}
$$f(x) = \dot{F}(x) \Longleftrightarrow F(x) = \int_{-\infty}^xf(y)\mathrm{d}y$$ $$f(x) = \dot{F}(x) \Longleftrightarrow F(x) = \int_{-\infty}^xf(y)\mathrm{d}y$$
$$f(x) \geq 0, \forall x$$
\subsection{Kennzahlen von stetigen Verteilungen} \subsection{Kennzahlen von stetigen Verteilungen}
\begin{center} \begin{center}
\begin{tabular}{rl} \begin{tabular}{rl}
@ -575,6 +581,10 @@ $$F(x) \Rightarrow \mathrm{Tabelle!}$$
\end{tabular} \end{tabular}
\end{center} \end{center}
\textbf{Summe} \\
Seien $X_1 \sim \mathcal{N}(\mu_1,\sigma_1^2)$ i.i.d., $X_2 \sim \mathcal{N}(\mu_2,\sigma_2^2)$ i.i.d. und $Y = X_1 + X_2$ dann ist
$$Y \sim \mathcal{N}(\mu_1 + \mu_2, \sigma_1^2+\sigma_2^2)$$
\subsubsection{Standard-Normalverteilung} \subsubsection{Standard-Normalverteilung}
$X \sim \mathcal{N}(0,1), \mathbb{W}_X = \mathbb{R}, \mu = 0 \; \mathrm{und} \; \sigma = 1$ $X \sim \mathcal{N}(0,1), \mathbb{W}_X = \mathbb{R}, \mu = 0 \; \mathrm{und} \; \sigma = 1$
$$\varphi (x) = \frac{1}{\sqrt{2\pi}}\mathrm{exp}\bigg(-\frac{x^2}{2}\bigg)$$ $$\varphi (x) = \frac{1}{\sqrt{2\pi}}\mathrm{exp}\bigg(-\frac{x^2}{2}\bigg)$$
@ -596,7 +606,7 @@ dann sind
\begin{tabular}{rl} \begin{tabular}{rl}
$\mathbb{E}(Y) =$ & $a +b\mathbb{E}(X)$ \\ $\mathbb{E}(Y) =$ & $a +b\mathbb{E}(X)$ \\
Var$(Y) =$ & $b^2 \cdot \mathrm{Var}(X)$ \\ Var$(Y) =$ & $b^2 \cdot \mathrm{Var}(X)$ \\
$\sigma_Y =$ & $b \cdot \sqrt{\mathrm{Var}(X)}$ \\ $\sigma_Y =$ & $|b| \cdot \sqrt{\mathrm{Var}(X)}$ \\
$q_Y(\alpha) =$ & $a+b\cdot q_X(\alpha)$ $q_Y(\alpha) =$ & $a+b\cdot q_X(\alpha)$
\end{tabular} \end{tabular}
\end{center} \end{center}
@ -637,7 +647,7 @@ $$Y = g(X_1, X_2, ... , X_n)$$
Unabhängig heisst, dass es keine gemeinsamen Prozesse gibt, die den Ausgang beeinflussen. \\ Unabhängig heisst, dass es keine gemeinsamen Prozesse gibt, die den Ausgang beeinflussen. \\
\textit{Notation}: \textit{Notation}:
$$X_1,X_2,...,X_n \; \mathrm{i.i.d}$$ $$X_1,X_2,...,X_n \; \mathrm{i.i.d}$$
wobei \textit{i.i.d} für "independent, identically distributed" steht. \\ wobei \textit{i.i.d} für \textit{independent, identically distributed} steht. \\
Es gilt dann immer Es gilt dann immer
$$\mathbb{E}(X_1 + X_2) = \mathbb{E}(X_1) + \mathbb{E}(X_2)$$ $$\mathbb{E}(X_1 + X_2) = \mathbb{E}(X_1) + \mathbb{E}(X_2)$$
wenn $X_1,X_2$ unabhängig, auch wenn $X_1,X_2$ unabhängig, auch
@ -839,7 +849,7 @@ $d_i$ seinen Realisierungen von $D_1,...D_n$ i.i.d. Somit vereinfacht sich die B
Falls eine Paarung wie in \ref{sec:paired} nicht möglich ist und die Daten Falls eine Paarung wie in \ref{sec:paired} nicht möglich ist und die Daten
$$X_1,...X_n \mathrm{i.i.d}$$ $$X_1,...X_n \mathrm{i.i.d}$$
$$Y_1,...Y_m \mathrm{i.i.d}$$ $$Y_1,...Y_m \mathrm{i.i.d}$$
entsprechen, wobei $m \neq n$ nicht zwingend notwendig ist. Entscheidend ist, dass $x_i$ und $yi$ zu verschiedenen Versuchseinheiten geören und als unabhängig angenommen werden können. entsprechen, wobei $m \neq n$ nicht zwingend notwendig ist. Entscheidend ist, dass $x_i$ und $yi$ zu verschiedenen Versuchseinheiten gehören und als unabhängig angenommen werden können.
\subsubsection{t-Test für ungepaarte Stichproben} \subsubsection{t-Test für ungepaarte Stichproben}
\begin{enumerate} \begin{enumerate}
@ -866,7 +876,7 @@ entsprechen, wobei $m \neq n$ nicht zwingend notwendig ist. Entscheidend ist, da
\begin{center} \begin{center}
\begin{tabular}{rl} \begin{tabular}{rl}
$\displaystyle S_{pool}$ & $\displaystyle = \sqrt{\frac{1}{n+m-2}\bigg(\sum_{i=1}^n(X_i-\bar{X_n})^2+\sum_{i=1}^m(Y_i-\bar{Y_m})^2\bigg)}$ \\ $\displaystyle S_{pool}$ & $\displaystyle = \sqrt{\frac{1}{n+m-2}\bigg(\sum_{i=1}^n(X_i-\bar{X_n})^2+\sum_{i=1}^m(Y_i-\bar{Y_m})^2\bigg)}$ \\
& $\displaystyle = \sqrt{\frac{1}{n+m-2}\bigg((n-1)\hat{\sigma_X}^2+(m-1)\hat{\sigma_Y}^2\bigg)}$ & $\displaystyle = \sqrt{\frac{(n-1)\hat{\sigma_X}^2+(m-1)\hat{\sigma_Y}^2}{n+m-2}}$
\end{tabular} \end{tabular}
\end{center} \end{center}
Verteilung der Teststatistik unter $H_0: T \sim t_{n+m-2}$ Verteilung der Teststatistik unter $H_0: T \sim t_{n+m-2}$
@ -929,7 +939,7 @@ $$\hat{\sigma}^2 = \frac{1}{n-2}\sum_{i=1}^nR_i^2$$
$$Y_i = \beta_0 + \beta_1x_i + E_i$$ \\ $$Y_i = \beta_0 + \beta_1x_i + E_i$$ \\
$$E_1, E_2, ..., E_n \; \mathrm{i.i.d.} \; \mathcal{N}(0, \sigma_X^2)$$ $$E_1, E_2, ..., E_n \; \mathrm{i.i.d.} \; \mathcal{N}(0, \sigma_X^2)$$
\item \textbf{Nullhypothese}: \item \textbf{Nullhypothese}:
$$H_0: \beta = 0$$ $$H_0: \beta_1 = 0$$
\textbf{Alternativhypothese}: \textbf{Alternativhypothese}:
$$H_A: \beta_1 \neq 0$$ $$H_A: \beta_1 \neq 0$$
\item \textbf{Teststatistik}: \item \textbf{Teststatistik}:
@ -944,6 +954,9 @@ $$\hat{\sigma}^2 = \frac{1}{n-2}\sum_{i=1}^nR_i^2$$
\end{enumerate} \end{enumerate}
Analog funktioniert auch ein \textit{t-Test} für $H_0: \beta_0 = 0, H_A: \beta_0 \neq 0$ Analog funktioniert auch ein \textit{t-Test} für $H_0: \beta_0 = 0, H_A: \beta_0 \neq 0$
\subsubsection{t-Wert}
$$\frac{\hat{\beta_i}}{s(\hat{\beta_i})}$$
\subsubsection{P-Wert} \subsubsection{P-Wert}
Vgl. dazu \ref{sec:pval}, jedoch anstatt $n-1$ sind es hier $n-2$ Freiheitsgrade. Der P-Wert der Regression wird meist nicht von Hand berechnet (vgl. \ref{sec:rreg}). Vgl. dazu \ref{sec:pval}, jedoch anstatt $n-1$ sind es hier $n-2$ Freiheitsgrade. Der P-Wert der Regression wird meist nicht von Hand berechnet (vgl. \ref{sec:rreg}).
@ -1317,7 +1330,7 @@ $$R^2 = \hat{\rho}_{Y\hat{Y}}^2$$
Eigentliche Regression: Eigentliche Regression:
\begin{lstlisting} \begin{lstlisting}
## Um das lineare Regressionsmodell Y_i = beta_0 + beta_1 x_i + E_i zu fitten, benutzt man ## Um das lineare Regressionsmodell Y_i = beta_0 + beta_1 x_i + E_i zu fitten, benutzt man
fit <- lm(y ~ x) fit <- lm(y ~ x) #("y gegen x")
## Man kann Achsenabschnitt und Steigung sehen, wenn man sich das Objekt 'fit' anschaut: ## Man kann Achsenabschnitt und Steigung sehen, wenn man sich das Objekt 'fit' anschaut:
fit fit