Update zf-statistik.tex
Some Improvements and additions
This commit is contained in:
parent
cb372c2a9d
commit
367df6725b
1 changed files with 22 additions and 9 deletions
|
@ -237,7 +237,7 @@ $$\sigma(X) = \sqrt{\mathrm{Var}(X)}$$
|
||||||
$$P(X = 1) = \pi, P(X = 0) = 1 - \pi, 0 \leq \pi \leq 1$$
|
$$P(X = 1) = \pi, P(X = 0) = 1 - \pi, 0 \leq \pi \leq 1$$
|
||||||
Beschreibt das eintreffen bzw. nicht-eintreffen eines bestimmten Ereignisses.
|
Beschreibt das eintreffen bzw. nicht-eintreffen eines bestimmten Ereignisses.
|
||||||
|
|
||||||
\subsubsection{Binomialverteilung \footnote{Dabei ist $\binom{n}{x} = \frac{n!}{x!(n-x)!}$}}
|
\subsubsection{Binomialverteilung \footnote{Dabei ist $\binom{n}{x} = \frac{n!}{x!(n-x)!}$ (TR: nCr($n,x$))})}
|
||||||
$$P(X = x) = \binom{n}{x} \pi^x(1 - \pi)^{n-x}, x \in \mathbb{N}_0$$
|
$$P(X = x) = \binom{n}{x} \pi^x(1 - \pi)^{n-x}, x \in \mathbb{N}_0$$
|
||||||
Dabei ist $0 \leq \pi \leq 1$ der Erfolgsparameter der Verteilung. \\
|
Dabei ist $0 \leq \pi \leq 1$ der Erfolgsparameter der Verteilung. \\
|
||||||
Notation: $X \sim \mathrm{Bin}(n,\pi)$ ($X$ folgt einer Binomialverteilung mit Parametern $n$ und $\pi$)
|
Notation: $X \sim \mathrm{Bin}(n,\pi)$ ($X$ folgt einer Binomialverteilung mit Parametern $n$ und $\pi$)
|
||||||
|
@ -249,6 +249,9 @@ Zusammenhänge:
|
||||||
\item $X_1 \sim \mathrm{Bin}(n_1,\pi); X_2 \sim \mathrm{Bin}(n_2,\pi)$ unabhängig $\Rightarrow P(X_1=x_1 \cap X_2=x_2) = P(X_1 = x_1) \cdot P(X_2 = x_2)$
|
\item $X_1 \sim \mathrm{Bin}(n_1,\pi); X_2 \sim \mathrm{Bin}(n_2,\pi)$ unabhängig $\Rightarrow P(X_1=x_1 \cap X_2=x_2) = P(X_1 = x_1) \cdot P(X_2 = x_2)$
|
||||||
\end{itemize}
|
\end{itemize}
|
||||||
|
|
||||||
|
\textbf{Beispiel} \\
|
||||||
|
Urne mit Zurücklegen
|
||||||
|
|
||||||
\subsubsection{Poisson-($\lambda$)-verteilung}
|
\subsubsection{Poisson-($\lambda$)-verteilung}
|
||||||
$$P(X = x) = \mathrm{exp}(-\lambda)\frac{\lambda^x}{x!}, x \in \mathbb{N}_0$$
|
$$P(X = x) = \mathrm{exp}(-\lambda)\frac{\lambda^x}{x!}, x \in \mathbb{N}_0$$
|
||||||
Dabei sind $\mathbb{E}(X) = \lambda, \mathrm{Var}(X) = \lambda, \sigma(X) = \sqrt{\lambda}$ \\
|
Dabei sind $\mathbb{E}(X) = \lambda, \mathrm{Var}(X) = \lambda, \sigma(X) = \sqrt{\lambda}$ \\
|
||||||
|
@ -282,7 +285,7 @@ Einfluss von entfernten Ereignissen auf Wahrscheinlichkeiten von neuen Ziehungen
|
||||||
|
|
||||||
$$P(X = x)=\frac{\binom{m}{x}\binom{N-m}{n-x}}{\binom{N}{n}}$$
|
$$P(X = x)=\frac{\binom{m}{x}\binom{N-m}{n-x}}{\binom{N}{n}}$$
|
||||||
|
|
||||||
$X \sim \mathrm{Hyper}(N,n,m)$, dabei $N$ die total möglichen Ereignisse, $m$ die "Gewinne" und es wird $n$ gezogen.
|
$X \sim \mathrm{Hyper}(N,n,m)$, dabei $N$ die total möglichen Ereignisse, $m$ die Gewinne und es wird $n$ gezogen.
|
||||||
|
|
||||||
\subsection{Kennwerte}
|
\subsection{Kennwerte}
|
||||||
\subsubsection{Bernoulli-Verteilung}
|
\subsubsection{Bernoulli-Verteilung}
|
||||||
|
@ -391,6 +394,7 @@ $$P(X \leq c) \leq \alpha$$
|
||||||
Also berechne mit Tabelle (schaue wo $P(X=x) \leq \alpha$ für verschiedene $x$ (kumulativ)) oder R.
|
Also berechne mit Tabelle (schaue wo $P(X=x) \leq \alpha$ für verschiedene $x$ (kumulativ)) oder R.
|
||||||
|
|
||||||
\subsubsection{Normalapproximation der Binomialverteilung}
|
\subsubsection{Normalapproximation der Binomialverteilung}
|
||||||
|
Gilt, wenn $n\pi > 5$ und $n(1-\pi) > 5$ (Faustregel) \\
|
||||||
Für eine Verteilung $X \sim \mathrm{Binom}(n,\pi)$ und $\alpha = 0.05$ gilt für einseitige Tests:
|
Für eine Verteilung $X \sim \mathrm{Binom}(n,\pi)$ und $\alpha = 0.05$ gilt für einseitige Tests:
|
||||||
$$c \approx \begin{cases}
|
$$c \approx \begin{cases}
|
||||||
n\pi_0+1.64\sqrt{n\pi_0(1-\pi_0)} \mathrm{\; bei \;} H_0: \pi > \pi_0 \mathrm{\; (aufgerundet)} \\
|
n\pi_0+1.64\sqrt{n\pi_0(1-\pi_0)} \mathrm{\; bei \;} H_0: \pi > \pi_0 \mathrm{\; (aufgerundet)} \\
|
||||||
|
@ -472,7 +476,7 @@ Einteilung in Klassen, auftragen der Beobachtugen je Klasse in Balkendiagramm
|
||||||
Rechteck, vom 75\%- und 25\%-Quantil begrenzt
|
Rechteck, vom 75\%- und 25\%-Quantil begrenzt
|
||||||
\begin{figure}[H]
|
\begin{figure}[H]
|
||||||
\centering
|
\centering
|
||||||
\includegraphics[width=.2\textwidth]{boxplot.png}
|
\includegraphics[width=.15\textwidth]{boxplot.png}
|
||||||
\caption{Beispiel Boxplot (IQR = Interquartile-Range)}
|
\caption{Beispiel Boxplot (IQR = Interquartile-Range)}
|
||||||
\label{fig:boxplot}
|
\label{fig:boxplot}
|
||||||
\end{figure}
|
\end{figure}
|
||||||
|
@ -506,6 +510,8 @@ $$F(x) = P(X \leq x)$$
|
||||||
\subsubsection{Wahrscheinlichkeits-Dichte}
|
\subsubsection{Wahrscheinlichkeits-Dichte}
|
||||||
$$f(x) = \dot{F}(x) \Longleftrightarrow F(x) = \int_{-\infty}^xf(y)\mathrm{d}y$$
|
$$f(x) = \dot{F}(x) \Longleftrightarrow F(x) = \int_{-\infty}^xf(y)\mathrm{d}y$$
|
||||||
|
|
||||||
|
$$f(x) \geq 0, \forall x$$
|
||||||
|
|
||||||
\subsection{Kennzahlen von stetigen Verteilungen}
|
\subsection{Kennzahlen von stetigen Verteilungen}
|
||||||
\begin{center}
|
\begin{center}
|
||||||
\begin{tabular}{rl}
|
\begin{tabular}{rl}
|
||||||
|
@ -575,6 +581,10 @@ $$F(x) \Rightarrow \mathrm{Tabelle!}$$
|
||||||
\end{tabular}
|
\end{tabular}
|
||||||
\end{center}
|
\end{center}
|
||||||
|
|
||||||
|
\textbf{Summe} \\
|
||||||
|
Seien $X_1 \sim \mathcal{N}(\mu_1,\sigma_1^2)$ i.i.d., $X_2 \sim \mathcal{N}(\mu_2,\sigma_2^2)$ i.i.d. und $Y = X_1 + X_2$ dann ist
|
||||||
|
$$Y \sim \mathcal{N}(\mu_1 + \mu_2, \sigma_1^2+\sigma_2^2)$$
|
||||||
|
|
||||||
\subsubsection{Standard-Normalverteilung}
|
\subsubsection{Standard-Normalverteilung}
|
||||||
$X \sim \mathcal{N}(0,1), \mathbb{W}_X = \mathbb{R}, \mu = 0 \; \mathrm{und} \; \sigma = 1$
|
$X \sim \mathcal{N}(0,1), \mathbb{W}_X = \mathbb{R}, \mu = 0 \; \mathrm{und} \; \sigma = 1$
|
||||||
$$\varphi (x) = \frac{1}{\sqrt{2\pi}}\mathrm{exp}\bigg(-\frac{x^2}{2}\bigg)$$
|
$$\varphi (x) = \frac{1}{\sqrt{2\pi}}\mathrm{exp}\bigg(-\frac{x^2}{2}\bigg)$$
|
||||||
|
@ -596,7 +606,7 @@ dann sind
|
||||||
\begin{tabular}{rl}
|
\begin{tabular}{rl}
|
||||||
$\mathbb{E}(Y) =$ & $a +b\mathbb{E}(X)$ \\
|
$\mathbb{E}(Y) =$ & $a +b\mathbb{E}(X)$ \\
|
||||||
Var$(Y) =$ & $b^2 \cdot \mathrm{Var}(X)$ \\
|
Var$(Y) =$ & $b^2 \cdot \mathrm{Var}(X)$ \\
|
||||||
$\sigma_Y =$ & $b \cdot \sqrt{\mathrm{Var}(X)}$ \\
|
$\sigma_Y =$ & $|b| \cdot \sqrt{\mathrm{Var}(X)}$ \\
|
||||||
$q_Y(\alpha) =$ & $a+b\cdot q_X(\alpha)$
|
$q_Y(\alpha) =$ & $a+b\cdot q_X(\alpha)$
|
||||||
\end{tabular}
|
\end{tabular}
|
||||||
\end{center}
|
\end{center}
|
||||||
|
@ -637,7 +647,7 @@ $$Y = g(X_1, X_2, ... , X_n)$$
|
||||||
Unabhängig heisst, dass es keine gemeinsamen Prozesse gibt, die den Ausgang beeinflussen. \\
|
Unabhängig heisst, dass es keine gemeinsamen Prozesse gibt, die den Ausgang beeinflussen. \\
|
||||||
\textit{Notation}:
|
\textit{Notation}:
|
||||||
$$X_1,X_2,...,X_n \; \mathrm{i.i.d}$$
|
$$X_1,X_2,...,X_n \; \mathrm{i.i.d}$$
|
||||||
wobei \textit{i.i.d} für "independent, identically distributed" steht. \\
|
wobei \textit{i.i.d} für \textit{independent, identically distributed} steht. \\
|
||||||
Es gilt dann immer
|
Es gilt dann immer
|
||||||
$$\mathbb{E}(X_1 + X_2) = \mathbb{E}(X_1) + \mathbb{E}(X_2)$$
|
$$\mathbb{E}(X_1 + X_2) = \mathbb{E}(X_1) + \mathbb{E}(X_2)$$
|
||||||
wenn $X_1,X_2$ unabhängig, auch
|
wenn $X_1,X_2$ unabhängig, auch
|
||||||
|
@ -839,7 +849,7 @@ $d_i$ seinen Realisierungen von $D_1,...D_n$ i.i.d. Somit vereinfacht sich die B
|
||||||
Falls eine Paarung wie in \ref{sec:paired} nicht möglich ist und die Daten
|
Falls eine Paarung wie in \ref{sec:paired} nicht möglich ist und die Daten
|
||||||
$$X_1,...X_n \mathrm{i.i.d}$$
|
$$X_1,...X_n \mathrm{i.i.d}$$
|
||||||
$$Y_1,...Y_m \mathrm{i.i.d}$$
|
$$Y_1,...Y_m \mathrm{i.i.d}$$
|
||||||
entsprechen, wobei $m \neq n$ nicht zwingend notwendig ist. Entscheidend ist, dass $x_i$ und $yi$ zu verschiedenen Versuchseinheiten geören und als unabhängig angenommen werden können.
|
entsprechen, wobei $m \neq n$ nicht zwingend notwendig ist. Entscheidend ist, dass $x_i$ und $yi$ zu verschiedenen Versuchseinheiten gehören und als unabhängig angenommen werden können.
|
||||||
|
|
||||||
\subsubsection{t-Test für ungepaarte Stichproben}
|
\subsubsection{t-Test für ungepaarte Stichproben}
|
||||||
\begin{enumerate}
|
\begin{enumerate}
|
||||||
|
@ -866,7 +876,7 @@ entsprechen, wobei $m \neq n$ nicht zwingend notwendig ist. Entscheidend ist, da
|
||||||
\begin{center}
|
\begin{center}
|
||||||
\begin{tabular}{rl}
|
\begin{tabular}{rl}
|
||||||
$\displaystyle S_{pool}$ & $\displaystyle = \sqrt{\frac{1}{n+m-2}\bigg(\sum_{i=1}^n(X_i-\bar{X_n})^2+\sum_{i=1}^m(Y_i-\bar{Y_m})^2\bigg)}$ \\
|
$\displaystyle S_{pool}$ & $\displaystyle = \sqrt{\frac{1}{n+m-2}\bigg(\sum_{i=1}^n(X_i-\bar{X_n})^2+\sum_{i=1}^m(Y_i-\bar{Y_m})^2\bigg)}$ \\
|
||||||
& $\displaystyle = \sqrt{\frac{1}{n+m-2}\bigg((n-1)\hat{\sigma_X}^2+(m-1)\hat{\sigma_Y}^2\bigg)}$
|
& $\displaystyle = \sqrt{\frac{(n-1)\hat{\sigma_X}^2+(m-1)\hat{\sigma_Y}^2}{n+m-2}}$
|
||||||
\end{tabular}
|
\end{tabular}
|
||||||
\end{center}
|
\end{center}
|
||||||
Verteilung der Teststatistik unter $H_0: T \sim t_{n+m-2}$
|
Verteilung der Teststatistik unter $H_0: T \sim t_{n+m-2}$
|
||||||
|
@ -929,7 +939,7 @@ $$\hat{\sigma}^2 = \frac{1}{n-2}\sum_{i=1}^nR_i^2$$
|
||||||
$$Y_i = \beta_0 + \beta_1x_i + E_i$$ \\
|
$$Y_i = \beta_0 + \beta_1x_i + E_i$$ \\
|
||||||
$$E_1, E_2, ..., E_n \; \mathrm{i.i.d.} \; \mathcal{N}(0, \sigma_X^2)$$
|
$$E_1, E_2, ..., E_n \; \mathrm{i.i.d.} \; \mathcal{N}(0, \sigma_X^2)$$
|
||||||
\item \textbf{Nullhypothese}:
|
\item \textbf{Nullhypothese}:
|
||||||
$$H_0: \beta = 0$$
|
$$H_0: \beta_1 = 0$$
|
||||||
\textbf{Alternativhypothese}:
|
\textbf{Alternativhypothese}:
|
||||||
$$H_A: \beta_1 \neq 0$$
|
$$H_A: \beta_1 \neq 0$$
|
||||||
\item \textbf{Teststatistik}:
|
\item \textbf{Teststatistik}:
|
||||||
|
@ -944,6 +954,9 @@ $$\hat{\sigma}^2 = \frac{1}{n-2}\sum_{i=1}^nR_i^2$$
|
||||||
\end{enumerate}
|
\end{enumerate}
|
||||||
Analog funktioniert auch ein \textit{t-Test} für $H_0: \beta_0 = 0, H_A: \beta_0 \neq 0$
|
Analog funktioniert auch ein \textit{t-Test} für $H_0: \beta_0 = 0, H_A: \beta_0 \neq 0$
|
||||||
|
|
||||||
|
\subsubsection{t-Wert}
|
||||||
|
$$\frac{\hat{\beta_i}}{s(\hat{\beta_i})}$$
|
||||||
|
|
||||||
\subsubsection{P-Wert}
|
\subsubsection{P-Wert}
|
||||||
Vgl. dazu \ref{sec:pval}, jedoch anstatt $n-1$ sind es hier $n-2$ Freiheitsgrade. Der P-Wert der Regression wird meist nicht von Hand berechnet (vgl. \ref{sec:rreg}).
|
Vgl. dazu \ref{sec:pval}, jedoch anstatt $n-1$ sind es hier $n-2$ Freiheitsgrade. Der P-Wert der Regression wird meist nicht von Hand berechnet (vgl. \ref{sec:rreg}).
|
||||||
|
|
||||||
|
@ -1317,7 +1330,7 @@ $$R^2 = \hat{\rho}_{Y\hat{Y}}^2$$
|
||||||
Eigentliche Regression:
|
Eigentliche Regression:
|
||||||
\begin{lstlisting}
|
\begin{lstlisting}
|
||||||
## Um das lineare Regressionsmodell Y_i = beta_0 + beta_1 x_i + E_i zu fitten, benutzt man
|
## Um das lineare Regressionsmodell Y_i = beta_0 + beta_1 x_i + E_i zu fitten, benutzt man
|
||||||
fit <- lm(y ~ x)
|
fit <- lm(y ~ x) #("y gegen x")
|
||||||
|
|
||||||
## Man kann Achsenabschnitt und Steigung sehen, wenn man sich das Objekt 'fit' anschaut:
|
## Man kann Achsenabschnitt und Steigung sehen, wenn man sich das Objekt 'fit' anschaut:
|
||||||
fit
|
fit
|
||||||
|
|
Loading…
Reference in a new issue