Viele Verbesserungen und Ergänzungen
BIN
img/boxplot.png
Before Width: | Height: | Size: 199 KiB After Width: | Height: | Size: 487 KiB |
BIN
img/histogram.png
Normal file
After Width: | Height: | Size: 121 KiB |
BIN
img/kumulative.png
Normal file
After Width: | Height: | Size: 86 KiB |
BIN
img/poisson-approx.png
Normal file
After Width: | Height: | Size: 110 KiB |
BIN
img/scatter.png
Normal file
After Width: | Height: | Size: 35 KiB |
BIN
img/sreg.png
Normal file
After Width: | Height: | Size: 182 KiB |
507
zf-statistik.tex
|
@ -8,12 +8,14 @@
|
|||
\usepackage{amsmath, amsfonts, amssymb, amsthm}
|
||||
\usepackage{listings}
|
||||
\usepackage{xcolor}
|
||||
\usepackage[ngerman]{babel}
|
||||
\usepackage{graphicx}
|
||||
\usepackage{multirow}
|
||||
\usepackage{fontawesome}
|
||||
\usepackage{float}
|
||||
\usepackage[
|
||||
type={CC},
|
||||
modifier={by-nc-sa},
|
||||
modifier={by-sa},
|
||||
version={3.0},
|
||||
]{doclicense}
|
||||
|
||||
|
@ -85,8 +87,8 @@
|
|||
}
|
||||
|
||||
% Turn off header and footer
|
||||
\pagestyle{empty}
|
||||
|
||||
\pagestyle{plain}
|
||||
\footskip{} % Left empty on purpose
|
||||
|
||||
% Redefine section commands to use less space
|
||||
\makeatletter
|
||||
|
@ -139,7 +141,7 @@
|
|||
\Large{Statistik ZF} \\
|
||||
\small{Mathematik IV, zu VL von Jan Ernest} \\
|
||||
\small{Jannis Portmann 2020} \\
|
||||
{\ccbyncsa}
|
||||
{\ccbysa}
|
||||
\end{center}
|
||||
|
||||
\begin{center}
|
||||
|
@ -181,8 +183,7 @@ $$P(A) = \sum_{\omega \in A} P(\{ \omega \})$$
|
|||
|
||||
\subsubsection{Laplace-Modell (gleiche $P(\omega_i)$)}
|
||||
\label{section:laplace}
|
||||
$$P(E)=\frac{g}{m}$$
|
||||
günstig/möglich
|
||||
$$P(A)=\frac{|A|}{|\Omega|} = \frac{\mathrm{günstig}}{\mathrm{möglich}}$$
|
||||
|
||||
\subsection{Unabhängigkeit}
|
||||
$A$ und $B$ sind stochastisch unabhängig, wenn gilt:
|
||||
|
@ -247,16 +248,29 @@ Zusammenhänge:
|
|||
\item $X_1 \sim \mathrm{Bin}(n_1,\pi); X_2 \sim \mathrm{Bin}(n_2,\pi)$ unabhängig $\Rightarrow S := X_1 + X_2$, dann $S \sim \mathrm{Bin}(n_1+n_2,\pi)$
|
||||
\end{itemize}
|
||||
|
||||
% TODO: Skript S. 22, E, Var, σ von Bernoulli und Binominal
|
||||
|
||||
\subsubsection{Poisson-($\lambda$)-verteilung}
|
||||
$$P(X = x) = \mathrm{exp}(-\lambda)\frac{\lambda^x}{x!}, x \in \mathbb{N}_0$$
|
||||
Dabei sind $\mathbb{E}(X) = \lambda, \mathrm{Var}(X) = \lambda, \sigma(X) = \sqrt{\lambda}$ \\
|
||||
Für zwei unabhängige Poisson-Verteilungen $X \sim \mathrm{Poisson(\lambda_x)}, Y \sim \mathrm{Poisson}(\lambda_y)$ ist $X + Y \sim \mathrm{Poisson}(\lambda_x + \lambda_y)$
|
||||
Für zwei unabhängige Poisson-Verteilungen $X \sim \mathrm{Poisson(\lambda_x)}, Y \sim \mathrm{Poisson}(\lambda_y)$ ist $X + Y \sim \mathrm{Poisson}(\lambda_x + \lambda_y)$ \\
|
||||
Es gilt auch
|
||||
$$P(X > n) = P(X \leq n) = 1 - (P(X = 0) + P(X=1) + ... + P(X = n))$$
|
||||
|
||||
\subsubsection{Geometrische Verteilung}
|
||||
Sei $X \sim \mathrm{Poisson}(\pi)$, dann ist
|
||||
$$Y = P(X=n) = \pi (1 - \pi)^{n-1}$$
|
||||
die Anzahl Fehlversuche bis zu einem erfogreichen Versuch.
|
||||
|
||||
\subsubsection{Poisson-Approximation der Binomial-Verteilung}
|
||||
$X \sim \mathrm{Bin}(n, \pi)$ und $Y \sim \mathrm{Poisson}(\lambda)$, für kleine $\pi$ und grosse $n$ gilt:
|
||||
$$P(X=x)=\binom{n}{x}\pi^x(1-\pi^{n-x}) \approx P(Y = x)=\mathrm{exp}(-\lambda)\frac{\lambda^x}{x!}, x \in \mathbb{N}_0$$
|
||||
wobei $\lambda = n\pi$
|
||||
|
||||
\begin{figure}[H]
|
||||
\centering
|
||||
\includegraphics[width=.15\textwidth]{poisson-approx.png}
|
||||
\caption{Poisson Approximation der Binominalverteilung}
|
||||
\label{fig:poisson-approx}
|
||||
\end{figure}
|
||||
|
||||
\subsubsection{Diskrete Uniformverteilung}
|
||||
$$P(X = x_i) = \frac{1}{n}, i \in \mathbb{N}$$
|
||||
|
@ -267,10 +281,54 @@ Einfluss von entfernten Ereignissen auf Wahrscheinlichkeiten von neuen Ziehungen
|
|||
|
||||
$$P(X = x)=\frac{\binom{m}{x}\binom{N-m}{n-x}}{\binom{N}{n}}$$
|
||||
|
||||
Hier sind $\mathbb{E}(X) = \frac{nm}{N}$ und $\mathrm{Var}(X)=\frac{nm(N-m)(N-n)}{N^2(N-1)}$
|
||||
|
||||
$X \sim \mathrm{Hyper}(N,n,m)$, dabei $N$ die total möglichen Ereignisse, $m$ die "Gewinne" und es wird $n$ gezogen.
|
||||
|
||||
\subsection{Kennwerte}
|
||||
\subsubsection{Bernoulli-Verteilung}
|
||||
\begin{center}
|
||||
\begin{tabular}{rl}
|
||||
$\mathbb{E}(X) =$ & $\pi$ \\
|
||||
Var$(X) =$ & $\pi(1-\pi)$ \\
|
||||
$\sigma_X =$ & $\sqrt{\pi(1-\pi)}$
|
||||
\end{tabular}
|
||||
\end{center}
|
||||
|
||||
\subsubsection{Binomialverteilung}
|
||||
\begin{center}
|
||||
\begin{tabular}{rl}
|
||||
$\mathbb{E}(X) =$ & $n\pi$ \\
|
||||
Var$(X) =$ & $n\pi(1-\pi)$ \\
|
||||
$\sigma_X =$ & $\sqrt{n\pi(1-\pi)}$
|
||||
\end{tabular}
|
||||
\end{center}
|
||||
|
||||
\subsubsection{Poisson-Verteilung}
|
||||
\begin{center}
|
||||
\begin{tabular}{rl}
|
||||
$\mathbb{E}(X) =$ & $\lambda$ \\
|
||||
Var$(X) =$ & $\lambda$ \\
|
||||
$\sigma_X =$ & $\sqrt{\lambda}$
|
||||
\end{tabular}
|
||||
\end{center}
|
||||
|
||||
\subsubsection{Geometrische Verteilung}
|
||||
\begin{center}
|
||||
\begin{tabular}{rl}
|
||||
$\mathbb{E}(X) =$ & $\frac{1}{\pi}$ \\
|
||||
Var$(X) =$ & $\frac{1-\pi}{\pi^2}$ \\
|
||||
$\sigma_X =$ & $\frac{\sqrt{1-\pi}}{\pi}$
|
||||
\end{tabular}
|
||||
\end{center}
|
||||
|
||||
\subsubsection{Hypergeometrische Verteilung}
|
||||
\begin{center}
|
||||
\begin{tabular}{rl}
|
||||
$\mathbb{E}(X) =$ & $\frac{nm}{M}$ \\
|
||||
Var$(X) =$ & $\frac{nm(N-m)(N-n)}{N^2(N-1)}$ \\
|
||||
$\sigma_X =$ & $\sqrt{\frac{nm(N-m)(N-n)}{N^2(N-1)}}$
|
||||
\end{tabular}
|
||||
\end{center}
|
||||
|
||||
\begin{center}
|
||||
\rule{.5\linewidth}{0.25pt}
|
||||
\end{center}
|
||||
|
@ -345,11 +403,12 @@ Idee: Wie gross muss eine Stichprobe sein, damit mit einer bestimmten Macht $\be
|
|||
\subsubsection{P-Wert}
|
||||
Der P-Wert ist ein Wert zwischen 0 und 1, der angibt, wie gut Nullhypothese und Daten zusammenpassen.
|
||||
|
||||
\subsubsection{Vertrauensintervall}
|
||||
\subsubsection{Vertrauensintervall (VI)}
|
||||
\label{sec:vertrauensintervall}
|
||||
$$I:=\{\pi_0;\; \mathrm{Nullhypothese} \; H_0:\pi = \pi_0 \mathrm{wird \; beibehalten}\}$$
|
||||
|
||||
Die Werte von $\pi_0$ bei denen $H_0: \pi = \pi_0$ nicht verworfen wird, ist ein $(1-\alpha)$-VI.
|
||||
$$P_\pi(\pi \in I(X) \gtrapprox 1-\alpha)$$
|
||||
Ein $(1-\alpha)$-VI, enthält den wahren Parameter $\pi$ mit einer Wahrscheinlichkeit von $(1-\alpha)$
|
||||
|
||||
\begin{center}
|
||||
\rule{.5\linewidth}{0.25pt}
|
||||
|
@ -387,6 +446,12 @@ wobei $s_{xy} = \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{n-1}$
|
|||
\subsubsection{Grafische Methoden}
|
||||
\textbf{Histogramme} \\
|
||||
Einteilung in Klassen, auftragen der Beobachtugen je Klasse in Balkendiagramm
|
||||
\begin{figure}[H]
|
||||
\centering
|
||||
\includegraphics[width=.2\textwidth]{histogram.png}
|
||||
\caption{Histogramm}
|
||||
\label{fig:histogram}
|
||||
\end{figure}
|
||||
|
||||
\textbf{Boxplot} \\
|
||||
Rechteck, vom 75\%- und 25\%-Quantil begrenzt
|
||||
|
@ -400,6 +465,13 @@ Rechteck, vom 75\%- und 25\%-Quantil begrenzt
|
|||
\textbf{Streudiagramm (Scatter-Plot)} \\
|
||||
Auftragen der Daten $(x_n,y_n)$
|
||||
|
||||
\begin{figure}[H]
|
||||
\centering
|
||||
\includegraphics[width=.15\textwidth]{scatter.png}
|
||||
\caption{Streudigramm}
|
||||
\label{fig:scatter}
|
||||
\end{figure}
|
||||
|
||||
\subsection{Stetige Zufallsvariablen und Wahrscheinlichkeitsverteilungen}
|
||||
Eine Zufallsvariable $X$ heisst stetig, falls deren Wertebereich $\mathbb{W}_X$ stetig ist \\
|
||||
Da Punktverteilung
|
||||
|
@ -409,6 +481,13 @@ $$P(X \in (a,b]) = P(a < X \leq b)$$
|
|||
\textbf{Kumulative Verteilungsfunktion}
|
||||
$$F(x) = P(X \leq x)$$
|
||||
|
||||
\begin{figure}[H]
|
||||
\centering
|
||||
\includegraphics[width=.2\textwidth]{kumulative.png}
|
||||
\caption{Kumulative Verteilungsfunktion}
|
||||
\label{fig:kumulative}
|
||||
\end{figure}
|
||||
|
||||
\subsubsection{(Wahrscheinlichkeits-)Dichte)}
|
||||
$$f(x) = \dot{F}(x) \Longleftrightarrow F(x) = \int_{-\infty}^xf(y)\mathrm{d}y$$
|
||||
|
||||
|
@ -421,7 +500,7 @@ $$f(x) = \dot{F}(x) \Longleftrightarrow F(x) = \int_{-\infty}^xf(y)\mathrm{d}y$$
|
|||
\end{tabular}
|
||||
\end{center}
|
||||
|
||||
\textbf{Qunatile}
|
||||
\subsubsection{Quantile}
|
||||
$$P(X \leq q(\alpha)) = \alpha$$
|
||||
$q(\alpha)$ ist der Punkt, an dem die Fläche unter der Dichtefunktion $f(x)$ von $-\infty$ bis $q(\alpha)$ gleich $\alpha$ ist. (z.B. beim Median ($\alpha = 50\%$) sind die Flächen darunter und darüber gleich gross)
|
||||
|
||||
|
@ -584,7 +663,7 @@ Die Unabhängigkeit führt dazu, dass die Genauigkeit des arithmetischen Mittels
|
|||
|
||||
\subsection{Statisitk für eine Stichprobe}
|
||||
% Wasn't able to fit it into the third-columns
|
||||
Siehe \textit{Fig. \ref{fig:tests}} im \hyperref[sec:anhang]{Anhang}.
|
||||
Siehe \textit{Abb. \ref{fig:tests}} im \hyperref[sec:anhang]{Anhang}.
|
||||
|
||||
\subsubsection{Punktschätzung}
|
||||
Betrachtung von Daten $x_1, x_2, ...,x_n$ als Realisierungen von $X_1, X_2, ..., X_n$ i.i.d. \\
|
||||
|
@ -633,6 +712,7 @@ $$P_{\mu_0}(T \in K) = \alpha$$
|
|||
$$P_\mu(T \in K) = \mathrm{Macht}(\mu)$$
|
||||
|
||||
\subsubsection{t-Test ($\sigma_X$ unbekannt)}
|
||||
\label{sec:ttest}
|
||||
\begin{enumerate}
|
||||
\item \textbf{Modell}: $X_i$ ist eine kontinuierliche Messgrösse und Annahme $X_1, X_2, ..., X_n \; \mathrm{i.i.d.} \; \mathcal{N}(\mu, \sigma_X^2)$
|
||||
\item \textbf{Nullhypothese}:
|
||||
|
@ -709,7 +789,76 @@ Für Berechnung benutze R (\ref{sec:wilcoxon})
|
|||
|
||||
\subsection{Statisitk für zwei Stichproben}
|
||||
\subsubsection{Gepaarte Stichprobe}
|
||||
% TODO
|
||||
\label{sec:paired}
|
||||
Ligt vor falls:
|
||||
\begin{itemize}
|
||||
\item beide Versuchsbedingungen an derselben Versuchseinheit eingesetzt werden
|
||||
\item oder jeder Versuchseinheit aus der einen Gruppe genau eine Versuchseinheit aus der anderen Gruppe zugeordnet werden kann.
|
||||
\end{itemize}
|
||||
Die Daten entsprechen
|
||||
$$x_1,...x_n \mathrm{unter \; Versuchsbedingung \; 1}$$
|
||||
$$y_1,...y_n \mathrm{unter \; Versuchsbedingung \; 2}$$
|
||||
wobei dasselbe $n$ für beide nötig ist.
|
||||
|
||||
\subsubsection{t-Test für gepaarte Stichproben}
|
||||
$$d_i = x_i - y_i, i \in \mathbb{N} \leq n$$
|
||||
$d_i$ seinen Realisierungen von $D_1,...D_n$ i.i.d. Somit vereinfacht sich die Betrachtung zu einer Variable auf welche wir den \textit{t-Test} aus \ref{sec:ttest} anwenden können.
|
||||
|
||||
\subsubsection{Ungepaarte Stichproben}
|
||||
Falls eine Paarung wie in \ref{sec:paired} nicht möglich ist und die Daten
|
||||
$$X_1,...X_n \mathrm{i.i.d}$$
|
||||
$$Y_1,...Y_m \mathrm{i.i.d}$$
|
||||
entsprechen, wobei $m \neq n$ nicht zwingend notwendig ist. Entscheidend ist, dass $x_i$ und $yi$ zu verschiedenen Versuchseinheiten geören und als unabhängig angenommen werden können.
|
||||
|
||||
\subsubsection{t-Test für ungepaarte Stichproben}
|
||||
\begin{enumerate}
|
||||
\item \textbf{Modell}:
|
||||
$$X_1,...X_n \mathrm{i.i.d} \sim \mathcal{N}(\mu_X,\sigma^2)$$
|
||||
$$Y_1,...Y_m \mathrm{i.i.d} \sim \mathcal{N}(\mu_Y,\sigma^2)$$
|
||||
\item \textbf{Nullhypothese}:
|
||||
\begin{center}
|
||||
\begin{tabular}{cll}
|
||||
& $H_0:$ & $\mu_X = \mu_Y$
|
||||
\end{tabular}
|
||||
\end{center}
|
||||
\textbf{Alternativhypothese}:
|
||||
\begin{center}
|
||||
\begin{tabular}{clll}
|
||||
& $H_A:$ & $\mu_X \neq \mu_Y$ & zweiseitig \\
|
||||
oder & $H_A:$ & $\mu_X > \mu_Y$ & einseitig \\
|
||||
oder & $H_A:$ & $\mu_X < \mu_Y$ & einseitig \\
|
||||
\end{tabular}
|
||||
\end{center}
|
||||
\item \textbf{Teststatistik}:
|
||||
$$T = \frac{\bar{X_n}-\bar{Y_m}}{S_{pool}\sqrt{\frac{1}{n}+\frac{1}{m}}}$$
|
||||
wobei
|
||||
\begin{center}
|
||||
\begin{tabular}{rl}
|
||||
$\displaystyle S_{pool}$ & $\displaystyle = \sqrt{\frac{1}{n+m-2}\bigg(\sum_{i=1}^n(X_i-\bar{X_n})^2+\sum_{i=1}^m(Y_i-\bar{Y_m})^2\bigg)}$ \\
|
||||
& $\displaystyle = \sqrt{\frac{1}{n+m-2}\bigg((n-1)\hat{\sigma_X}^2+(m-1)\hat{\sigma_Y}^2\bigg)}$
|
||||
\end{tabular}
|
||||
\end{center}
|
||||
Verteilung der Teststatistik unter $H_0: T \sim t_{n+m-2}$
|
||||
\item \textbf{Signifikanzniveau}: $\alpha$
|
||||
\item \textbf{Verwerfungsbereich für die Teststatistik}:\\
|
||||
$$K=\begin{cases}
|
||||
(-\infty,-t_{n+m-2;1-\frac{\alpha}{2}}] \cup [t_{n+m-2;1-\frac{\alpha}{2}},\infty), \quad \;\; \mathrm{bei} \; H_A: \mu_X \neq \mu_Y \\
|
||||
(-\infty,-t_{n+m-2;1-\frac{\alpha}{2}}], \qquad\qquad\qquad\qquad\kern 3.2em \mathrm{bei} \; H_A: \mu_X < \mu_Y \\
|
||||
[t_{n+m-2;1-\frac{\alpha}{2}},\infty), \qquad\qquad\qquad\qquad\qquad\quad\kern 2em \mathrm{bei} \; H_A: \mu_X > \mu_Y
|
||||
\end{cases}$$
|
||||
\item \textbf{Testentscheid}:\\
|
||||
Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt.
|
||||
\end{enumerate}
|
||||
|
||||
\subsubsection{Zwei-Stichproben Wilcoxon-Test (Mann-Whitney Test)}
|
||||
Seien zwei Stichproben
|
||||
$$X_1,...X_n \mathrm{i.i.d} \sim \mathcal{N}(\mu_X,\sigma^2)$$
|
||||
$$Y_1,...Y_m \mathrm{i.i.d} \sim \mathcal{N}(\mu_Y,\sigma^2)$$
|
||||
und $F_X$ eine beliebige Verteilungsfunktion.
|
||||
Wir definieren nun
|
||||
$$F_Y(x):=F_X(x-\delta)$$
|
||||
was einer verschobenen Funktion von $F_X$ entspricht.
|
||||
|
||||
|
||||
\begin{center}
|
||||
\rule{.5\linewidth}{0.25pt}
|
||||
|
@ -723,6 +872,13 @@ $$y_i = \beta_0 + \beta_1x_i+E_i,$$
|
|||
wobei $i \in \mathbb{N} \leq n$, $E_i \sim \mathcal{N}(0,\sigma^2)$, $E_1,...E_n$ i.i.d., $\mathbb{E}(E_i) = 0$ und $\mathrm{Var}(E_i) = \sigma^2$ \\
|
||||
$Y$ bezeichnen wir als \textbf{Zielvariable (response variable)}, $x$ als \textbf{erklärende Variable (explanatory/predictor variable)} oder \textbf{Co-Variable (covariate)} und $E_i$ als Störfaktor (zufällig)
|
||||
|
||||
\begin{figure}[H]
|
||||
\centering
|
||||
\includegraphics[width=.12\textwidth]{sreg.png}
|
||||
\caption{Einfache lineare Regression mit Residuen}
|
||||
\label{fig:sreg}
|
||||
\end{figure}
|
||||
|
||||
\subsubsection{Parameterschätzung}
|
||||
Das Modell aus \ref{sec:regmod} mit der \textit{Methode der kleinsten Quadrate} liefert
|
||||
$$\hat{\beta_0},\hat{\beta_1} \mathrm{\; Minimierung \; von \;} \sum_{i=1}^n(Y_i-(\beta_0+\beta_1x_i))^2,$$
|
||||
|
@ -915,7 +1071,7 @@ $Y_i = \beta_0 + \beta_1\log(x_{i,2})+\beta_2\sin(\pi x_{i,3}) + E_i, i \in \mat
|
|||
\item Bei \textbf{multipler linearer Regression} ist $\beta_i$ die erwartete Zunahme der Zielgrösse bei Erhöhung von $x_i$ um eine Einheit - bei \textbf{Fixierung der anderen Variablen}.
|
||||
\end{itemize}
|
||||
|
||||
\subsubsection{Parameterschätzung}
|
||||
\subsubsection{Parameterschätzung und t-Test}
|
||||
Auch hier benutzen wir die \textit{Methode der kleinsten Quadrate}. \\
|
||||
$$\hat{\beta_0},\hat{\beta_1},...,\hat{\beta}_{p-1} \mathrm{\; Minimierung \; von \;} \sum_{i=1}^n(Y_i-(\beta_0+\beta_1x_{i,1}+...+\beta_{p-1}x_{i,p-1}))^2,$$
|
||||
falls $p < n$
|
||||
|
@ -923,7 +1079,14 @@ $$\hat{\beta} = (X^TX)^{-1}X^TY.$$
|
|||
Für die Fehlervarianz
|
||||
$$\hat{\sigma} = \frac{1}{n-p}\sum_{i=1}^nR^2_i,R_i = Y_i - \bigg(\hat{\beta}_0+\sum_{j=1}^{p-1}\hat{\beta}_jx_{i,j}\bigg)$$
|
||||
|
||||
% TODO: t-Test
|
||||
Den \textit{t-Test} können wir analog zur \textit{einfachen Regression} mit
|
||||
\begin{center}
|
||||
\begin{tabular}{ll}
|
||||
$H_0: \beta_j = 0$ & \multirow{2}{*}{$, j \in \mathbb{N} \leq p-1$} \\
|
||||
$H_A: \beta_i \neq 0$ &
|
||||
\end{tabular}
|
||||
\end{center}
|
||||
durchführen. Dabei misst $\beta_i$ den linearen Effekt der $i$-ten erklärenden Variable auf Zielvariable $Y$ \textbf{nach Elimination} der linearen Effekte auf $Y$ aller anderen Variablen. Es ist nicht möglich, durch direkte einfach lineare Regression von $Y$ zur $j$-ten erklärenden Variable $\beta_j$ zu erhalten!
|
||||
|
||||
\subsubsection{F-Test}
|
||||
Prüft, ob es mindestens eine erklärende Variable gibt, die einen signifikanten Effekt auf die Zielvariable hat.
|
||||
|
@ -944,33 +1107,6 @@ $$R^2 = \hat{\rho}_{Y\hat{Y}}^2$$
|
|||
\rule{.5\linewidth}{0.25pt}
|
||||
\end{center}
|
||||
|
||||
\section{R}
|
||||
\subsection{Wahrscheinlichkeitsverteilungen}
|
||||
\lstinline{xxx} Name der Verteilung $X$ (z.B. \lstinline{binom} oder \lstinline{pois}): \\
|
||||
\lstinline{dxxx} berechnet $P[X=x]$ \\
|
||||
\lstinline{pxxx} berechnet $P[X\leq x]$ \\
|
||||
\lstinline{rxxx} liefert Zufallszahl gemäss $X$
|
||||
|
||||
\subsection{Verteilungen}
|
||||
\lstinline{pt} für kumulative Verteilungsfunktion \\
|
||||
\lstinline{qt} für Quantile
|
||||
|
||||
\subsection{Wilcoxon-Test}
|
||||
\label{sec:wilcoxon}
|
||||
\lstinline{x} ist Array von Daten, $\mu$ der Median
|
||||
\begin{lstlisting}
|
||||
wilcox.test(x = x, alternative = "greater", mu = 80)
|
||||
\end{lstlisting}
|
||||
|
||||
\subsection{Regression}
|
||||
\label{sec:rreg}
|
||||
\lstinline{x} und \lstinline{x} sind Arrays von Daten, \lstinline{lm} schätzt ein \textit{linear model} und \lstinline{summary()} gibt die Schätzwerte aus
|
||||
\begin{lstlisting}
|
||||
fm <- lm(y ~ x)
|
||||
summary(fm)
|
||||
\end{lstlisting}
|
||||
% TODO: Add sample output for parameters
|
||||
|
||||
\begin{center}
|
||||
\rule{\linewidth}{0.25pt}
|
||||
\end{center}
|
||||
|
@ -982,7 +1118,266 @@ $$R^2 = \hat{\rho}_{Y\hat{Y}}^2$$
|
|||
\newpage
|
||||
|
||||
\begin{multicols*}{2}
|
||||
\section*{Anhang}
|
||||
\section{R}
|
||||
\subsection{diskrete Verteilungen}
|
||||
\begin{lstlisting}
|
||||
# d... berechnet P(X = x)
|
||||
# p... berechnet P(X <= x)
|
||||
# q... berechnet Quantile der Verteilung
|
||||
# r... zieht eine bestimmte Anzahl Realisierungen der gewaehlten Verteilung
|
||||
\end{lstlisting}
|
||||
|
||||
\subsubsection{Binomialverteilung}
|
||||
\begin{lstlisting}
|
||||
dbinom(x = 5, size = 10, prob = 0.5) # Berechnet P(X = 5) fuer X ~ Binomial(10, 0.5)
|
||||
pbinom(q = 5, size = 10, prob = 0.5) # Berechnet P(X <= 5) fuer X ~ Binomial(10, 0.5)
|
||||
qbinom(p = 0.2, size = 10, prob = 0.5) # Berechnet das 20%-Quantil fuer X ~ Binomial(10, 0.5)
|
||||
rbinom(n = 100, size = 10, prob = 0.5) # Zieht zufaellig n=100 Realisierungen von X ~ Binomial(10, 0.5)
|
||||
# (fuehren Sie den oberen Befehl rbinom 2x aus, Sie erhalten andere Werte)
|
||||
\end{lstlisting}
|
||||
|
||||
\subsubsection{Poissonverteilung}
|
||||
\begin{lstlisting}
|
||||
dpois(x = 5, lambda = 2) # Berechnet P(X = 5) fuer X ~ Poisson(2)
|
||||
ppois(q = 5, lambda = 2) # Berechnet P(X <= 5) fuer X ~ Poisson(2)
|
||||
qpois(p = 0.2, lambda = 2) # Berechnet das 20%-Quantil fuer X ~ Poisson(2)
|
||||
rpois(n = 100, lambda = 2) # Zieht n=100 Realisierungen von X ~ Poisson(2)
|
||||
\end{lstlisting}
|
||||
|
||||
\subsubsection{Binomialtest}
|
||||
\begin{lstlisting}
|
||||
## Der Binomialtest kann in R mit dem Befehl binom.test(...) durchgefuehrt werden.
|
||||
## Die Argumente der Funktion sind:
|
||||
## - x: Der beobachtete Wert der Teststatistik
|
||||
## - n, p: Die Parameter der Verteilung der Teststatistik (Binomial(n,p)) unter der Nullhypothese
|
||||
## - alternative:
|
||||
## Die Wahl der Alternativhypothese. Moegliche Optionen sind:
|
||||
## - "less" fuer H_A: pi < pi_0
|
||||
## - "greater" fuer H_A: pi > pi_0
|
||||
## - "two.sided" fuer H_A: pi ungleich pi_0
|
||||
## - conf.level:
|
||||
## Das Konfidenzniveau fuer das Vertrauensintervall. Entspricht (1 - Signifikanzniveau).
|
||||
|
||||
## Beispiel:
|
||||
## Wir vermuten, dass ein Wuerfel zu viele 6er wuerfelt.
|
||||
## Wir haben in 50 Wuerfen 13 mal eine sechs gewuerfelt.
|
||||
## Wir moechten auf dem 1%-Signifikanzniveau testen, ob der Wuerfel zu viele 6er wuerfelt.
|
||||
binom.test(x = 13, n = 50, p = 1/6, alternative = "greater", conf.level = 0.99)
|
||||
\end{lstlisting}
|
||||
|
||||
\subsection{Kennzahlen}
|
||||
\begin{lstlisting}
|
||||
## Wir haben folgende Daten beobachtet / gemessen
|
||||
x <- c(1.1, 2.3, -2.4, 3.9, 5.1, -1.7, 2.0, -1.1, 3.4, 0.7)
|
||||
y <- c(0.8, 2.1, -1.3, 1.0, 0.4, -3.2, 3.1, -0.1, 5.1, 4.3)
|
||||
|
||||
mean(x) # arithmetisches Mittel
|
||||
var(x) # Varianz
|
||||
sd(x) # Standardabweichung
|
||||
|
||||
max(x) # Maximum
|
||||
min(x) # Minimum
|
||||
|
||||
median(x) # Median
|
||||
quantile(x, probs = 0.25) # empirisches 25%-Quantil
|
||||
|
||||
summary(x) # Gibt Ueberblick ueber einige Kennzahlen
|
||||
|
||||
cor(x,y) # Empirische Korrelatin von x und y
|
||||
\end{lstlisting}
|
||||
|
||||
\subsection{Grafische Methoden}
|
||||
\begin{lstlisting}
|
||||
plot(x, y) # Streudiagramm von x und y
|
||||
hist(x) # Histogramm Typ "Frequency" (siehe VL 8)
|
||||
hist(x, freq = FALSE) # Histogramm Typ "Density" (siehe VL 8)
|
||||
hist(x, breaks = 10) # mit breaks = ... kann die Anzahl Balken gesteuert werden, siehe Serie 8)
|
||||
plot(ecdf(x)) # Empirische kumulative Verteilungsfunktion
|
||||
boxplot(x) # Boxplot
|
||||
|
||||
z <- rnorm(n = 100, mean = 2, sd = 1)
|
||||
qqnorm(z) # QQ-Plot, welcher mit den theoretischen Quantilen der N(0,1)-Verteilung vergleicht.
|
||||
\end{lstlisting}
|
||||
|
||||
\subsection{Stetige Verteilungen}
|
||||
\subsubsection{Uniformverteilung}
|
||||
\begin{lstlisting}
|
||||
dunif(x = 2.5, min = 1, max = 3) # Wert der Dichte f(x) von X ~ Uniform([1,3]) an der Stelle x=2.5
|
||||
punif(q = 2.5, min = 1, max = 3) # Wert der kum. Verteilungsfkt. F(x) von X ~ Uniform([1,3]) an der Stelle x=2.5
|
||||
qunif(p = 0.2, min = 1, max = 3) # 20%-Quantil von X ~ Uniform([1,3])
|
||||
runif(n = 100, min = 1, max = 3) # Zieht zufaellig 100 Realisierungen von X ~ Uniform([1,3])
|
||||
\end{lstlisting}
|
||||
|
||||
\subsubsection{Exponentialverteilung}
|
||||
\begin{lstlisting}
|
||||
dexp(x = 2, rate = 1) # Wert der Dichte f(x) von X ~ Exp(1) an der Stelle x = 2
|
||||
pexp(q = 2, rate = 1) # Wert der kum. Verteilungsfunktion F(x) von X ~ Exp(1) an der Stelle x = 2
|
||||
qexp(p = 0.2, rate = 1) # 20%-Quantil von X ~ Exp(1)
|
||||
rexp(n = 100, rate = 1) # Zieht zufaellig 100 Realisierungen von X ~ Exp(1)
|
||||
\end{lstlisting}
|
||||
|
||||
\subsubsection{Normalverteilung}
|
||||
\begin{lstlisting}
|
||||
dnorm(x = 3, mean = 1, sd = sqrt(2)) # Wert der Dichte f(x) von X ~ N(1,2) an der Stelle x = 3
|
||||
pnorm(q = 3, mean = 1, sd = sqrt(2)) # Wert der kum. VF F(x) von X ~ N(1,2) an der Stelle x = 3
|
||||
qnorm(p = 0.2, mean = 1, sd = sqrt(2)) # 20%-Quantil von X ~ N(1,2)
|
||||
rnorm(n = 100, mean = 1, sd = sqrt(2)) # Zieht zufaellig 100 Realisierungen von X ~ N(1,2)
|
||||
\end{lstlisting}
|
||||
|
||||
\subsubsection{Standardnormalverteilung}
|
||||
\begin{lstlisting}
|
||||
dnorm(x = 3) # Wenn man meam = ..., sd = ... nicht angibt, wird eine N(0,1)-Verteilung angenommen.
|
||||
pnorm(q = 3)
|
||||
qnorm(p = 0.2) # entspricht Phi^{-1}(0.2)
|
||||
rnorm(n = 100)
|
||||
\end{lstlisting}
|
||||
|
||||
\subsection{Ein-Stichproben t-Test (gepaart)}
|
||||
\begin{lstlisting}
|
||||
## Der Ein-Stichproben t-Test kann in R mit dem Befehl t.test(...) durchgefuehrt werden.
|
||||
## Die benoetigten Argumente der Funktion sind:
|
||||
## - x: Der Vektor mit den beobachteten Werten
|
||||
## - mu: Der Wert mu_0 der Nullhypothese
|
||||
## - alternative:
|
||||
## Die Wahl der Alternativhypothese. Moegliche Optionen sind:
|
||||
## - "less" fuer H_A: mu < mu_0
|
||||
## - "greater" fuer H_A: mu > mu_0
|
||||
## - "two.sided" fuer H_A: mu ungleich mu_0
|
||||
## - conf.level:
|
||||
## Das Konfidenzniveau fuer das Vertrauensintervall. Entspricht (1 - Signifikanzniveau).
|
||||
|
||||
t.test(x = x, y = y, alternative = "greater", mu = 0, paired = TRUE, conf.level = 0.95)
|
||||
\end{lstlisting}
|
||||
|
||||
\subsection{Zwei-Stichproben t-Test (ungepaart)}
|
||||
\begin{lstlisting}
|
||||
## Um in R einen ungepaarten Zwei-Stichproben t-Test durchzufuehren, verwenden
|
||||
## Sie ebenfalls die Funktion t.test(...) mit den Argumenten
|
||||
|
||||
## - x: Der Vektor mit den beobachteten Werten der ersten Stichprobe
|
||||
## - y: Der Vektor mit den beobachteten Werten der zweiten Stichprobe
|
||||
## - mu: Der Wert mu_0 der Nullhypothese (typischerweise = 0, da Nullhypothese: "Es gibt keinen Unterschied")
|
||||
## - alternative:
|
||||
## Die Wahl der Alternativhypothese. Moegliche Optionen sind:
|
||||
## - "less" fuer H_A: mu_X - mu_Y < mu_0
|
||||
## - "greater" fuer H_A: mu_X - mu_Y > mu_0
|
||||
## - "two.sided" fuer H_A: mu_X - mu_Y ungleich mu_0
|
||||
## - paired = FALSE (ungepaarter Test)
|
||||
## - var.equal = TRUE (standardmaessig ist var.equal = FALSE, dann wird ein Welch-Test durchgefuehrt)
|
||||
## - conf.level:
|
||||
## Das Konfidenzniveau fuer das Vertrauensintervall. Entspricht (1 - Signifikanzniveau).
|
||||
|
||||
t.test(x = x, y = y, alternative = "two.sided", mu = 80.00, paired = FALSE, conf.level = 0.95)
|
||||
\end{lstlisting}
|
||||
|
||||
\newpage
|
||||
|
||||
\subsection{Wilcoxon-Test}
|
||||
\label{sec:wilcoxon}
|
||||
\begin{lstlisting}
|
||||
## Ein- und Zwei-Stichproben Wilcoxon Tests stehen in R unter dem Befehl wilcox.test(...) zur Verfuegung.
|
||||
## Die Argumente der Funktion sind analog zu denjenigen der t-Tests.
|
||||
wilcox.test(x = x, alternative = "greater", mu = 80)
|
||||
\end{lstlisting}
|
||||
|
||||
\subsection{Verteilungen}
|
||||
\lstinline{pt} für kumulative Verteilungsfunktion \\
|
||||
\lstinline{qt} für Quantile
|
||||
|
||||
\subsection{Regression}
|
||||
\label{sec:rreg}
|
||||
\subsubsection{Einfache Lineare Regression}
|
||||
\begin{lstlisting}
|
||||
## Um in R ein einfaches lineares Regressionsmodell anzupassen, verwendet man den R-Befehl lm(...).
|
||||
|
||||
## Wir betrachten das Beispiel mit Buchpreis und Seitenzahl aus dem Vorlesungsskript.
|
||||
x <- c(50, 100, 150, 200, 250, 300, 350, 400, 450, 500) ## Seitenzahl, erklaerende Variable.
|
||||
y <- c(9.9, 10.7, 13.3, 15.2, 16.4, 23.6, 23.5, 21.1, 28.9, 29.1) ## Buchpreis, Zielvariable.
|
||||
\end{lstlisting}
|
||||
|
||||
Eigentliche Regression:
|
||||
\begin{lstlisting}
|
||||
## Um das lineare Regressionsmodell Y_i = beta_0 + beta_1 x_i + E_i zu fitten, benutzt man
|
||||
fit <- lm(y ~ x)
|
||||
|
||||
## Man kann Achsenabschnitt und Steigung sehen, wenn man sich das Objekt 'fit' anschaut:
|
||||
fit
|
||||
\end{lstlisting}
|
||||
oder
|
||||
\begin{lstlisting}
|
||||
fit <- lm(y ~ x)
|
||||
summary(fit)
|
||||
\end{lstlisting}
|
||||
liefert den Output
|
||||
\begin{lstlisting}
|
||||
Residuals:
|
||||
Min 1Q Median 3Q Max
|
||||
-3.6958 -0.5944 -0.2203 0.9300 3.3048
|
||||
|
||||
Coefficients:
|
||||
Estimate Std. Error t value Pr(>|t|)
|
||||
(Intercept) 6.793333 1.391060 4.884 0.00122 **
|
||||
x 0.045006 0.004484 10.037 8.25e-06 ***
|
||||
---
|
||||
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
|
||||
|
||||
Residual standard error: 2.036 on 8 degrees of freedom
|
||||
Multiple R-squared: 0.9264, Adjusted R-squared: 0.9172
|
||||
F-statistic: 100.8 on 1 and 8 DF, p-value: 8.254e-06
|
||||
\end{lstlisting}
|
||||
somit $Y_i = 6.793333 + 0.045006x_i$
|
||||
|
||||
\textbf{Weitere Plots}
|
||||
\begin{lstlisting}
|
||||
## Residuenplots erhaelt man einfach mittels
|
||||
plot(fit) # man muss in der "Console" mehrmals die Eingabetaste dr¸cken, um die Plots zu sehen.
|
||||
|
||||
## oder:
|
||||
plot(fit$fitted, fit$resid) ## Tukey-Anscombe plot
|
||||
qqnorm(fit$residuals) ## qq-Plot der Residuen
|
||||
|
||||
## 95%-Vertrauensintervalle f¸r Koeffizienten (siehe VL 14, Slide 8)
|
||||
confint(fit)
|
||||
|
||||
## 95%-Vertrauens-/Vorhersageintervalle (siehe VL 14, Slides 9 und 10)
|
||||
nd <- data.frame(x=1, y=NA)
|
||||
predict(fit, newdata = nd, interval = "confidence") ## Vertrauensintervall
|
||||
predict(fit, newdata = nd, interval = "prediction") ## Vorhersageintervall
|
||||
|
||||
## Nehmen wir an, die Daten befinden sich in einem data.frame (anstelle von zwei Vektoren).
|
||||
Daten_Buch <- data.frame(Seitenzahl = x, Buchpreis = y)
|
||||
Daten_Buch
|
||||
|
||||
## Dieselbe Regression wie oben kann man nun berechnen, indem man entweder schreibt:
|
||||
fit2 <- lm(Daten_Buch$Buchpreis ~ Daten_Buch$Seitenzahl)
|
||||
summary(fit2)
|
||||
|
||||
## oder alternativ:
|
||||
fit3 <- lm(Buchpreis ~ Seitenzahl, data = Daten_Buch)
|
||||
summary(fit3)
|
||||
|
||||
## Alle 3 Varianten (fit, fit2, fit3) liefern exakt dasselbe Resultat.
|
||||
\end{lstlisting}
|
||||
|
||||
\subsubsection{Multiple lineare Regression}
|
||||
\begin{lstlisting}
|
||||
## Um in R ein multiples lineares Regressionsmodell anzupassen, verwendet man ebenfalls den R-Befehl lm(...).
|
||||
|
||||
## Wir betrachten das Beispiel mit Buchpreis und Seitenzahl aus dem Vorlesungsskript, moechten nun jedoch
|
||||
## als zweite erklaerende Variable noch das Erscheinungsjahr des Buches ins Modell aufnehmen.
|
||||
|
||||
x1 <- c(50, 100, 150, 200, 250, 300, 350, 400, 450, 500) ## Seitenzahl, erklaerende Variable 1.
|
||||
x2 <- c(2017, 1999, 2013, 2004, 2001, 1979, 2018, 2008, 2015, 2002) ## Erscheinungsjahr, erklaerende Variable 2.
|
||||
y <- c(9.9, 10.7, 13.3, 15.2, 16.4, 23.6, 23.5, 21.1, 28.9, 29.1) ## Buchpreis, Zielvariable.
|
||||
|
||||
## Das multiple lineare Regressionsmodell Y_i = beta_0 + beta_1 x_1 + beta_2 x_2 + E_i berechnet man
|
||||
## mit dem Befehl:
|
||||
fit <- lm(y ~ x1 + x2)
|
||||
|
||||
## Die restlichen Befehle sind analog zur einfachen linearen Regression.
|
||||
\end{lstlisting}
|
||||
|
||||
\section{Anhang}
|
||||
\label{sec:anhang}
|
||||
\begin{figure}[H]
|
||||
\begin{tabular}{l|llll|c|c}
|
||||
|
@ -1002,13 +1397,25 @@ $$R^2 = \hat{\rho}_{Y\hat{Y}}^2$$
|
|||
|
||||
\section*{Referenzen}
|
||||
\begin{enumerate}
|
||||
\item "Vorlesungsskript Mathematik IV für Agrarwissenschaften, Erdwissenschaften, Lebensmittelwissenschaften und Umweltnaturwissenschaften", Dr. Jan Ernest, HS19 \\
|
||||
\item Skript "Vorlesungsskript Mathematik IV für Agrarwissenschaften, Erdwissenschaften, Lebensmittelwissenschaften und Umweltnaturwissenschaften", Dr. Jan Ernest, HS19 \\
|
||||
\item Statistik\_MatheIV.pdf, scmelina, HS18
|
||||
\item ZF\_Statistik\_ClemenceBoutry.pdf ,clboutry, FS16
|
||||
\end{enumerate}
|
||||
|
||||
\url{https://n.ethz.ch/~jannisp} \\
|
||||
Jannis Portmann, 2020 \\
|
||||
\doclicenseImage
|
||||
\section*{Bildquellen}
|
||||
\begin{itemize}
|
||||
\item Abb. \ref{fig:poisson-approx}: Skbkekas, \url{https://upload.wikimedia.org/wikipedia/commons/1/16/Poisson_pmf.svg}
|
||||
\item Abb. \ref{fig:histogram}: DanielPenfield, \url{https://upload.wikimedia.org/wikipedia/commons/c/c3/Histogram_of_arrivals_per_minute.svg}
|
||||
\item Abb. \ref{fig:boxplot}: towardsdatascience.com, \url{https://towardsdatascience.com/understanding-boxplots-5e2df7bcbd5}
|
||||
\item Abb. \ref{fig:scatter}: DanielPenfield, \url{https://upload.wikimedia.org/wikipedia/commons/a/af/Scatter_diagram_for_quality_characteristic_XXX.svg}
|
||||
\item Abb. \ref{fig:kumulative}: Skript
|
||||
\item Abb. \ref{fig:sreg}: Skript
|
||||
\end{itemize}
|
||||
|
||||
\doclicenseImage \\
|
||||
\faGlobe \kern 1em \url{https://n.ethz.ch/~jannisp} \\
|
||||
\faGit \kern 0.88em \url{https://git.thisfro.ch/thisfro/statistik-zf} \\
|
||||
Jannis Portmann, HS19
|
||||
\end{multicols*}
|
||||
|
||||
\end{document}
|
||||
|
|