Viele Verbesserungen und Ergänzungen

This commit is contained in:
Jannis Portmann 2020-01-06 11:24:33 +01:00
parent 3d226cb124
commit be8d7209ec
7 changed files with 457 additions and 50 deletions

Binary file not shown.

Before

(image error) Size: 199 KiB

After

(image error) Size: 487 KiB

BIN
img/histogram.png Normal file

Binary file not shown.

After

(image error) Size: 121 KiB

BIN
img/kumulative.png Normal file

Binary file not shown.

After

(image error) Size: 86 KiB

BIN
img/poisson-approx.png Normal file

Binary file not shown.

After

(image error) Size: 110 KiB

BIN
img/scatter.png Normal file

Binary file not shown.

After

(image error) Size: 35 KiB

BIN
img/sreg.png Normal file

Binary file not shown.

After

(image error) Size: 182 KiB

View file

@ -8,12 +8,14 @@
\usepackage{amsmath, amsfonts, amssymb, amsthm} \usepackage{amsmath, amsfonts, amssymb, amsthm}
\usepackage{listings} \usepackage{listings}
\usepackage{xcolor} \usepackage{xcolor}
\usepackage[ngerman]{babel}
\usepackage{graphicx} \usepackage{graphicx}
\usepackage{multirow} \usepackage{multirow}
\usepackage{fontawesome}
\usepackage{float} \usepackage{float}
\usepackage[ \usepackage[
type={CC}, type={CC},
modifier={by-nc-sa}, modifier={by-sa},
version={3.0}, version={3.0},
]{doclicense} ]{doclicense}
@ -85,8 +87,8 @@
} }
% Turn off header and footer % Turn off header and footer
\pagestyle{empty} \pagestyle{plain}
\footskip{} % Left empty on purpose
% Redefine section commands to use less space % Redefine section commands to use less space
\makeatletter \makeatletter
@ -139,7 +141,7 @@
\Large{Statistik ZF} \\ \Large{Statistik ZF} \\
\small{Mathematik IV, zu VL von Jan Ernest} \\ \small{Mathematik IV, zu VL von Jan Ernest} \\
\small{Jannis Portmann 2020} \\ \small{Jannis Portmann 2020} \\
{\ccbyncsa} {\ccbysa}
\end{center} \end{center}
\begin{center} \begin{center}
@ -181,8 +183,7 @@ $$P(A) = \sum_{\omega \in A} P(\{ \omega \})$$
\subsubsection{Laplace-Modell (gleiche $P(\omega_i)$)} \subsubsection{Laplace-Modell (gleiche $P(\omega_i)$)}
\label{section:laplace} \label{section:laplace}
$$P(E)=\frac{g}{m}$$ $$P(A)=\frac{|A|}{|\Omega|} = \frac{\mathrm{günstig}}{\mathrm{möglich}}$$
günstig/möglich
\subsection{Unabhängigkeit} \subsection{Unabhängigkeit}
$A$ und $B$ sind stochastisch unabhängig, wenn gilt: $A$ und $B$ sind stochastisch unabhängig, wenn gilt:
@ -247,16 +248,29 @@ Zusammenhänge:
\item $X_1 \sim \mathrm{Bin}(n_1,\pi); X_2 \sim \mathrm{Bin}(n_2,\pi)$ unabhängig $\Rightarrow S := X_1 + X_2$, dann $S \sim \mathrm{Bin}(n_1+n_2,\pi)$ \item $X_1 \sim \mathrm{Bin}(n_1,\pi); X_2 \sim \mathrm{Bin}(n_2,\pi)$ unabhängig $\Rightarrow S := X_1 + X_2$, dann $S \sim \mathrm{Bin}(n_1+n_2,\pi)$
\end{itemize} \end{itemize}
% TODO: Skript S. 22, E, Var, σ von Bernoulli und Binominal
\subsubsection{Poisson-($\lambda$)-verteilung} \subsubsection{Poisson-($\lambda$)-verteilung}
$$P(X = x) = \mathrm{exp}(-\lambda)\frac{\lambda^x}{x!}, x \in \mathbb{N}_0$$ $$P(X = x) = \mathrm{exp}(-\lambda)\frac{\lambda^x}{x!}, x \in \mathbb{N}_0$$
Dabei sind $\mathbb{E}(X) = \lambda, \mathrm{Var}(X) = \lambda, \sigma(X) = \sqrt{\lambda}$ \\ Dabei sind $\mathbb{E}(X) = \lambda, \mathrm{Var}(X) = \lambda, \sigma(X) = \sqrt{\lambda}$ \\
Für zwei unabhängige Poisson-Verteilungen $X \sim \mathrm{Poisson(\lambda_x)}, Y \sim \mathrm{Poisson}(\lambda_y)$ ist $X + Y \sim \mathrm{Poisson}(\lambda_x + \lambda_y)$ Für zwei unabhängige Poisson-Verteilungen $X \sim \mathrm{Poisson(\lambda_x)}, Y \sim \mathrm{Poisson}(\lambda_y)$ ist $X + Y \sim \mathrm{Poisson}(\lambda_x + \lambda_y)$ \\
Es gilt auch
$$P(X > n) = P(X \leq n) = 1 - (P(X = 0) + P(X=1) + ... + P(X = n))$$
\subsubsection{Geometrische Verteilung}
Sei $X \sim \mathrm{Poisson}(\pi)$, dann ist
$$Y = P(X=n) = \pi (1 - \pi)^{n-1}$$
die Anzahl Fehlversuche bis zu einem erfogreichen Versuch.
\subsubsection{Poisson-Approximation der Binomial-Verteilung} \subsubsection{Poisson-Approximation der Binomial-Verteilung}
$X \sim \mathrm{Bin}(n, \pi)$ und $Y \sim \mathrm{Poisson}(\lambda)$, für kleine $\pi$ und grosse $n$ gilt: $X \sim \mathrm{Bin}(n, \pi)$ und $Y \sim \mathrm{Poisson}(\lambda)$, für kleine $\pi$ und grosse $n$ gilt:
$$P(X=x)=\binom{n}{x}\pi^x(1-\pi^{n-x}) \approx P(Y = x)=\mathrm{exp}(-\lambda)\frac{\lambda^x}{x!}, x \in \mathbb{N}_0$$ $$P(X=x)=\binom{n}{x}\pi^x(1-\pi^{n-x}) \approx P(Y = x)=\mathrm{exp}(-\lambda)\frac{\lambda^x}{x!}, x \in \mathbb{N}_0$$
wobei $\lambda = n\pi$
\begin{figure}[H]
\centering
\includegraphics[width=.15\textwidth]{poisson-approx.png}
\caption{Poisson Approximation der Binominalverteilung}
\label{fig:poisson-approx}
\end{figure}
\subsubsection{Diskrete Uniformverteilung} \subsubsection{Diskrete Uniformverteilung}
$$P(X = x_i) = \frac{1}{n}, i \in \mathbb{N}$$ $$P(X = x_i) = \frac{1}{n}, i \in \mathbb{N}$$
@ -267,10 +281,54 @@ Einfluss von entfernten Ereignissen auf Wahrscheinlichkeiten von neuen Ziehungen
$$P(X = x)=\frac{\binom{m}{x}\binom{N-m}{n-x}}{\binom{N}{n}}$$ $$P(X = x)=\frac{\binom{m}{x}\binom{N-m}{n-x}}{\binom{N}{n}}$$
Hier sind $\mathbb{E}(X) = \frac{nm}{N}$ und $\mathrm{Var}(X)=\frac{nm(N-m)(N-n)}{N^2(N-1)}$
$X \sim \mathrm{Hyper}(N,n,m)$, dabei $N$ die total möglichen Ereignisse, $m$ die "Gewinne" und es wird $n$ gezogen. $X \sim \mathrm{Hyper}(N,n,m)$, dabei $N$ die total möglichen Ereignisse, $m$ die "Gewinne" und es wird $n$ gezogen.
\subsection{Kennwerte}
\subsubsection{Bernoulli-Verteilung}
\begin{center}
\begin{tabular}{rl}
$\mathbb{E}(X) =$ & $\pi$ \\
Var$(X) =$ & $\pi(1-\pi)$ \\
$\sigma_X =$ & $\sqrt{\pi(1-\pi)}$
\end{tabular}
\end{center}
\subsubsection{Binomialverteilung}
\begin{center}
\begin{tabular}{rl}
$\mathbb{E}(X) =$ & $n\pi$ \\
Var$(X) =$ & $n\pi(1-\pi)$ \\
$\sigma_X =$ & $\sqrt{n\pi(1-\pi)}$
\end{tabular}
\end{center}
\subsubsection{Poisson-Verteilung}
\begin{center}
\begin{tabular}{rl}
$\mathbb{E}(X) =$ & $\lambda$ \\
Var$(X) =$ & $\lambda$ \\
$\sigma_X =$ & $\sqrt{\lambda}$
\end{tabular}
\end{center}
\subsubsection{Geometrische Verteilung}
\begin{center}
\begin{tabular}{rl}
$\mathbb{E}(X) =$ & $\frac{1}{\pi}$ \\
Var$(X) =$ & $\frac{1-\pi}{\pi^2}$ \\
$\sigma_X =$ & $\frac{\sqrt{1-\pi}}{\pi}$
\end{tabular}
\end{center}
\subsubsection{Hypergeometrische Verteilung}
\begin{center}
\begin{tabular}{rl}
$\mathbb{E}(X) =$ & $\frac{nm}{M}$ \\
Var$(X) =$ & $\frac{nm(N-m)(N-n)}{N^2(N-1)}$ \\
$\sigma_X =$ & $\sqrt{\frac{nm(N-m)(N-n)}{N^2(N-1)}}$
\end{tabular}
\end{center}
\begin{center} \begin{center}
\rule{.5\linewidth}{0.25pt} \rule{.5\linewidth}{0.25pt}
\end{center} \end{center}
@ -345,11 +403,12 @@ Idee: Wie gross muss eine Stichprobe sein, damit mit einer bestimmten Macht $\be
\subsubsection{P-Wert} \subsubsection{P-Wert}
Der P-Wert ist ein Wert zwischen 0 und 1, der angibt, wie gut Nullhypothese und Daten zusammenpassen. Der P-Wert ist ein Wert zwischen 0 und 1, der angibt, wie gut Nullhypothese und Daten zusammenpassen.
\subsubsection{Vertrauensintervall} \subsubsection{Vertrauensintervall (VI)}
\label{sec:vertrauensintervall} \label{sec:vertrauensintervall}
$$I:=\{\pi_0;\; \mathrm{Nullhypothese} \; H_0:\pi = \pi_0 \mathrm{wird \; beibehalten}\}$$ $$I:=\{\pi_0;\; \mathrm{Nullhypothese} \; H_0:\pi = \pi_0 \mathrm{wird \; beibehalten}\}$$
Die Werte von $\pi_0$ bei denen $H_0: \pi = \pi_0$ nicht verworfen wird, ist ein $(1-\alpha)$-VI.
$$P_\pi(\pi \in I(X) \gtrapprox 1-\alpha)$$ $$P_\pi(\pi \in I(X) \gtrapprox 1-\alpha)$$
Ein $(1-\alpha)$-VI, enthält den wahren Parameter $\pi$ mit einer Wahrscheinlichkeit von $(1-\alpha)$
\begin{center} \begin{center}
\rule{.5\linewidth}{0.25pt} \rule{.5\linewidth}{0.25pt}
@ -387,6 +446,12 @@ wobei $s_{xy} = \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{n-1}$
\subsubsection{Grafische Methoden} \subsubsection{Grafische Methoden}
\textbf{Histogramme} \\ \textbf{Histogramme} \\
Einteilung in Klassen, auftragen der Beobachtugen je Klasse in Balkendiagramm Einteilung in Klassen, auftragen der Beobachtugen je Klasse in Balkendiagramm
\begin{figure}[H]
\centering
\includegraphics[width=.2\textwidth]{histogram.png}
\caption{Histogramm}
\label{fig:histogram}
\end{figure}
\textbf{Boxplot} \\ \textbf{Boxplot} \\
Rechteck, vom 75\%- und 25\%-Quantil begrenzt Rechteck, vom 75\%- und 25\%-Quantil begrenzt
@ -400,6 +465,13 @@ Rechteck, vom 75\%- und 25\%-Quantil begrenzt
\textbf{Streudiagramm (Scatter-Plot)} \\ \textbf{Streudiagramm (Scatter-Plot)} \\
Auftragen der Daten $(x_n,y_n)$ Auftragen der Daten $(x_n,y_n)$
\begin{figure}[H]
\centering
\includegraphics[width=.15\textwidth]{scatter.png}
\caption{Streudigramm}
\label{fig:scatter}
\end{figure}
\subsection{Stetige Zufallsvariablen und Wahrscheinlichkeitsverteilungen} \subsection{Stetige Zufallsvariablen und Wahrscheinlichkeitsverteilungen}
Eine Zufallsvariable $X$ heisst stetig, falls deren Wertebereich $\mathbb{W}_X$ stetig ist \\ Eine Zufallsvariable $X$ heisst stetig, falls deren Wertebereich $\mathbb{W}_X$ stetig ist \\
Da Punktverteilung Da Punktverteilung
@ -409,6 +481,13 @@ $$P(X \in (a,b]) = P(a < X \leq b)$$
\textbf{Kumulative Verteilungsfunktion} \textbf{Kumulative Verteilungsfunktion}
$$F(x) = P(X \leq x)$$ $$F(x) = P(X \leq x)$$
\begin{figure}[H]
\centering
\includegraphics[width=.2\textwidth]{kumulative.png}
\caption{Kumulative Verteilungsfunktion}
\label{fig:kumulative}
\end{figure}
\subsubsection{(Wahrscheinlichkeits-)Dichte)} \subsubsection{(Wahrscheinlichkeits-)Dichte)}
$$f(x) = \dot{F}(x) \Longleftrightarrow F(x) = \int_{-\infty}^xf(y)\mathrm{d}y$$ $$f(x) = \dot{F}(x) \Longleftrightarrow F(x) = \int_{-\infty}^xf(y)\mathrm{d}y$$
@ -421,7 +500,7 @@ $$f(x) = \dot{F}(x) \Longleftrightarrow F(x) = \int_{-\infty}^xf(y)\mathrm{d}y$$
\end{tabular} \end{tabular}
\end{center} \end{center}
\textbf{Qunatile} \subsubsection{Quantile}
$$P(X \leq q(\alpha)) = \alpha$$ $$P(X \leq q(\alpha)) = \alpha$$
$q(\alpha)$ ist der Punkt, an dem die Fläche unter der Dichtefunktion $f(x)$ von $-\infty$ bis $q(\alpha)$ gleich $\alpha$ ist. (z.B. beim Median ($\alpha = 50\%$) sind die Flächen darunter und darüber gleich gross) $q(\alpha)$ ist der Punkt, an dem die Fläche unter der Dichtefunktion $f(x)$ von $-\infty$ bis $q(\alpha)$ gleich $\alpha$ ist. (z.B. beim Median ($\alpha = 50\%$) sind die Flächen darunter und darüber gleich gross)
@ -584,7 +663,7 @@ Die Unabhängigkeit führt dazu, dass die Genauigkeit des arithmetischen Mittels
\subsection{Statisitk für eine Stichprobe} \subsection{Statisitk für eine Stichprobe}
% Wasn't able to fit it into the third-columns % Wasn't able to fit it into the third-columns
Siehe \textit{Fig. \ref{fig:tests}} im \hyperref[sec:anhang]{Anhang}. Siehe \textit{Abb. \ref{fig:tests}} im \hyperref[sec:anhang]{Anhang}.
\subsubsection{Punktschätzung} \subsubsection{Punktschätzung}
Betrachtung von Daten $x_1, x_2, ...,x_n$ als Realisierungen von $X_1, X_2, ..., X_n$ i.i.d. \\ Betrachtung von Daten $x_1, x_2, ...,x_n$ als Realisierungen von $X_1, X_2, ..., X_n$ i.i.d. \\
@ -633,6 +712,7 @@ $$P_{\mu_0}(T \in K) = \alpha$$
$$P_\mu(T \in K) = \mathrm{Macht}(\mu)$$ $$P_\mu(T \in K) = \mathrm{Macht}(\mu)$$
\subsubsection{t-Test ($\sigma_X$ unbekannt)} \subsubsection{t-Test ($\sigma_X$ unbekannt)}
\label{sec:ttest}
\begin{enumerate} \begin{enumerate}
\item \textbf{Modell}: $X_i$ ist eine kontinuierliche Messgrösse und Annahme $X_1, X_2, ..., X_n \; \mathrm{i.i.d.} \; \mathcal{N}(\mu, \sigma_X^2)$ \item \textbf{Modell}: $X_i$ ist eine kontinuierliche Messgrösse und Annahme $X_1, X_2, ..., X_n \; \mathrm{i.i.d.} \; \mathcal{N}(\mu, \sigma_X^2)$
\item \textbf{Nullhypothese}: \item \textbf{Nullhypothese}:
@ -709,7 +789,76 @@ Für Berechnung benutze R (\ref{sec:wilcoxon})
\subsection{Statisitk für zwei Stichproben} \subsection{Statisitk für zwei Stichproben}
\subsubsection{Gepaarte Stichprobe} \subsubsection{Gepaarte Stichprobe}
% TODO \label{sec:paired}
Ligt vor falls:
\begin{itemize}
\item beide Versuchsbedingungen an derselben Versuchseinheit eingesetzt werden
\item oder jeder Versuchseinheit aus der einen Gruppe genau eine Versuchseinheit aus der anderen Gruppe zugeordnet werden kann.
\end{itemize}
Die Daten entsprechen
$$x_1,...x_n \mathrm{unter \; Versuchsbedingung \; 1}$$
$$y_1,...y_n \mathrm{unter \; Versuchsbedingung \; 2}$$
wobei dasselbe $n$ für beide nötig ist.
\subsubsection{t-Test für gepaarte Stichproben}
$$d_i = x_i - y_i, i \in \mathbb{N} \leq n$$
$d_i$ seinen Realisierungen von $D_1,...D_n$ i.i.d. Somit vereinfacht sich die Betrachtung zu einer Variable auf welche wir den \textit{t-Test} aus \ref{sec:ttest} anwenden können.
\subsubsection{Ungepaarte Stichproben}
Falls eine Paarung wie in \ref{sec:paired} nicht möglich ist und die Daten
$$X_1,...X_n \mathrm{i.i.d}$$
$$Y_1,...Y_m \mathrm{i.i.d}$$
entsprechen, wobei $m \neq n$ nicht zwingend notwendig ist. Entscheidend ist, dass $x_i$ und $yi$ zu verschiedenen Versuchseinheiten geören und als unabhängig angenommen werden können.
\subsubsection{t-Test für ungepaarte Stichproben}
\begin{enumerate}
\item \textbf{Modell}:
$$X_1,...X_n \mathrm{i.i.d} \sim \mathcal{N}(\mu_X,\sigma^2)$$
$$Y_1,...Y_m \mathrm{i.i.d} \sim \mathcal{N}(\mu_Y,\sigma^2)$$
\item \textbf{Nullhypothese}:
\begin{center}
\begin{tabular}{cll}
& $H_0:$ & $\mu_X = \mu_Y$
\end{tabular}
\end{center}
\textbf{Alternativhypothese}:
\begin{center}
\begin{tabular}{clll}
& $H_A:$ & $\mu_X \neq \mu_Y$ & zweiseitig \\
oder & $H_A:$ & $\mu_X > \mu_Y$ & einseitig \\
oder & $H_A:$ & $\mu_X < \mu_Y$ & einseitig \\
\end{tabular}
\end{center}
\item \textbf{Teststatistik}:
$$T = \frac{\bar{X_n}-\bar{Y_m}}{S_{pool}\sqrt{\frac{1}{n}+\frac{1}{m}}}$$
wobei
\begin{center}
\begin{tabular}{rl}
$\displaystyle S_{pool}$ & $\displaystyle = \sqrt{\frac{1}{n+m-2}\bigg(\sum_{i=1}^n(X_i-\bar{X_n})^2+\sum_{i=1}^m(Y_i-\bar{Y_m})^2\bigg)}$ \\
& $\displaystyle = \sqrt{\frac{1}{n+m-2}\bigg((n-1)\hat{\sigma_X}^2+(m-1)\hat{\sigma_Y}^2\bigg)}$
\end{tabular}
\end{center}
Verteilung der Teststatistik unter $H_0: T \sim t_{n+m-2}$
\item \textbf{Signifikanzniveau}: $\alpha$
\item \textbf{Verwerfungsbereich für die Teststatistik}:\\
$$K=\begin{cases}
(-\infty,-t_{n+m-2;1-\frac{\alpha}{2}}] \cup [t_{n+m-2;1-\frac{\alpha}{2}},\infty), \quad \;\; \mathrm{bei} \; H_A: \mu_X \neq \mu_Y \\
(-\infty,-t_{n+m-2;1-\frac{\alpha}{2}}], \qquad\qquad\qquad\qquad\kern 3.2em \mathrm{bei} \; H_A: \mu_X < \mu_Y \\
[t_{n+m-2;1-\frac{\alpha}{2}},\infty), \qquad\qquad\qquad\qquad\qquad\quad\kern 2em \mathrm{bei} \; H_A: \mu_X > \mu_Y
\end{cases}$$
\item \textbf{Testentscheid}:\\
Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt.
\end{enumerate}
\subsubsection{Zwei-Stichproben Wilcoxon-Test (Mann-Whitney Test)}
Seien zwei Stichproben
$$X_1,...X_n \mathrm{i.i.d} \sim \mathcal{N}(\mu_X,\sigma^2)$$
$$Y_1,...Y_m \mathrm{i.i.d} \sim \mathcal{N}(\mu_Y,\sigma^2)$$
und $F_X$ eine beliebige Verteilungsfunktion.
Wir definieren nun
$$F_Y(x):=F_X(x-\delta)$$
was einer verschobenen Funktion von $F_X$ entspricht.
\begin{center} \begin{center}
\rule{.5\linewidth}{0.25pt} \rule{.5\linewidth}{0.25pt}
@ -723,6 +872,13 @@ $$y_i = \beta_0 + \beta_1x_i+E_i,$$
wobei $i \in \mathbb{N} \leq n$, $E_i \sim \mathcal{N}(0,\sigma^2)$, $E_1,...E_n$ i.i.d., $\mathbb{E}(E_i) = 0$ und $\mathrm{Var}(E_i) = \sigma^2$ \\ wobei $i \in \mathbb{N} \leq n$, $E_i \sim \mathcal{N}(0,\sigma^2)$, $E_1,...E_n$ i.i.d., $\mathbb{E}(E_i) = 0$ und $\mathrm{Var}(E_i) = \sigma^2$ \\
$Y$ bezeichnen wir als \textbf{Zielvariable (response variable)}, $x$ als \textbf{erklärende Variable (explanatory/predictor variable)} oder \textbf{Co-Variable (covariate)} und $E_i$ als Störfaktor (zufällig) $Y$ bezeichnen wir als \textbf{Zielvariable (response variable)}, $x$ als \textbf{erklärende Variable (explanatory/predictor variable)} oder \textbf{Co-Variable (covariate)} und $E_i$ als Störfaktor (zufällig)
\begin{figure}[H]
\centering
\includegraphics[width=.12\textwidth]{sreg.png}
\caption{Einfache lineare Regression mit Residuen}
\label{fig:sreg}
\end{figure}
\subsubsection{Parameterschätzung} \subsubsection{Parameterschätzung}
Das Modell aus \ref{sec:regmod} mit der \textit{Methode der kleinsten Quadrate} liefert Das Modell aus \ref{sec:regmod} mit der \textit{Methode der kleinsten Quadrate} liefert
$$\hat{\beta_0},\hat{\beta_1} \mathrm{\; Minimierung \; von \;} \sum_{i=1}^n(Y_i-(\beta_0+\beta_1x_i))^2,$$ $$\hat{\beta_0},\hat{\beta_1} \mathrm{\; Minimierung \; von \;} \sum_{i=1}^n(Y_i-(\beta_0+\beta_1x_i))^2,$$
@ -915,7 +1071,7 @@ $Y_i = \beta_0 + \beta_1\log(x_{i,2})+\beta_2\sin(\pi x_{i,3}) + E_i, i \in \mat
\item Bei \textbf{multipler linearer Regression} ist $\beta_i$ die erwartete Zunahme der Zielgrösse bei Erhöhung von $x_i$ um eine Einheit - bei \textbf{Fixierung der anderen Variablen}. \item Bei \textbf{multipler linearer Regression} ist $\beta_i$ die erwartete Zunahme der Zielgrösse bei Erhöhung von $x_i$ um eine Einheit - bei \textbf{Fixierung der anderen Variablen}.
\end{itemize} \end{itemize}
\subsubsection{Parameterschätzung} \subsubsection{Parameterschätzung und t-Test}
Auch hier benutzen wir die \textit{Methode der kleinsten Quadrate}. \\ Auch hier benutzen wir die \textit{Methode der kleinsten Quadrate}. \\
$$\hat{\beta_0},\hat{\beta_1},...,\hat{\beta}_{p-1} \mathrm{\; Minimierung \; von \;} \sum_{i=1}^n(Y_i-(\beta_0+\beta_1x_{i,1}+...+\beta_{p-1}x_{i,p-1}))^2,$$ $$\hat{\beta_0},\hat{\beta_1},...,\hat{\beta}_{p-1} \mathrm{\; Minimierung \; von \;} \sum_{i=1}^n(Y_i-(\beta_0+\beta_1x_{i,1}+...+\beta_{p-1}x_{i,p-1}))^2,$$
falls $p < n$ falls $p < n$
@ -923,7 +1079,14 @@ $$\hat{\beta} = (X^TX)^{-1}X^TY.$$
Für die Fehlervarianz Für die Fehlervarianz
$$\hat{\sigma} = \frac{1}{n-p}\sum_{i=1}^nR^2_i,R_i = Y_i - \bigg(\hat{\beta}_0+\sum_{j=1}^{p-1}\hat{\beta}_jx_{i,j}\bigg)$$ $$\hat{\sigma} = \frac{1}{n-p}\sum_{i=1}^nR^2_i,R_i = Y_i - \bigg(\hat{\beta}_0+\sum_{j=1}^{p-1}\hat{\beta}_jx_{i,j}\bigg)$$
% TODO: t-Test Den \textit{t-Test} können wir analog zur \textit{einfachen Regression} mit
\begin{center}
\begin{tabular}{ll}
$H_0: \beta_j = 0$ & \multirow{2}{*}{$, j \in \mathbb{N} \leq p-1$} \\
$H_A: \beta_i \neq 0$ &
\end{tabular}
\end{center}
durchführen. Dabei misst $\beta_i$ den linearen Effekt der $i$-ten erklärenden Variable auf Zielvariable $Y$ \textbf{nach Elimination} der linearen Effekte auf $Y$ aller anderen Variablen. Es ist nicht möglich, durch direkte einfach lineare Regression von $Y$ zur $j$-ten erklärenden Variable $\beta_j$ zu erhalten!
\subsubsection{F-Test} \subsubsection{F-Test}
Prüft, ob es mindestens eine erklärende Variable gibt, die einen signifikanten Effekt auf die Zielvariable hat. Prüft, ob es mindestens eine erklärende Variable gibt, die einen signifikanten Effekt auf die Zielvariable hat.
@ -944,33 +1107,6 @@ $$R^2 = \hat{\rho}_{Y\hat{Y}}^2$$
\rule{.5\linewidth}{0.25pt} \rule{.5\linewidth}{0.25pt}
\end{center} \end{center}
\section{R}
\subsection{Wahrscheinlichkeitsverteilungen}
\lstinline{xxx} Name der Verteilung $X$ (z.B. \lstinline{binom} oder \lstinline{pois}): \\
\lstinline{dxxx} berechnet $P[X=x]$ \\
\lstinline{pxxx} berechnet $P[X\leq x]$ \\
\lstinline{rxxx} liefert Zufallszahl gemäss $X$
\subsection{Verteilungen}
\lstinline{pt} für kumulative Verteilungsfunktion \\
\lstinline{qt} für Quantile
\subsection{Wilcoxon-Test}
\label{sec:wilcoxon}
\lstinline{x} ist Array von Daten, $\mu$ der Median
\begin{lstlisting}
wilcox.test(x = x, alternative = "greater", mu = 80)
\end{lstlisting}
\subsection{Regression}
\label{sec:rreg}
\lstinline{x} und \lstinline{x} sind Arrays von Daten, \lstinline{lm} schätzt ein \textit{linear model} und \lstinline{summary()} gibt die Schätzwerte aus
\begin{lstlisting}
fm <- lm(y ~ x)
summary(fm)
\end{lstlisting}
% TODO: Add sample output for parameters
\begin{center} \begin{center}
\rule{\linewidth}{0.25pt} \rule{\linewidth}{0.25pt}
\end{center} \end{center}
@ -982,7 +1118,266 @@ $$R^2 = \hat{\rho}_{Y\hat{Y}}^2$$
\newpage \newpage
\begin{multicols*}{2} \begin{multicols*}{2}
\section*{Anhang} \section{R}
\subsection{diskrete Verteilungen}
\begin{lstlisting}
# d... berechnet P(X = x)
# p... berechnet P(X <= x)
# q... berechnet Quantile der Verteilung
# r... zieht eine bestimmte Anzahl Realisierungen der gewaehlten Verteilung
\end{lstlisting}
\subsubsection{Binomialverteilung}
\begin{lstlisting}
dbinom(x = 5, size = 10, prob = 0.5) # Berechnet P(X = 5) fuer X ~ Binomial(10, 0.5)
pbinom(q = 5, size = 10, prob = 0.5) # Berechnet P(X <= 5) fuer X ~ Binomial(10, 0.5)
qbinom(p = 0.2, size = 10, prob = 0.5) # Berechnet das 20%-Quantil fuer X ~ Binomial(10, 0.5)
rbinom(n = 100, size = 10, prob = 0.5) # Zieht zufaellig n=100 Realisierungen von X ~ Binomial(10, 0.5)
# (fuehren Sie den oberen Befehl rbinom 2x aus, Sie erhalten andere Werte)
\end{lstlisting}
\subsubsection{Poissonverteilung}
\begin{lstlisting}
dpois(x = 5, lambda = 2) # Berechnet P(X = 5) fuer X ~ Poisson(2)
ppois(q = 5, lambda = 2) # Berechnet P(X <= 5) fuer X ~ Poisson(2)
qpois(p = 0.2, lambda = 2) # Berechnet das 20%-Quantil fuer X ~ Poisson(2)
rpois(n = 100, lambda = 2) # Zieht n=100 Realisierungen von X ~ Poisson(2)
\end{lstlisting}
\subsubsection{Binomialtest}
\begin{lstlisting}
## Der Binomialtest kann in R mit dem Befehl binom.test(...) durchgefuehrt werden.
## Die Argumente der Funktion sind:
## - x: Der beobachtete Wert der Teststatistik
## - n, p: Die Parameter der Verteilung der Teststatistik (Binomial(n,p)) unter der Nullhypothese
## - alternative:
## Die Wahl der Alternativhypothese. Moegliche Optionen sind:
## - "less" fuer H_A: pi < pi_0
## - "greater" fuer H_A: pi > pi_0
## - "two.sided" fuer H_A: pi ungleich pi_0
## - conf.level:
## Das Konfidenzniveau fuer das Vertrauensintervall. Entspricht (1 - Signifikanzniveau).
## Beispiel:
## Wir vermuten, dass ein Wuerfel zu viele 6er wuerfelt.
## Wir haben in 50 Wuerfen 13 mal eine sechs gewuerfelt.
## Wir moechten auf dem 1%-Signifikanzniveau testen, ob der Wuerfel zu viele 6er wuerfelt.
binom.test(x = 13, n = 50, p = 1/6, alternative = "greater", conf.level = 0.99)
\end{lstlisting}
\subsection{Kennzahlen}
\begin{lstlisting}
## Wir haben folgende Daten beobachtet / gemessen
x <- c(1.1, 2.3, -2.4, 3.9, 5.1, -1.7, 2.0, -1.1, 3.4, 0.7)
y <- c(0.8, 2.1, -1.3, 1.0, 0.4, -3.2, 3.1, -0.1, 5.1, 4.3)
mean(x) # arithmetisches Mittel
var(x) # Varianz
sd(x) # Standardabweichung
max(x) # Maximum
min(x) # Minimum
median(x) # Median
quantile(x, probs = 0.25) # empirisches 25%-Quantil
summary(x) # Gibt Ueberblick ueber einige Kennzahlen
cor(x,y) # Empirische Korrelatin von x und y
\end{lstlisting}
\subsection{Grafische Methoden}
\begin{lstlisting}
plot(x, y) # Streudiagramm von x und y
hist(x) # Histogramm Typ "Frequency" (siehe VL 8)
hist(x, freq = FALSE) # Histogramm Typ "Density" (siehe VL 8)
hist(x, breaks = 10) # mit breaks = ... kann die Anzahl Balken gesteuert werden, siehe Serie 8)
plot(ecdf(x)) # Empirische kumulative Verteilungsfunktion
boxplot(x) # Boxplot
z <- rnorm(n = 100, mean = 2, sd = 1)
qqnorm(z) # QQ-Plot, welcher mit den theoretischen Quantilen der N(0,1)-Verteilung vergleicht.
\end{lstlisting}
\subsection{Stetige Verteilungen}
\subsubsection{Uniformverteilung}
\begin{lstlisting}
dunif(x = 2.5, min = 1, max = 3) # Wert der Dichte f(x) von X ~ Uniform([1,3]) an der Stelle x=2.5
punif(q = 2.5, min = 1, max = 3) # Wert der kum. Verteilungsfkt. F(x) von X ~ Uniform([1,3]) an der Stelle x=2.5
qunif(p = 0.2, min = 1, max = 3) # 20%-Quantil von X ~ Uniform([1,3])
runif(n = 100, min = 1, max = 3) # Zieht zufaellig 100 Realisierungen von X ~ Uniform([1,3])
\end{lstlisting}
\subsubsection{Exponentialverteilung}
\begin{lstlisting}
dexp(x = 2, rate = 1) # Wert der Dichte f(x) von X ~ Exp(1) an der Stelle x = 2
pexp(q = 2, rate = 1) # Wert der kum. Verteilungsfunktion F(x) von X ~ Exp(1) an der Stelle x = 2
qexp(p = 0.2, rate = 1) # 20%-Quantil von X ~ Exp(1)
rexp(n = 100, rate = 1) # Zieht zufaellig 100 Realisierungen von X ~ Exp(1)
\end{lstlisting}
\subsubsection{Normalverteilung}
\begin{lstlisting}
dnorm(x = 3, mean = 1, sd = sqrt(2)) # Wert der Dichte f(x) von X ~ N(1,2) an der Stelle x = 3
pnorm(q = 3, mean = 1, sd = sqrt(2)) # Wert der kum. VF F(x) von X ~ N(1,2) an der Stelle x = 3
qnorm(p = 0.2, mean = 1, sd = sqrt(2)) # 20%-Quantil von X ~ N(1,2)
rnorm(n = 100, mean = 1, sd = sqrt(2)) # Zieht zufaellig 100 Realisierungen von X ~ N(1,2)
\end{lstlisting}
\subsubsection{Standardnormalverteilung}
\begin{lstlisting}
dnorm(x = 3) # Wenn man meam = ..., sd = ... nicht angibt, wird eine N(0,1)-Verteilung angenommen.
pnorm(q = 3)
qnorm(p = 0.2) # entspricht Phi^{-1}(0.2)
rnorm(n = 100)
\end{lstlisting}
\subsection{Ein-Stichproben t-Test (gepaart)}
\begin{lstlisting}
## Der Ein-Stichproben t-Test kann in R mit dem Befehl t.test(...) durchgefuehrt werden.
## Die benoetigten Argumente der Funktion sind:
## - x: Der Vektor mit den beobachteten Werten
## - mu: Der Wert mu_0 der Nullhypothese
## - alternative:
## Die Wahl der Alternativhypothese. Moegliche Optionen sind:
## - "less" fuer H_A: mu < mu_0
## - "greater" fuer H_A: mu > mu_0
## - "two.sided" fuer H_A: mu ungleich mu_0
## - conf.level:
## Das Konfidenzniveau fuer das Vertrauensintervall. Entspricht (1 - Signifikanzniveau).
t.test(x = x, y = y, alternative = "greater", mu = 0, paired = TRUE, conf.level = 0.95)
\end{lstlisting}
\subsection{Zwei-Stichproben t-Test (ungepaart)}
\begin{lstlisting}
## Um in R einen ungepaarten Zwei-Stichproben t-Test durchzufuehren, verwenden
## Sie ebenfalls die Funktion t.test(...) mit den Argumenten
## - x: Der Vektor mit den beobachteten Werten der ersten Stichprobe
## - y: Der Vektor mit den beobachteten Werten der zweiten Stichprobe
## - mu: Der Wert mu_0 der Nullhypothese (typischerweise = 0, da Nullhypothese: "Es gibt keinen Unterschied")
## - alternative:
## Die Wahl der Alternativhypothese. Moegliche Optionen sind:
## - "less" fuer H_A: mu_X - mu_Y < mu_0
## - "greater" fuer H_A: mu_X - mu_Y > mu_0
## - "two.sided" fuer H_A: mu_X - mu_Y ungleich mu_0
## - paired = FALSE (ungepaarter Test)
## - var.equal = TRUE (standardmaessig ist var.equal = FALSE, dann wird ein Welch-Test durchgefuehrt)
## - conf.level:
## Das Konfidenzniveau fuer das Vertrauensintervall. Entspricht (1 - Signifikanzniveau).
t.test(x = x, y = y, alternative = "two.sided", mu = 80.00, paired = FALSE, conf.level = 0.95)
\end{lstlisting}
\newpage
\subsection{Wilcoxon-Test}
\label{sec:wilcoxon}
\begin{lstlisting}
## Ein- und Zwei-Stichproben Wilcoxon Tests stehen in R unter dem Befehl wilcox.test(...) zur Verfuegung.
## Die Argumente der Funktion sind analog zu denjenigen der t-Tests.
wilcox.test(x = x, alternative = "greater", mu = 80)
\end{lstlisting}
\subsection{Verteilungen}
\lstinline{pt} für kumulative Verteilungsfunktion \\
\lstinline{qt} für Quantile
\subsection{Regression}
\label{sec:rreg}
\subsubsection{Einfache Lineare Regression}
\begin{lstlisting}
## Um in R ein einfaches lineares Regressionsmodell anzupassen, verwendet man den R-Befehl lm(...).
## Wir betrachten das Beispiel mit Buchpreis und Seitenzahl aus dem Vorlesungsskript.
x <- c(50, 100, 150, 200, 250, 300, 350, 400, 450, 500) ## Seitenzahl, erklaerende Variable.
y <- c(9.9, 10.7, 13.3, 15.2, 16.4, 23.6, 23.5, 21.1, 28.9, 29.1) ## Buchpreis, Zielvariable.
\end{lstlisting}
Eigentliche Regression:
\begin{lstlisting}
## Um das lineare Regressionsmodell Y_i = beta_0 + beta_1 x_i + E_i zu fitten, benutzt man
fit <- lm(y ~ x)
## Man kann Achsenabschnitt und Steigung sehen, wenn man sich das Objekt 'fit' anschaut:
fit
\end{lstlisting}
oder
\begin{lstlisting}
fit <- lm(y ~ x)
summary(fit)
\end{lstlisting}
liefert den Output
\begin{lstlisting}
Residuals:
Min 1Q Median 3Q Max
-3.6958 -0.5944 -0.2203 0.9300 3.3048
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.793333 1.391060 4.884 0.00122 **
x 0.045006 0.004484 10.037 8.25e-06 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.036 on 8 degrees of freedom
Multiple R-squared: 0.9264, Adjusted R-squared: 0.9172
F-statistic: 100.8 on 1 and 8 DF, p-value: 8.254e-06
\end{lstlisting}
somit $Y_i = 6.793333 + 0.045006x_i$
\textbf{Weitere Plots}
\begin{lstlisting}
## Residuenplots erhaelt man einfach mittels
plot(fit) # man muss in der "Console" mehrmals die Eingabetaste dr¸cken, um die Plots zu sehen.
## oder:
plot(fit$fitted, fit$resid) ## Tukey-Anscombe plot
qqnorm(fit$residuals) ## qq-Plot der Residuen
## 95%-Vertrauensintervalle f¸r Koeffizienten (siehe VL 14, Slide 8)
confint(fit)
## 95%-Vertrauens-/Vorhersageintervalle (siehe VL 14, Slides 9 und 10)
nd <- data.frame(x=1, y=NA)
predict(fit, newdata = nd, interval = "confidence") ## Vertrauensintervall
predict(fit, newdata = nd, interval = "prediction") ## Vorhersageintervall
## Nehmen wir an, die Daten befinden sich in einem data.frame (anstelle von zwei Vektoren).
Daten_Buch <- data.frame(Seitenzahl = x, Buchpreis = y)
Daten_Buch
## Dieselbe Regression wie oben kann man nun berechnen, indem man entweder schreibt:
fit2 <- lm(Daten_Buch$Buchpreis ~ Daten_Buch$Seitenzahl)
summary(fit2)
## oder alternativ:
fit3 <- lm(Buchpreis ~ Seitenzahl, data = Daten_Buch)
summary(fit3)
## Alle 3 Varianten (fit, fit2, fit3) liefern exakt dasselbe Resultat.
\end{lstlisting}
\subsubsection{Multiple lineare Regression}
\begin{lstlisting}
## Um in R ein multiples lineares Regressionsmodell anzupassen, verwendet man ebenfalls den R-Befehl lm(...).
## Wir betrachten das Beispiel mit Buchpreis und Seitenzahl aus dem Vorlesungsskript, moechten nun jedoch
## als zweite erklaerende Variable noch das Erscheinungsjahr des Buches ins Modell aufnehmen.
x1 <- c(50, 100, 150, 200, 250, 300, 350, 400, 450, 500) ## Seitenzahl, erklaerende Variable 1.
x2 <- c(2017, 1999, 2013, 2004, 2001, 1979, 2018, 2008, 2015, 2002) ## Erscheinungsjahr, erklaerende Variable 2.
y <- c(9.9, 10.7, 13.3, 15.2, 16.4, 23.6, 23.5, 21.1, 28.9, 29.1) ## Buchpreis, Zielvariable.
## Das multiple lineare Regressionsmodell Y_i = beta_0 + beta_1 x_1 + beta_2 x_2 + E_i berechnet man
## mit dem Befehl:
fit <- lm(y ~ x1 + x2)
## Die restlichen Befehle sind analog zur einfachen linearen Regression.
\end{lstlisting}
\section{Anhang}
\label{sec:anhang} \label{sec:anhang}
\begin{figure}[H] \begin{figure}[H]
\begin{tabular}{l|llll|c|c} \begin{tabular}{l|llll|c|c}
@ -1002,13 +1397,25 @@ $$R^2 = \hat{\rho}_{Y\hat{Y}}^2$$
\section*{Referenzen} \section*{Referenzen}
\begin{enumerate} \begin{enumerate}
\item "Vorlesungsskript Mathematik IV für Agrarwissenschaften, Erdwissenschaften, Lebensmittelwissenschaften und Umweltnaturwissenschaften", Dr. Jan Ernest, HS19 \\ \item Skript "Vorlesungsskript Mathematik IV für Agrarwissenschaften, Erdwissenschaften, Lebensmittelwissenschaften und Umweltnaturwissenschaften", Dr. Jan Ernest, HS19 \\
\item Statistik\_MatheIV.pdf, scmelina, HS18 \item Statistik\_MatheIV.pdf, scmelina, HS18
\item ZF\_Statistik\_ClemenceBoutry.pdf ,clboutry, FS16
\end{enumerate} \end{enumerate}
\url{https://n.ethz.ch/~jannisp} \\ \section*{Bildquellen}
Jannis Portmann, 2020 \\ \begin{itemize}
\doclicenseImage \item Abb. \ref{fig:poisson-approx}: Skbkekas, \url{https://upload.wikimedia.org/wikipedia/commons/1/16/Poisson_pmf.svg}
\item Abb. \ref{fig:histogram}: DanielPenfield, \url{https://upload.wikimedia.org/wikipedia/commons/c/c3/Histogram_of_arrivals_per_minute.svg}
\item Abb. \ref{fig:boxplot}: towardsdatascience.com, \url{https://towardsdatascience.com/understanding-boxplots-5e2df7bcbd5}
\item Abb. \ref{fig:scatter}: DanielPenfield, \url{https://upload.wikimedia.org/wikipedia/commons/a/af/Scatter_diagram_for_quality_characteristic_XXX.svg}
\item Abb. \ref{fig:kumulative}: Skript
\item Abb. \ref{fig:sreg}: Skript
\end{itemize}
\doclicenseImage \\
\faGlobe \kern 1em \url{https://n.ethz.ch/~jannisp} \\
\faGit \kern 0.88em \url{https://git.thisfro.ch/thisfro/statistik-zf} \\
Jannis Portmann, HS19
\end{multicols*} \end{multicols*}
\end{document} \end{document}