statistik-zf/zf-statistik.tex
2020-01-03 15:21:09 +01:00

1014 lines
42 KiB
TeX
Raw Blame History

This file contains invisible Unicode characters

This file contains invisible Unicode characters that are indistinguishable to humans but may be processed differently by a computer. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

\documentclass[8pt,landscape]{extarticle}
\usepackage{multicol}
\usepackage{calc}
\usepackage{ifthen}
\usepackage[a4paper, landscape]{geometry}
\usepackage{hyperref}
\usepackage{ccicons}
\usepackage{amsmath, amsfonts, amssymb, amsthm}
\usepackage{listings}
\usepackage{xcolor}
\usepackage{graphicx}
\usepackage{multirow}
\usepackage{float}
\usepackage[
type={CC},
modifier={by-nc-sa},
version={3.0},
]{doclicense}
\graphicspath{ {./img/} }
\definecolor{codegreen}{rgb}{0,0.6,0}
\definecolor{codegray}{rgb}{0.5,0.5,0.5}
\definecolor{codepurple}{rgb}{0.58,0,0.82}
\definecolor{backcolour}{rgb}{0.9,0.9,0.9}
\lstdefinestyle{mystyle}{
backgroundcolor=\color{backcolour},
commentstyle=\color{codegreen},
keywordstyle=\color{magenta},
numberstyle=\tiny\color{codegray},
stringstyle=\color{codepurple},
basicstyle=\ttfamily\footnotesize,
breakatwhitespace=false,
breaklines=true,
captionpos=b,
keepspaces=true,
numbers=left,
numbersep=5pt,
showspaces=false,
showstringspaces=false,
showtabs=false,
tabsize=2
}
\lstset{style=mystyle}
% To make this come out properly in landscape mode, do one of the following
% 1.
% pdflatex latexsheet.tex
%
% 2.
% latex latexsheet.tex
% dvips -P pdf -t landscape latexsheet.dvi
% ps2pdf latexsheet.ps
% If you're reading this, be prepared for confusion. Making this was
% a learning experience for me, and it shows. Much of the placement
% was hacked in; if you make it better, let me know...
% 2008-04
% Changed page margin code to use the geometry package. Also added code for
% conditional page margins, depending on paper size. Thanks to Uwe Ziegenhagen
% for the suggestions.
% 2006-08
% Made changes based on suggestions from Gene Cooperman. <gene at ccs.neu.edu>
% To Do:
% \listoffigures \listoftables
% \setcounter{secnumdepth}{0}
% This sets page margins to .5 inch if using letter paper, and to 1cm
% if using A4 paper. (This probably isn't strictly necessary.)
% If using another size paper, use default 1cm margins.
\ifthenelse{\lengthtest { \paperwidth = 11in}}
{ \geometry{top=.5in,left=.5in,right=.5in,bottom=.5in} }
{\ifthenelse{ \lengthtest{ \paperwidth = 297mm}}
{\geometry{top=1cm,left=1cm,right=1cm,bottom=1cm} }
{\geometry{top=1cm,left=1cm,right=1cm,bottom=1cm} }
}
% Turn off header and footer
\pagestyle{empty}
% Redefine section commands to use less space
\makeatletter
\newcommand\sbullet[1][.5]{\mathbin{\vcenter{\hbox{\scalebox{#1}{$\bullet$}}}}}
\renewcommand{\section}{\@startsection{section}{1}{0mm}%
{-1ex plus -.5ex minus -.2ex}%
{0.5ex plus .2ex}%x
{\normalfont\large\bfseries}}
\renewcommand{\subsection}{\@startsection{subsection}{2}{0mm}%
{-1explus -.5ex minus -.2ex}%
{0.5ex plus .2ex}%
{\normalfont\normalsize\bfseries}}
\renewcommand{\subsubsection}{\@startsection{subsubsection}{3}{0mm}%
{-1ex plus -.5ex minus -.2ex}%
{1ex plus .2ex}%
{\normalfont\small\bfseries}}
\makeatother
% Define BibTeX command
\def\BibTeX{{\rm B\kern-.05em{\sc i\kern-.025em b}\kern-.08em
T\kern-.1667em\lower.7ex\hbox{E}\kern-.125emX}}
% Don't print section numbers
% \setcounter{secnumdepth}{0}
\setlength{\parindent}{0pt}
\setlength{\parskip}{0pt plus 0.5ex}
\lstset{language=R}
% -----------------------------------------------------------------------
\begin{document}
\raggedright
\footnotesize
\begin{multicols*}{3}
% multicol parameters
% These lengths are set only within the two main columns
%\setlength{\columnseprule}{0.25pt}
\setlength{\premulticols}{1pt}
\setlength{\postmulticols}{1pt}
\setlength{\multicolsep}{1pt}
\setlength{\columnsep}{2pt}
\begin{center}
\Large{Statistik ZF} \\
\small{Mathematik IV, zu VL von Jan Ernest} \\
\small{Jannis Portmann 2020} \\
{\ccbyncsa}
\end{center}
\begin{center}
\rule{\linewidth}{0.25pt}
\end{center}
\section{Modelle für Zähldaten}
\subsection{Wahrscheinlichkeitsmodelle}
\begin{itemize}
\item Grundraum $\Omega$ mit Elementarereignissen $\omega_i$ (z.B. Augenzahl eines Würfels)
\item Ereignisse $A$, $B$, $C$, ... (Teilmenge von $\Omega$) (z.B. Kombinationen von Augenzahlen)
\item Wahrscheinlichkeit für jedes Ereignis $P(A)$, $P(B)$, ...
\end{itemize}
\subsection{Operatoren}
\begin{itemize}
\item $A \cup B$ - ODER (inklusiv, "und/oder") \\
\item $A \cap B$ - UND (Konjunktion) \\
\item $A^c$ - NICHT (Negation) \\
\item $A \backslash B = A \cap B^c$ - A UND NICHT B
\end{itemize}
\subsection{Axiome der Wahrscheinlichkeitsrechnug}
\begin{enumerate}
\item $P(A) \geq 0$ - Die Wahrscheinlichkeiten sind immer nicht-negativ
\item $P(\Omega) = 1$ - Das Ereignis $\Omega$ hat Wahrscheinlichkeit eins
\item $P(A \cup B) = P(A) + P(B)$ falls $A \cap B = \emptyset$ (A und B sind disjunkt), d.h. für alle Ereignisse, die sich gegenseitig ausschliessen.
\end{enumerate}
Daraus folgen:
\begin{itemize}
\item $P(A^c) = 1 - P(A)$
\item $P(A \cup B) = P(A) + P(B) - P(A \cap B)$
\end{itemize}
\subsection{Wahrscheinlichkeiten berechnen}
Für diskrete Wahrscheinlichkeitsmodelle
\subsubsection{Summe der Elementarereinisse (verschiedene $P(\omega_i)$)}
$$P(A) = \sum_{\omega \in A} P(\{ \omega \})$$
\subsubsection{Laplace-Modell (gleiche $P(\omega_i)$)}
\label{section:laplace}
$$P(E)=\frac{g}{m}$$
günstig/möglich
\subsection{Unabhängigkeit}
$A$ und $B$ sind stochastisch unabhängig, wenn gilt:
$$P(A \cap B) = P(A)P(B)$$
somit können wir dies annehmen, falls wir wissen, dass $A$ und $B$ nicht kausal voneinander abhängig sind
\subsection{Bedingte Wahrscheinlichkeit (Abhängigkeit)}
\subsubsection{Satz von Bayes}
$$P(A|B)P(B)=P(B|A)P(A)=P(A \cap B)$$
somit ist $P(A|B)$ nicht unbedingt $P(B|A)$\footnote{$P(A|B)$: $P(A)$ gegeben $B$}
\subsubsection{Gesetz der totalen Wahrscheinlichkeit}
$$P(B) = \sum_{i=1}^k P(B|A_k)P(A_k)$$
\subsubsection{Odds}
$$\mathrm{odds}(E) = \frac{P(E)}{1-P(E)} = \frac{P(E)}{P(E^c)}$$
(vgl. Abschnitt \ref{section:laplace})
$$\mathrm{odds}(E | A) = \frac{P(E | A)}{1-P(E|A)}$$
\subsubsection{Odds-Ratio}
$$\mathrm{OR} = \frac{\mathrm{odds}(E|A)}{\mathrm{odds}(E|B)}$$
\subsection{Zufallsvariable}
$$X(\omega) = x$$
\begin{center}
\begin{tabular}{ll}
$X$: & $\Omega \rightarrow \mathbb{R}$ \\
& $\omega \rightarrow X(\omega)$
\end{tabular}
\end{center}
Grossbuchstabe: Funktion, Kleinbuchstabe: Realisierung
$$ P(X=x)=P(\{\omega; X(\omega)=x\})= \sum_{\omega;X(\omega)=x} P(\omega)$$
So dass $\omega = x$, also einen gewünschten Wert (z.B. Jass: $P(\mathrm{Koenig}) = P(\mathrm{Schilten-Koenig})+P(\mathrm{Schellen-Koenig})+$...
\subsection{Diskrete Verteilungen}
\subsubsection{Kennzahlen}
\textbf{Erwartungswert}
$$\mathbb{E}(X) = \sum_{x \in \mathbb{W}_X} x P(X = x)$$
wobei $\mathbb{W}_x$ der Wertebereich von X ist.
\textbf{Varianz}
$$\mathrm{Var}(X) = \sum_{x \in \mathbb{W}_X}(x-\mathbb{E}(X))^2P(X=x)$$
\textbf{Standardabweichung}
$$\sigma(X) = \sqrt{\mathrm{Var}(X)}$$
\subsubsection{Bernoulli-($\pi$)-Verteilung}
$$P(X = 1) = \pi, P(X = 0) = 1 - \pi, 0 \leq \pi \leq 1$$
Beschreibt das eintreffen bzw. nicht-eintreffen eines bestimmten Ereignisses.
\subsubsection{Binominalverteilung \footnote{Dabei ist $\binom{n}{x} = \frac{n!}{x!(n-x)!}$}}
$$P(X = x) = \binom{n}{x} \pi^x(1 - \pi)^{n-x}, x \in \mathbb{N}_0$$
Dabei ist $0 \leq \pi \leq 1$ der Erfolgsparameter der Verteilung. \\
Notation: $X \sim \mathrm{Bin}(n,\pi)$ ($X$ folgt einer Binominalverteilung mit Parametern $n$ und $\pi$)
Zusammenhänge:
\begin{itemize}
\item $\mathrm{Bin}(1,\pi) = \mathrm{Bernoulli}(\pi)$
\item $X_1 \sim \mathrm{Bin}(n_1,\pi); X_2 \sim \mathrm{Bin}(n_2,\pi)$ unabhängig $\Rightarrow S := X_1 + X_2$, dann $S \sim \mathrm{Bin}(n_1+n_2,\pi)$
\end{itemize}
% TODO: Skript S. 22, E, Var, σ von Bernoulli und Binominal
\subsubsection{Poisson-($\lambda$)-verteilung}
$$P(X = x) = \mathrm{exp}(-\lambda)\frac{\lambda^x}{x!}, x \in \mathbb{N}_0$$
Dabei sind $\mathbb{E}(X) = \lambda, \mathrm{Var}(X) = \lambda, \sigma(X) = \sqrt{\lambda}$ \\
Für zwei unabhängige Poisson-Verteilungen $X \sim \mathrm{Poisson(\lambda_x)}, Y \sim \mathrm{Poisson}(\lambda_y)$ ist $X + Y \sim \mathrm{Poisson}(\lambda_x + \lambda_y)$
\subsubsection{Poisson-Approximation der Binomial-Verteilung}
$X \sim \mathrm{Bin}(n, \pi)$ und $Y \sim \mathrm{Poisson}(\lambda)$, für kleine $\pi$ und grosse $n$ gilt:
$$P(X=x)=\binom{n}{x}\pi^x(1-\pi^{n-x}) \approx P(Y = x)=\mathrm{exp}(-\lambda)\frac{\lambda^x}{x!}, x \in \mathbb{N}_0$$
\subsubsection{Diskrete Uniformverteilung}
$$P(X = x_i) = \frac{1}{n}, i \in \mathbb{N}$$
$X \sim \mathrm{Uniform}(x_i)$, alle $n$ Ereignisse $x$ sind gleich wahrscheinlich
\subsubsection{Hypergeometrische Verteilung}
Einfluss von entfernten Ereignissen auf Wahrscheinlichkeiten von neuen Ziehungen (ohne Zurücklegen).
$$P(X = x)=\frac{\binom{m}{x}\binom{N-m}{n-x}}{\binom{N}{n}}$$
Hier sind $\mathbb{E}(X) = \frac{nm}{N}$ und $\mathrm{Var}(X)=\frac{nm(N-m)(N-n)}{N^2(N-1)}$
$X \sim \mathrm{Hyper}(N,n,m)$, dabei $N$ die total möglichen Ereignisse, $m$ die "Gewinne" und es wird $n$ gezogen.
\begin{center}
\rule{.5\linewidth}{0.25pt}
\end{center}
\section{Statistik für Zähldaten}
\begin{enumerate}
\item \textbf{Grundfragestellung:} Welches ist der zu den Beobachtungen plausibelste Parameterwert? Die Antwort auf diese Frage heisst (Punkt-)Schätzung.
\item \textbf{Grundfragestellung:} Sind die Beobachtungen kompatibel (statistisch vereinbar) mit einem vorgegebenen Parameterwert? Die Antwort auf diese 2. Grundfrage heisst statistischer Test.
\item \textbf{Grundfragestellung:} Grundfragestellung: Welche Parameterwerte sind mit den Beobachtungen kompatibel (statistisch vereinbar)? Die Antwort auf diese 3. Grundfrage heisst Vertrauensintervall. Das Vertrauensintervall ist allgemeiner und informativer als ein statistischer Test.
\end{enumerate}
\subsection{Punktschätzung von Parametern}
$\hat{X}$ bezeichnet den Schätzwert von $X$
\\ \\
Bei \textbf{Binominalverteilung}:
\subsubsection{Momentenmehtode}
Aus $\mathbb{E}(X) = n\pi \Leftrightarrow \pi = \frac{\mathbb{E}(X)}{x}$, daraus $\hat{\mathbb{E}(X)}=x$ und somit
$$\hat{\pi} = \frac{x}{n}$$
\subsubsection{Maximum-Likelihood}
Vorgehen:
\begin{itemize}
\item Funktion $P$ der Wahrscheinlichkeit aufstellen
\item $\log(P)$
\item $\frac{\mathrm{d}P}{\mathrm{d}\pi} = 0$
\item auflösen nach $\pi$
\end{itemize}
Dies ist für eine Binominalverteilung ebenfalls $\hat{\pi} = \frac{x}{n}$
\subsection{Aufbau statistischer Test}
$P(X \geq c)$ für verschiedene $c$
\begin{enumerate}
\item Modell $X$ erstellen
\item Nullhypothese \\
\begin{center}
\begin{tabular}{ll}
$H_0$: & $\pi = \pi_0$
\end{tabular}
\end{center}
und Alternativhypothese
\begin{center}
\begin{tabular}{ll}
$H_A$: & $\pi \neq \pi_0$ (zweiseitig) \\
& $\pi > \pi_0$ (einseitig nach oben) \\
& $\pi < \pi_0$ (einseitig nach unten)
\end{tabular}
\end{center}
oft ist $H_0: \pi = 1/2$ (= reiner Zufall). Man testet also gegen Zufall.
\item Teststatistik $T$ (Anzahl treffer bei $n$ Versuchen), Verteilung unter $H_0: T \sim \mathrm{Bin}(n,\pi_0)^3$
\item Festlegen von Signifikanzniveau $\alpha$ (meist $\alpha = 0.05$ oder $\alpha = 0.01$)
\item Bestimmung Verwerfungsbereich
$$K = \begin{cases}
[0,c_u] \cup [c_0,n] & H_A: \pi \neq \pi_0 \\ [c,n] & H_A: \pi > \pi_0 \\ [0,c] & H_A: \pi < \pi_0
\end{cases}$$
\item Testentscheid: Ist $t \in K$? Falls ja wird $H_0$ verworfen, falls nicht wird sie als korrekt angenommen\footnote{Achtung: Das heisst nicht, dass $H_0$ gültig ist! (Falsifizierbarkeit)}
\end{enumerate}
\subsubsection{Fehler 1. und 2. Art}
\label{sec:fehler12}
\begin{enumerate}
\item Art: Fälschliches Verwerfen von $H_0$, obwohl $H_0$ richtig ist.
\item Art: Fälschliches Beibehalten von $H_0$, obwohl $H_A$ zutrifft.
\end{enumerate}
$$P(\mathrm{Fehler \; 1. \; Art}) = P_{H_0}(X \in K)\leq \alpha$$
Fehler 1. Art soll möglichst vermieden werden!
\subsubsection{Macht (Power)}
\label{sec:macht}
$$\mathrm{Macht}:=1-P(\mathrm{Fehler \; 2. \; Art}) = P_{H_A} (X \in K)$$
Idee: Wie gross muss eine Stichprobe sein, damit mit einer bestimmten Macht $\beta=x$ eine Hypothese bewiesen werden kann auf Signifikanzniveau $\alpha$?
\subsubsection{P-Wert}
Der P-Wert ist ein Wert zwischen 0 und 1, der angibt, wie gut Nullhypothese und Daten zusammenpassen.
\subsubsection{Vertrauensintervall}
\label{sec:vertrauensintervall}
$$I:=\{\pi_0;\; \mathrm{Nullhypothese} \; H_0:\pi = \pi_0 \mathrm{wird \; beibehalten}\}$$
$$P_\pi(\pi \in I(X) \gtrapprox 1-\alpha)$$
\begin{center}
\rule{.5\linewidth}{0.25pt}
\end{center}
\section{Modelle und Statistik für Zähldaten}
\subsection{Deskriptive Statistik}
\subsubsection{Kennzahlen}
\textbf{Arithmetisches Mittel}
$$\bar{x} = \frac{1}{n}\sum_{i=1}^nx_i$$
\textbf{Empirische Standardabweichung}
$$s_x = \sqrt{\mathrm{Var}} = \sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2}$$
\textbf{Quantile} \\
$\alpha$-Quantil \\
"Wert $x$ bei dem $\alpha \cdot 100 \%$-Werte kleiner als $x$ sind"
\subsubsection{Kovarianz und Korrelation}
Gemeinsame Verteilung von zwei Zufallsvariablen $X$ und $Y$ \\
\textbf{Kovarianz}
$$\mathrm{Cov}(X,Y)=\mathbb{E}[(X-\mu_x)(Y-\mu_y)] = \mathbb{E}(XY) - \mathbb{E}(X)\mathbb{E}(Y)$$
es gilt somit auch
$$\mathrm{Cov}(X,X) = \mathrm{Var}(X)$$
\textbf{Korrelation}
$$\mathrm{Cor}(X,Y)=\rho_{XY} = \frac{\mathrm{Cov}(X,Y)}{\sigma_X\sigma_Y}$$
wobei $\rho_{XY} \in [-1,1]$ \\
Falls $X, Y$ unabhängig $\mathrm{Cor}(X,Y) = 0$.\footnote{Aber dies bedeutet nicht, dass falls $\mathrm{Cor}(X,Y) = 0$, $X$ und $Y$ dann unabhängig sind!}
\textbf{Empirische Korrelation}
$$r = \frac{s_{xy}}{s_xs_y}$$
wobei $s_{xy} = \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{n-1}$
\subsubsection{Grafische Methoden}
\textbf{Histogramme} \\
Einteilung in Klassen, auftragen der Beobachtugen je Klasse in Balkendiagramm
\textbf{Boxplot} \\
Rechteck, vom 75\%- und 25\%-Quantil begrenzt
\begin{figure}[H]
\centering
\includegraphics[width=.2\textwidth]{boxplot.png}
\caption{Beispiel Boxplot (IQR = Interquartile-Range)}
\label{fig:boxplot}
\end{figure}
\textbf{Streudiagramm (Scatter-Plot)} \\
Auftragen der Daten $(x_n,y_n)$
\subsection{Stetige Zufallsvariablen und Wahrscheinlichkeitsverteilungen}
Eine Zufallsvariable $X$ heisst stetig, falls deren Wertebereich $\mathbb{W}_X$ stetig ist \\
Da Punktverteilung
$$P(X=x) = 0, \forall x \in \mathbb{W}_X, \footnote{Da in jedem kontunuierlichen Intervall $\infty$ Werte sind}$$
benötigen wir
$$P(X \in (a,b]) = P(a < X \leq b)$$
\textbf{Kumulative Verteilungsfunktion}
$$F(x) = P(X \leq x)$$
\subsubsection{(Wahrscheinlichkeits-)Dichte)}
$$f(x) = \dot{F}(x) \Longleftrightarrow F(x) = \int_{-\infty}^xf(y)\mathrm{d}y$$
\subsection{Kennzahlen von stetigen Verteilungen}
\begin{center}
\begin{tabular}{rl}
$\mathbb{E}(X) =$ & $\int_{-\infty}^{\infty}xf(x)\mathrm{d}x$ \\
Var$(X) =$ & $\mathbb{E}((X-\mathbb{E}(X))^2) = \int_{-\infty}^{\infty}(x-\mathbb{E}(X))^2f(x)\mathrm{d}x$ \\
$\sigma(X) =$ & $\sqrt{\mathrm{Var}(X)}$
\end{tabular}
\end{center}
\textbf{Qunatile}
$$P(X \leq q(\alpha)) = \alpha$$
$q(\alpha)$ ist der Punkt, an dem die Fläche unter der Dichtefunktion $f(x)$ von $-\infty$ bis $q(\alpha)$ gleich $\alpha$ ist. (z.B. beim Median ($\alpha = 50\%$) sind die Flächen darunter und darüber gleich gross)
\subsection{Stetige Verteilungen}
\subsubsection{Uniforme Verteilung}
$X \sim \mathrm{Uniform}([a,b]), \mathbb{W}_X = [a,b]$
$$f(x) = \begin{cases}
\frac{1}{b-a}, \; \mathrm{falls} \; a \leq x \leq b \\
0, \;\;\;\;\;\;\, \mathrm{sonst} %uglyAF
\end{cases}$$
somit ist die kumulative Verteilung
$$F(x) = \begin{cases}
0, \;\;\;\;\;\;\, \mathrm{falls} \; x < a \\
\frac{x-a}{b-a}, \; \mathrm{falls} \; a \leq x \leq b \\
1, \;\;\;\;\;\;\, \mathrm{falls} \; x > b
\end{cases}$$
\textbf{Kennzahlen}
\begin{center}
\begin{tabular}{rl}
$\mathbb{E}(X) =$ & $\frac{a+b}{2}x$ \\
Var$(X) =$ & $\frac{(b-a)^2}{12}$ \\
$\sigma_X =$ & $\frac{b-a}{\sqrt{12}}$
\end{tabular}
\end{center}
\subsubsection{Exponential-Verteilung}
$X \sim \mathrm{Exp}(\lambda), \mathbb{W}_X = [0,\infty), \lambda \in \mathbb{R}^+$
$$f(x) = \begin{cases}
\lambda e^{-\lambda x}, \; \mathrm{falls} \; x \geq 0 \\
0, \;\;\;\;\;\;\;\;\;\; \mathrm{sonst} %uglyAF
\end{cases}$$
also
$$F(x) = \begin{cases}
1 - e^{-\lambda x}, \; \mathrm{falls} \; x \geq 0 \\
0, \;\;\;\;\;\;\;\;\;\;\;\;\;\, \mathrm{falls} \; x < 0
\end{cases}$$
\textbf{Kennzahlen}
\begin{center}
\begin{tabular}{rl}
$\mathbb{E}(X) =$ & $\frac{1}{\lambda}x$ \\
Var$(X) =$ & $\frac{1}{\lambda^2}$ \\
$\sigma_X =$ & $\frac{1}{\lambda}$
\end{tabular}
\end{center}
\subsubsection{Normalverteilung (Gauss'sche-Verteilung)}
$X \sim \mathcal{N}(\mu,\sigma^2), \mathbb{W}_X = \mathbb{R}, \mu \in \mathbb{R} \; \mathrm{und} \; \sigma \in \mathbb{R}^+$
$$f(x) = \frac{1}{\sigma\sqrt{2\pi}}\mathrm{exp}\bigg(-\frac{(x-\mu)^2}{2\sigma^2}\bigg)$$
$$F(x) \Rightarrow \mathrm{Tabelle!}$$
\textbf{Kennzahlen}
\begin{center}
\begin{tabular}{rl}
$\mathbb{E}(X) =$ & $\mu$ \\
Var$(X) =$ & $\sigma^2$ \\
$\sigma_X =$ & $\sigma$
\end{tabular}
\end{center}
\subsubsection{Standard-Normalverteilung}
$X \sim \mathcal{N}(0,1), \mathbb{W}_X = \mathbb{R}, \mu = 0 \; \mathrm{und} \; \sigma = 1$
$$\varphi (x) = \frac{1}{\sqrt{2\pi}}\mathrm{exp}\bigg(-\frac{x^2}{2}\bigg)$$
$$\Phi(x) = \int_{-\infty}^x\varphi(y)\mathrm{d}y$$
$$\Phi(-c) = P(X \leq -c) = P(X \geq c) = 1-P(X \leq c) = 1 - \Phi(c)$$
\subsection{Funktionen einer Zufallsvariable}
Sei $g: \mathbb{R} \rightarrow \mathbb{R}$ und $X$ eine Zufallsvariable, so ist
$$Y = g(X)$$
eine Transformation.
$$\mathbb{E}(Y) = \mathbb{E}(g(X)) = \int_{-\infty}^{\infty}g(x)f_X(x) \mathrm{d}x$$
\subsubsection{Lineare Transformation}
Sei $X \sim \mathcal{N}(\sigma,\omega^2)$ und $Y = a+bX$ \\
dann sind
\begin{center}
\begin{tabular}{rl}
$\mathbb{E}(Y) =$ & $a +b\mathbb{E}(X)$ \\
Var$(Y) =$ & $b^2 \cdot \mathrm{Var}(X)$ \\
$\sigma_Y =$ & $b \cdot \sqrt{\mathrm{Var}(X)}$ \\
$q_Y(\alpha) =$ & $a+b\cdot q_X(\alpha)$
\end{tabular}
\end{center}
\subsubsection{Standardisieren einer Zufallsvariable}
Überführen von $X$ in eine \textit{Standard-Normalverteilung} $(\mathbb{E} = 0, \sigma = 1)$
$$Z = g(X) = \frac{X-\mathbb{E}(X)}{\sigma_X} = \frac{X-\mu}{\sigma} \sim \mathcal{N}(0,1)$$
\subsubsection{Lognormal-Verteilung}
Sei $Y \sim \mathcal{N}(\mu,\sigma^2)$ dann soll $X = \mathrm{exp}(Y)$ mit $\mu \in \mathbb{R}$ und $\sigma \in \mathbb{R}^+$
$$\mathbb{E}(X) = \mathrm{exp}(\mu + \frac{\sigma^2}{2}) > \mathrm{exp}(\mathbb{E}(Y))$$
\subsubsection{Berechnung von Momenten}
Das $k$-te Moment ist gegeben als
$$m_k = \mathbb{E}(X^k)$$
also z.B.
$$m_2 = \mathbb{E}(X^2) = \int_{-\infty}^\infty x^2 f(x) \mathrm{d}x$$
Verschiebungssatz für die Varianz:
$$\mathrm{Var}(X) = \mathbb{E}(X^2) - \mathbb{E}(X)^2$$
\subsection{Überprüfen der Normalverteilungs-Annahme}
\subsubsection{Q-Q Plot (Quantil-Quantil Plot)}
Man plottet die empirischen Quantile gegen die theoretischen Quantile der Modell-Verteilung. Die Punkte sollten ungefähr auf der Winkelhalbierenden $y = f(x) = x$ liegen.
\subsubsection{Normal-Plot}
\label{sec:normalplot}
Für Klassen von Verteilungen, z.B. Klasse der Normalverteilungen mit verschiedenen $\mu, \sigma$. \\
Sei $X \sim \mathcal{N}(\mu, \sigma^2)$, dann sind die Quantile von X
$$q(\alpha) = \mu + \sigma \Phi^{-1}(\alpha)$$
Ein \textit{Q-Q Plot} bei dem die Modell-Verteilung gleich $\mathcal{N}(0,1)$ ist, heisst Normal-Plot.
\subsection{Funktionen von mehreren Zufallsvariablen}
Statt einer Zufallsvariale $X$ und deren $n$ unabhängigen Realisierungen $x_1, x_2, ... , x_n$, nimmt man oft $X_1, X_2, ... , X_n$. Somit wird $y = g(x_1, x_2, ... , x_n)$ zu einer Funktion von Zufallsvariablen
$$Y = g(X_1, X_2, ... , X_n)$$
\subsubsection{Unabhängigkeit und i.i.d. Annahme}
Unabhängig heisst, dass es keine gemeinsamen Prozesse gibt, die den Ausgang beeinflussen. \\
\textit{Notation}:
$$X_1,X_2,...,X_n \; \mathrm{i.i.d}$$
wobei \textit{i.i.d} für "independent, identically distributed" steht. \\
Es gilt dann immer
$$\mathbb{E}(X_1 + X_2) = \mathbb{E}(X_1) + \mathbb{E}(X_2)$$
wenn $X_1,X_2$ unabhängig, auch
$$\mathrm{Var}(X_1 + X_2) = \mathrm{Var}(X_1) + \mathrm{Var}(X_2),$$
für nicht unabhängig
$$\mathrm{Var}(aX_1 + bX_2) = a^2\mathrm{Var}(X_1) + b^2 \mathrm{Var}(X_2) + 2ab\mathrm{Cov}(X_1,X_2).$$
\subsubsection{Gesetz der grossen Zahlen und $\sqrt{n}$-Gesetz}
Sei $X_1, X_2, ..., X_n \; \mathrm{i.i.d} \sim \mathrm{kumulative \; Verteilungsfunktion} \; F$, dann sind
\begin{center}
\begin{tabular}{rcl}
$\mathbb{E}(\bar{X_n})$ & $=$ & $\mu$ \\
Var$(\bar{X_n})$ & $=$ & $\frac{\sigma_X^2}{n}$ \\
$\sigma(\bar{X_n})$ & $=$ & $\frac{\sigma_X}{\sqrt{n}}$
\end{tabular}
\end{center}
Somit sind für eine doppelte Genauigkeit viermal soviele Messwerte nötig. \\
Standardabweichung von $X_n$ ist der \textit{Standardfehler} des Arithmetischen Mittels.
$$\bar{X_n} \rightarrow \mu(n\rightarrow\infty)$$
\subsubsection{Zentraler Grenzwertsatz}
Sei $X_1, X_2, ..., X_n \; \mathrm{i.i.d}$, dann gilt
$$\bar{X_n} = \mathcal{N}(\mu,\frac{\sigma^2_X}{n})$$
und daraus folgt für die Summe $\sum_{i=1}^nX_i$
$$S_X \approx \mathcal{N}(n\mu,n\sigma^2).$$
Aus
$$Z_n = \frac{\sqrt{n}(\bar{X_n}-\mu)}{\sigma_X} \sim \mathcal{N}(0,1)$$
folgt
$$\forall x: \lim_{n\rightarrow\infty} P(Z_n \leq x) = \Phi(x)$$
\subsubsection{Verletzung der Unabhängigkeit}
Sei $X_1, X_2, ..., X_n \; \neg \; \mathrm{i.i.d}$
$$\mathbb{E}(\bar{X_n}) = \mu$$
$$\mathrm{Var}(\bar{X_n}) = \frac{\sigma_X^2}{n}\bigg(1+\frac{1}{n}\sum_{1\leq i \leq j \leq n} \rho_{X_i X_j}\bigg)$$
mit $\rho_{X_i X_j}$ die Korrelation zwischen $X_i, X_j$ \\
Die Unabhängigkeit führt dazu, dass die Genauigkeit des arithmetischen Mittels beeinflusst wird!
\subsection{Statisitk für eine Stichprobe}
% Wasn't able to fit it into the third-columns
Siehe \textit{Fig. \ref{fig:tests}} im \hyperref[sec:anhang]{Anhang}.
\subsubsection{Punktschätzung}
Betrachtung von Daten $x_1, x_2, ...,x_n$ als Realisierungen von $X_1, X_2, ..., X_n$ i.i.d. \\
Wenn $\mathbb{E}(X_i) = \mu$ und $\mathrm{Var}(X_i) = \sigma_X^2$ gesucht:
\begin{center}
\begin{tabular}{rcl}
$\hat{\mu}$ & $=$ & $\displaystyle\frac{1}{n}\sum_{i=1}^n X_i = X_n$ \\
$\hat{\sigma_X}^2$ & $=$ & $\displaystyle\frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X_n})^2$
\end{tabular}
\end{center}
\subsubsection{z-Test ($\sigma_X$ bekannt)}
\begin{enumerate}
\item \textbf{Modell}: $X_i$ ist eine kontunuierliche Messgrösse und Annahme $X_1, X_2, ..., X_n \; \mathrm{i.i.d.} \; \mathcal{N}(\mu, \sigma_X^2)$
\item \textbf{Nullhypothese}:
\begin{center}
\begin{tabular}{cll}
& $H_0:$ & $\mu = \mu_0$
\end{tabular}
\end{center}
\textbf{Alternativhypothese}:
\begin{center}
\begin{tabular}{clll}
& $H_A:$ & $\mu \neq \mu_0$ & zweiseitig \\
oder & $H_A:$ & $\mu > \mu_0$ & einseitig \\
oder & $H_A:$ & $\mu < \mu_0$ & einseitig \\
\end{tabular}
\end{center}
\item \textbf{Teststatistik}:
$$Z = \frac{(\bar{X_n} - \mu_0)}{\sigma_{X_n}} = \frac{\sqrt{n}(\bar{X_n} - \mu_0)}{\sigma_X} = \frac{\mathrm{beobachtet}-\mathrm{erwartet}}{\mathrm{Standardfehler}}$$
Verteilung der Teststatistik unter $H_0: Z \sim \mathcal{N}(0,1)$
\item \textbf{Signifikanzniveau}: $\alpha$
\item \textbf{Verwerfungsbereich für die Teststatistik}:\\
$$K=\begin{cases}
(-\infty,-\Phi^{-1}(1-\frac{\alpha}{2}]\cup [\Phi^{-1}(1-\frac{\alpha}{2}),\infty), \quad \, \mathrm{bei} \; H_A: \mu \neq \mu_0 \\
(-\infty,-\Phi^{-1}(1-\frac{\alpha}{2}], \qquad\qquad\qquad\qquad\qquad\kern .025em \mathrm{bei} \; H_A: \mu < \mu_0 \\
[\Phi^{-1}(1-\frac{\alpha}{2}),\infty), \qquad\qquad\qquad\qquad\qquad\quad\kern 0.25em \mathrm{bei} \; H_A: \mu > \mu_0
\end{cases}$$
\item \textbf{Testentscheid}:\\
Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt.
\end{enumerate}
\subsubsection{Fehler 1./2. Art und Macht}
Es gilt wie in \textit{Kapitel \ref{sec:fehler12}} und \textit{\ref{sec:macht}}. \\
$$P_{\mu_0}(T \in K) = \alpha$$
$$P_\mu(T \in K) = \mathrm{Macht}(\mu)$$
\subsubsection{t-Test ($\sigma_X$ unbekannt)}
\begin{enumerate}
\item \textbf{Modell}: $X_i$ ist eine kontinuierliche Messgrösse und Annahme $X_1, X_2, ..., X_n \; \mathrm{i.i.d.} \; \mathcal{N}(\mu, \sigma_X^2)$
\item \textbf{Nullhypothese}:
\begin{center}
\begin{tabular}{cll}
& $H_0:$ & $\mu = \mu_0$
\end{tabular}
\end{center}
\textbf{Alternativhypothese}:
\begin{center}
\begin{tabular}{clll}
& $H_A:$ & $\mu \neq \mu_0$ & zweiseitig \\
oder & $H_A:$ & $\mu > \mu_0$ & einseitig \\
oder & $H_A:$ & $\mu < \mu_0$ & einseitig \\
\end{tabular}
\end{center}
\item \textbf{Teststatistik}:
$$\hat{\sigma_X} = \sqrt{\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X_n})^2}$$
$$T = \frac{\sqrt{n}(\bar{X_n} - \mu_0)}{\hat{\sigma_X}} = \frac{\mathrm{beobachtet}-\mathrm{erwartet}}{\mathrm{geschätzter \; Standardfehler}}$$
Verteilung der Teststatistik unter $H_0: T \sim t_{n-1}$
\item \textbf{Signifikanzniveau}: $\alpha$
\item \textbf{Verwerfungsbereich für die Teststatistik}:\\
$$K=\begin{cases}
(-\infty,-t_{n-1;1-\frac{\alpha}{2}}] \cup [t_{n-1;1-\frac{\alpha}{2}},\infty), \quad \;\; \mathrm{bei} \; H_A: \mu \neq \mu_0 \\
(-\infty,-t_{n-1;1-\frac{\alpha}{2}}], \qquad\qquad\qquad\qquad\kern 1.6em \mathrm{bei} \; H_A: \mu < \mu_0 \\
[t_{n-1;1-\frac{\alpha}{2}},\infty), \qquad\qquad\qquad\qquad\qquad\quad\kern 0.25em \mathrm{bei} \; H_A: \mu > \mu_0
\end{cases}$$
\item \textbf{Testentscheid}:\\
Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt.
\end{enumerate}
\subsubsection{P-Wert des \textit{t-Tests}}
\label{sec:pval}
$$\mathrm{P-Wert} = P(|T| > |t|) = 2\bigg(1-F_{t_{n-1}}\bigg(\frac{\sqrt{n}|\bar{x_n}-\mu_0|}{\hat{\sigma_X}}\bigg)\bigg)$$
wobei $F_{t_{n-a}}$ die kumulative Verteilungsfunktion der t-Verteilung mit $n-1$ Freiheitsgraden ist ($F_{t_{n-1}}(t) = P(T \leq t),T \sim t_{n-1}$)
\subsubsection{Vertrauensintervall für $\mu$}
Vgl. auch \ref{sec:vertrauensintervall}\\
Aus
$$\mu_0 \leq \bar{x_n}+\frac{\hat{\sigma_X}\cdot t_{n-1;1-\frac{\alpha}{2}}}{\sqrt{n}} \mathrm{\; und \;} \mu_0 \geq \bar{x_n}-\frac{\hat{\sigma_X}\cdot t_{n-1;1-\frac{\alpha}{2}}}{\sqrt{n}}$$
folgt das Intervall
$$I = \bigg[\bar{x_n} - t_{n-1;1-\frac{\alpha}{2}}\frac{\hat{\sigma_X}}{\sqrt{n}},\bar{x_n} + t_{n-1;1-\frac{\alpha}{2}}\frac{\hat{\sigma_X}}{\sqrt{n}}\bigg]$$
\subsubsection{Vorzeichentest}
\begin{enumerate}
\item \textbf{Modell}: $X_1, X_2, ..., X_n \; \mathrm{i.i.d.}$ wobei $X_i$ eine beliebige Verteilung hat \\
\item \textbf{Nullhypothese}:
$$H_0: \mu = \mu_0 \mathrm{\; (\mu \; ist \; der \; Median)}$$
\textbf{Alternativhypothese}:
\begin{center}
\begin{tabular}{clll}
& $H_A:$ & $\mu \neq \mu_0$ & zweiseitig \\
oder & $H_A:$ & $\mu > \mu_0$ & einseitig \\
oder & $H_A:$ & $\mu < \mu_0$ & einseitig \\
\end{tabular}
\end{center}
\item \textbf{Teststatistik}: \\
$V$: Anzahl $X_i$ mit $X_i > \mu_0$ \\
Verteilung der Teststatistik unter $H_0: V \sim \mathrm{Bin}(n,\pi_0)$, mit $\pi_0 = 0.5$
\item \textbf{Signifikanzniveau}: $\alpha$ \\
\item \textbf{Verwerfungsbereich für die Teststatistik}: \\
$$K=\begin{cases}
[0,c_u] \cup [c_0,n], \quad \;\; \mathrm{bei} \; H_A: \mu \neq \mu_0 \\
[0,c_u], \qquad\qquad\kern 1.44em \mathrm{bei} \; H_A: \mu < \mu_0 \\
[c_0,n], \qquad\qquad\quad\kern 0.46em \mathrm{bei} \; H_A: \mu > \mu_0
\end{cases}$$
\item \textbf{Testentscheid}: \\
Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt.
\end{enumerate}
\subsubsection{Wilcoxon-Test}
Voraussetzung: Realisierungen von $X_1, X_2, ..., X_n \; \mathrm{i.i.d.}$, stetig und symetrisch bezgl. $\mu = \mathbb{E}(X_i)$ \\
Für Berechnung benutze R (\ref{sec:wilcoxon})
\subsection{Statisitk für zwei Stichproben}
\subsubsection{Gepaarte Stichprobe}
% TODO
\begin{center}
\rule{.5\linewidth}{0.25pt}
\end{center}
\section{Regression}
\subsection{Einfache Lineare Regression}
\subsubsection{Modell}
\label{sec:regmod}
$$y_i = \beta_0 + \beta_1x_i+E_i,$$
wobei $i \in \mathbb{N} \leq n$, $E_i \sim \mathcal{N}(0,\sigma^2)$, $E_1,...E_n$ i.i.d., $\mathbb{E}(E_i) = 0$ und $\mathrm{Var}(E_i) = \sigma^2$ \\
$Y$ bezeichnen wir als \textbf{Zielvariable (response variable)}, $x$ als \textbf{erklärende Variable (explanatory/predictor variable)} oder \textbf{Co-Variable (covariate)} und $E_i$ als Störfaktor (zufällig)
\subsubsection{Parameterschätzung}
Das Modell aus \ref{sec:regmod} mit der \textit{Methode der kleinsten Quadrate} liefert
$$\hat{\beta_0},\hat{\beta_1} \mathrm{\; Minimierung \; von \;} \sum_{i=1}^n(Y_i-(\beta_0+\beta_1x_i))^2,$$
daraus ergibt sich
$$\hat{\beta_1} = \frac{\sum_{i=1}^n(Y_i-\bar{Y_n})(x_i-\bar{x_n})}{\sum_{i=1}^n(x_i-\bar{x_n})^2}$$
und
$$\hat{\beta_0} = \bar{Y_n} - \hat{\beta_1}\bar{x_n}$$
dabei gilt
$$\mathbb{E}(\hat{\beta_0}) = \beta_0, \mathbb{E}(\hat{\beta_1}) = \beta_1$$
Für den \textbf{Standardfehler} gilt
$$s(\hat{\beta_1}) = \frac{\sigma}{\sqrt{\sum_{i=1}^n(x_i-\bar{x_n})^2}}.$$
Die \textbf{Residuen}
$$R_i = Y_i - (\hat{\beta_0}+\hat{\beta_1)x_i}, i \in \{1,2,...,n\}$$
somit approximieren wir $E_i \approx R_i$ und daraus
$$\hat{\sigma}^2 = \frac{1}{n-2}\sum_{i=1}^nR_i^2$$
\subsection{Tests und Vertrauensintervalle der einfachen linearen Regression}
\subsubsection{t-Test in der Regression}
\begin{enumerate}
\item \textbf{Modell}: \\
$$Y_i = \beta_0 + \beta_1x_i + E_i$$ \\
$$E_1, E_2, ..., E_n \; \mathrm{i.i.d.} \; \mathcal{N}(0, \sigma_X^2)$$
\item \textbf{Nullhypothese}:
$$H_0: \beta = 0$$
\textbf{Alternativhypothese}:
$$H_A: \beta_1 \neq 0$$
\item \textbf{Teststatistik}:
$$T = \frac{\hat{\beta_1}-0}{\hat{s}(\hat{\beta_1})} = \frac{\mathrm{beobachtet}-\mathrm{erwartet}}{\mathrm{geschätzter \; Standardfehler}}$$
Dabei ist $\hat{s}$ der geschätzte Standardfehler $\sqrt{\widehat{\mathrm{Var}}(\hat{\beta_1})} = \frac{\hat{\sigma}}{\sqrt{\sum_{i=1}^n(x_i-\bar{x_n})^2}}$
Verteilung der Teststatistik unter $H_0: T \sim t_{n-2}$
\item \textbf{Signifikanzniveau}: $\alpha$
\item \textbf{Verwerfungsbereich für die Teststatistik}:\\
$$K=(-\infty,-t_{n-2;1-\frac{\alpha}{2}}] \cup [t_{n-2;1-\frac{\alpha}{2}},\infty)$$
\item \textbf{Testentscheid}:\\
Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt.
\end{enumerate}
Analog funktioniert auch ein \textit{t-Test} für $H_0: \beta_0 = 0, H_A: \beta_0 \neq 0$
\subsubsection{P-Wert}
Vgl. dazu \ref{sec:pval}, jedoch anstatt $n-1$ sind es hier $n-2$ Freiheitsgrade. Der P-Wert der Regression wird meist nicht von Hand berechnet (vgl. \ref{sec:rreg}).
\subsubsection{Vertrauensintervalle}
Die zweiseitigen Vertrauensintervalle für $\beta_i (i = 0, 1)$ zum Niveau $1 - \alpha$ sind gegeben durch
$$[\hat{\beta_i}-\hat{s}(\hat{\beta_i})t_{n-2;1-\frac{\alpha}{2}},\hat{\beta_i}+\hat{s}(\hat{\beta_i})t_{n-2;1-\frac{\alpha}{2}}]$$
Für grosse $n$ approximieren wir $t_{n-2;1-\frac{\alpha}{2}}$ mit $\Phi^{-1}(1-\frac{\alpha}{2})$, somit für 95\%-Vertruaensintervalle
$$[\hat{\beta_i}-2\hat{s}(\hat{\beta_i}),\hat{\beta_i}+2\hat{s}(\hat{\beta_i})]$$
\subsubsection{Bestimmtheitsmass $R^2$}
\label{sec:r2}
Sei $\hat{y_i} = \hat{\beta_0}+\hat{\beta_1}x_i$ der Wert auf der Regressionsgerade am Punkt $x_i$, dann gilt
$$\underbrace{\sum_{i=1}^n(y_i-\bar{y})^2}_{SS_Y}=\underbrace{\sum_{i=1}^n(y_i-\hat{y_i})^2}_{SS_E}+\underbrace{\sum_{i=1}^n(\hat{y_i}-\bar{y})^2}_{SS_R}$$
wobei
\begin{itemize}
\item $SS_Y$: die totale Variation der Zielvariablen (ohne Einfluss der erklärenden Variablen $x$)
\item $SS_E$: die Variation des Fehlers (Residuen-Quadratsumme)
\item $SS_R$: die Variation, welche durch die Regression erklärt wird (Einfluss der erklärenden Variablen $x$).
\end{itemize}
Wir definieren
$$R^2:=\frac{SS_R}{SS_Y}, R^2 \in [0,1]$$
als Mass für den Antwil der totalen Variation, welche durch die Regression erklärt wird. \\
Wenn $R^2$ gegen $1$ geht ist es eine "gute" Regression.
$$R^2 = \hat{\rho}_{Y\hat{Y}}^2$$
\subsubsection{Vorgehen bei einfacher linearer Regression}
\begin{enumerate}
\item Plotten von $Y$ und $x$ in einem Streudiagramm. Überprüfen, ob eine lineare Regression überhaupt sinnvoll ist.
\item Anpassen der Regressionsgeraden; d.h. Berechnung der Punktschätzer $\beta_0, \beta_1$
\item Testen ob erklärende Variable $x$ einen Einfluss auf die Zielvariable $Y$ hat mittels \textit{t-Test} für $H_0 : \beta_1 = 0$ und $H_A : \beta_1 \neq 0$. Falls dieser Test ein nicht-signifikantes Ergebnis liefert, so hat die erklärende Variable keinen signifikanten Einfluss auf die Zielvariable.
\item Testen ob Regression durch Nullpunkt geht mit \textit{t-Test} für $H_0 : \beta_1 = 0$ und $H_A : \beta_1 \neq 0$. Falls dieser Test ein nicht-signifikantes Ergebnis liefert, so kann man das kleinere Modell mit Regression durch Nullpunkt benutzen (ohne Achsenabschnitt $\beta_0$).
\item Bei Interesse: Angabe von Vertrauensintervallen für $\beta_0$ und $\beta_1$.
\item Angabe des Bestimmtheitsmass $R^2$. Dies ist in gewissem Sinne eine informellere (und zusätzliche) Quantifizierung als der statistische Test in Punkt 3.
\item Überprüfen der Modell-Voraussetzungen mittels Residuenanalyse (vgl. \ref{sec:resid}).
\end{enumerate}
\subsection{Residuenanalyse}
\label{sec:resid}
\textbf{Annahmen und deren Überprüfung}:
\begin{enumerate}
\item $\mathbb{E}(E_i)=0$ (\textit{Tukey-Anscombe Plot}, vgl. \ref{sec:tukey}) \\
Es gilt $\mathbb{E}(Y_i)=\beta_0+\beta_1x_i+\mathbb{E}(E_i)=\beta_0+\beta_1x_i$, sodass keine systematischen Fehler auftreten können. Dennoch können Abweichungen auftreten (z.B. komplizierte quadr. Verteilung)
\item $E_1,E_2,...,E_n$ i.i.d. (Plot bzgl. \textit{serieller Korrelation}, \textit{Tukey-Anscombe}) \\
Die Fehler müssen unabhängig voneinander sein, insbesondere sind $\mathrm{Cor}(E_i,E_j) = 0$ für $i \neq j$, was bedeutet, dass keine \textit{serielle Korrelation} auftritt. Da die Fehler gleich verteilt sein müssen, ist die Varianz der Fehler auch gleich.
\item $E_1,E_2,...,E_n$ i.i.d. $\mathcal{N}(0,\sigma^2)$ \\
Es wird angenommen, dass die Fehler normalverteilt sind. Überprüfung mit Normalplot der Residuen.
\end{enumerate}
\subsubsection{Tukey-Anscombe Plot}
\label{sec:tukey}
Plotten der Residuen $R_i$ gegen die angepassten Werte $\hat{y_i}$. \\
Idealerweise sind die Punkte gleichmässig um $0$ gestreut.
Bei verletzen Modellannehmen können auftreten:
\begin{itemize}
\item Kegelförmiges anwachsen von $\hat{y_i}$. Falls $\hat{y_i} > 0$ versuche
$$\log(Y_i) = \beta_0+\beta_1 x_i + E_i$$
\item Ausreisser (Versuche robuste Regression)
\item Unregelmässige Struktur (möglicherweise kein linearer Zusammenhang)
\end{itemize}
\subsubsection{Serielle Korrelation}
Überprüfung der Unabhängigkeitsannahme der $E_1, E_2, ..., E_n$: Plotten von $r_i$ gegen $i$. \\
Dabei sollte eine gleichmässige Verteilung um $0$ entstehen.
\subsubsection{Normaleplot}
Wie in \ref{sec:normalplot} erwarten wir möglichst eine Gerade, falls die Fehler normalverteilt sind.
\subsection{Multiple lineare Regression}
Oft sind erklärende Variablen $x_{i,1},...,x_{i,p-1}; (p>2)$
\subsubsection{Modell}
$$Y_i = \beta_0 + \sum_{j=1}^{p-1}\beta_jx_{i,j}+E_i, i \in \mathbb{N} \leq n$$
$$E_1, E_2, ..., E_i \mathrm{\; i.i.d.},\mathbb{E}(E_i)=0, \mathrm{Var}(E_i)=\sigma^2$$
In Matrixschreibweise:
$$\underbrace{Y}_{n \times 1} = \underbrace{X}_{n \times p}\times\underbrace{\beta}_{p \times 1}+\underbrace{E}_{n \times 1}$$
wobei:
\begin{itemize}
\item $Y = (Y_1,...,Y_n)^T$ \\
\item $X: (n \times p)$-Matrix mit Spaltenvektoren $(1,1,...1)^T,(x_{1,1},x_{2,1},...,x_{n,1})^T,...,(x_{1,p-1},x_{2,p-1},...,x_{n,p-1})^T$\\
\item $\beta = (\beta_0,...,\beta_{p-1})$, der Parametervektor \\
\item $E = (E_1, ..., E_n)^T$, der Fehlervektor
\end{itemize}
Somit ist eine \textbf{einfache lineare Regression} \\
\begin{center}
\begin{tabular}{ccc}
$$p = 2,$$ & $$X = \begin{pmatrix}
1 & x_1 \\
1 & x_2 \\
\vdots & \vdots \\
1 & x_n
\end{pmatrix},$$ & $$\beta = \begin{pmatrix}
\beta_0 \\
\beta_1
\end{pmatrix}^T$$
\end{tabular}
\end{center}
Analog dazu für \textbf{lineare Regression mit mehreren erklärenden Varablen}
$Y_i = \beta_0 + \beta_1x_{i,1}+\beta_2x_{i,2} + E_i, i \in \mathbb{N} \leq n$
\begin{center}
\begin{tabular}{ccc}
$$p = 3,$$ & $$X = \begin{pmatrix}
1 & x_{1,1} & x_{1,2} \\
1 & x_{2,1} & x_{2,2} \\
\vdots & \vdots & \vdots \\
1 & x_{n,1} & x_{n,2}
\end{pmatrix},$$ & $$\beta = \begin{pmatrix}
\beta_0 \\
\beta_1 \\
\beta_2
\end{pmatrix}^T$$
\end{tabular}
\end{center}
ebenfalls für \textbf{lineare Regression mit quadratisch erklärenden Varablen}
$Y_i = \beta_0 + \beta_1x_{i}+\beta_2x_{i}^2 + E_i, i \in \mathbb{N} \leq n$
\begin{center}
\begin{tabular}{ccc}
$$p = 3,$$ & $$X = \begin{pmatrix}
1 & x_{1} & x_{1}^2 \\
1 & x_{2} & x_{2}^2 \\
\vdots & \vdots & \vdots \\
1 & x_{n} & x_{n}^2
\end{pmatrix},$$ & $$\beta = \begin{pmatrix}
\beta_0 \\
\beta_1 \\
\beta_2
\end{pmatrix}^T$$
\end{tabular}
\end{center}
und schlussendlich für eine \textbf{Regression mit transformierten erklärenden Varablen} \\
$Y_i = \beta_0 + \beta_1\log(x_{i,2})+\beta_2\sin(\pi x_{i,3}) + E_i, i \in \mathbb{N} \leq n$
\begin{center}
\begin{tabular}{ccc}
$$p = 3,$$ & $$X = \begin{pmatrix}
1 & \log(x_{1,2}) & \sin(\pi x_{1,3}) \\
1 & \log(x_{2,2}) & \sin(\pi x_{2,3}) \\
\vdots & \vdots & \vdots \\
1 & \log(x_{n,2}) & \sin(\pi x_{n,3})
\end{pmatrix},$$ & $$\beta = \begin{pmatrix}
\beta_0 \\
\beta_1 \\
\beta_2
\end{pmatrix}^T$$
\end{tabular}
\end{center}
\subsubsection{Interpretation}
\begin{itemize}
\item Bei \textbf{einfacher linearer Regression} ist $\beta_1$ die erwartete Zunahme der Zielgrösse bei Erhöhung von $x_1$ um eine Einheit.
\item Bei \textbf{multipler linearer Regression} ist $\beta_i$ die erwartete Zunahme der Zielgrösse bei Erhöhung von $x_i$ um eine Einheit - bei \textbf{Fixierung der anderen Variablen}.
\end{itemize}
\subsubsection{Parameterschätzung}
Auch hier benutzen wir die \textit{Methode der kleinsten Quadrate}. \\
$$\hat{\beta_0},\hat{\beta_1},...,\hat{\beta}_{p-1} \mathrm{\; Minimierung \; von \;} \sum_{i=1}^n(Y_i-(\beta_0+\beta_1x_{i,1}+...+\beta_{p-1}x_{i,p-1}))^2,$$
falls $p < n$
$$\hat{\beta} = (X^TX)^{-1}X^TY.$$
Für die Fehlervarianz
$$\hat{\sigma} = \frac{1}{n-p}\sum_{i=1}^nR^2_i,R_i = Y_i - \bigg(\hat{\beta}_0+\sum_{j=1}^{p-1}\hat{\beta}_jx_{i,j}\bigg)$$
% TODO: t-Test
\subsubsection{F-Test}
Prüft, ob es mindestens eine erklärende Variable gibt, die einen signifikanten Effekt auf die Zielvariable hat.
\begin{center}
\begin{tabular}{lll}
$H_0:$ & $\beta_1 = ... = \beta_{p-1} = 0$ \\
$H_A:$ & mindestens ein $\beta_j \neq 0$, & $j \in \mathbb{N} \leq p-1 $
\end{tabular}
\end{center}
Hier können einzelne Variablen signifikant sein und andere nicht. Bei starker Korrelation zwischen zwei kann man eine weglassen, da keine neue Information.
\subsubsection{Bestimmtheitsmass $R^2$}
Es gilt wie in \ref{sec:r2}
$$R^2 = \hat{\rho}_{Y\hat{Y}}^2$$
\begin{center}
\rule{.5\linewidth}{0.25pt}
\end{center}
\section{R}
\subsection{Wahrscheinlichkeitsverteilungen}
\lstinline{xxx} Name der Verteilung $X$ (z.B. \lstinline{binom} oder \lstinline{pois}): \\
\lstinline{dxxx} berechnet $P[X=x]$ \\
\lstinline{pxxx} berechnet $P[X\leq x]$ \\
\lstinline{rxxx} liefert Zufallszahl gemäss $X$
\subsection{Verteilungen}
\lstinline{pt} für kumulative Verteilungsfunktion \\
\lstinline{qt} für Quantile
\subsection{Wilcoxon-Test}
\label{sec:wilcoxon}
\lstinline{x} ist Array von Daten, $\mu$ der Median
\begin{lstlisting}
wilcox.test(x = x, alternative = "greater", mu = 80)
\end{lstlisting}
\subsection{Regression}
\label{sec:rreg}
\lstinline{x} und \lstinline{x} sind Arrays von Daten, \lstinline{lm} schätzt ein \textit{linear model} und \lstinline{summary()} gibt die Schätzwerte aus
\begin{lstlisting}
fm <- lm(y ~ x)
summary(fm)
\end{lstlisting}
% TODO: Add sample output for parameters
\begin{center}
\rule{\linewidth}{0.25pt}
\end{center}
\scriptsize
\end{multicols*}
\newpage
\begin{multicols*}{2}
\section*{Anhang}
\label{sec:anhang}
\begin{figure}[H]
\begin{tabular}{l|llll|c|c}
\hline
\multirow{2}{*}{} & \multicolumn{4}{c}{Annahmen} & \multicolumn{1}{|c}{\multirow{2}{*}{\begin{tabular}{l}$n_\mathrm{min}$ bei \\ $\alpha = 0.05$\end{tabular}}} & \multicolumn{1}{|c}{\multirow{2}{*}{\begin{tabular}{c}Macht \\ für Bsp.\end{tabular}}} \\
& \multicolumn{1}{c}{\begin{tabular}{c}$\sigma_X$ \\ bekannt\end{tabular}} & \multicolumn{1}{c}{$X_i \sim \mathcal{N}$} & \multicolumn{1}{c}{\begin{tabular}{c}sym. \\ Verteilung\end{tabular}} & \multicolumn{1}{c}{i.i.d.} & \multicolumn{1}{|c|}{} & \multicolumn{1}{c}{} \\
\hline\hline
z-Test & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c|}{$\sbullet$} & 1 & 89\% \\
t-Test & & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c|}{$\sbullet$} & 2 & 79\% \\
Wilcoxon & & & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c|}{$\sbullet$} & 6 & 79\% \\
Vorzeichen & & & & \multicolumn{1}{c|}{$\sbullet$} & 5 & 48\% \\
\hline
\end{tabular}
\caption{Übersicht der verschiedenen Tests für $\mu$}
\label{fig:tests}
\end{figure}
\section*{Referenzen}
\begin{enumerate}
\item "Vorlesungsskript Mathematik IV für Agrarwissenschaften, Erdwissenschaften, Lebensmittelwissenschaften und Umweltnaturwissenschaften", Dr. Jan Ernest, HS19 \\
\item Statistik\_MatheIV.pdf, scmelina, HS18
\end{enumerate}
\url{https://n.ethz.ch/~jannisp} \\
Jannis Portmann, 2020 \\
\doclicenseImage
\end{multicols*}
\end{document}