statistik-zf/zf-statistik.tex

1440 lines
60 KiB
TeX
Raw Permalink Blame History

This file contains invisible Unicode characters!

This file contains invisible Unicode characters that may be processed differently from what appears below. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to reveal hidden characters.

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

\documentclass[8pt,landscape]{extarticle}
\usepackage{multicol}
\usepackage{calc}
\usepackage{ifthen}
\usepackage[a4paper, landscape]{geometry}
\usepackage{hyperref}
\usepackage{ccicons}
\usepackage{amsmath, amsfonts, amssymb, amsthm}
\usepackage{listings}
\usepackage{xcolor}
\usepackage[ngerman]{babel}
\usepackage{graphicx}
\usepackage{multirow}
\usepackage{fontawesome}
\usepackage{float}
\usepackage[
type={CC},
modifier={by-sa},
version={3.0},
]{doclicense}
\graphicspath{ {./img/} }
\definecolor{codegreen}{rgb}{0,0.6,0}
\definecolor{codegray}{rgb}{0.5,0.5,0.5}
\definecolor{codepurple}{rgb}{0.58,0,0.82}
\definecolor{backcolour}{rgb}{0.9,0.9,0.9}
\lstdefinestyle{mystyle}{
backgroundcolor=\color{backcolour},
commentstyle=\color{codegreen},
keywordstyle=\color{magenta},
numberstyle=\tiny\color{codegray},
stringstyle=\color{codepurple},
basicstyle=\ttfamily\footnotesize,
breakatwhitespace=false,
breaklines=true,
captionpos=b,
keepspaces=true,
numbers=left,
numbersep=5pt,
showspaces=false,
showstringspaces=false,
showtabs=false,
tabsize=2
}
\lstset{style=mystyle}
% To make this come out properly in landscape mode, do one of the following
% 1.
% pdflatex latexsheet.tex
%
% 2.
% latex latexsheet.tex
% dvips -P pdf -t landscape latexsheet.dvi
% ps2pdf latexsheet.ps
% If you're reading this, be prepared for confusion. Making this was
% a learning experience for me, and it shows. Much of the placement
% was hacked in; if you make it better, let me know...
% 2008-04
% Changed page margin code to use the geometry package. Also added code for
% conditional page margins, depending on paper size. Thanks to Uwe Ziegenhagen
% for the suggestions.
% 2006-08
% Made changes based on suggestions from Gene Cooperman. <gene at ccs.neu.edu>
% To Do:
% \listoffigures \listoftables
% \setcounter{secnumdepth}{0}
% This sets page margins to .5 inch if using letter paper, and to 1cm
% if using A4 paper. (This probably isn't strictly necessary.)
% If using another size paper, use default 1cm margins.
\ifthenelse{\lengthtest { \paperwidth = 11in}}
{ \geometry{top=.5in,left=.5in,right=.5in,bottom=.5in} }
{\ifthenelse{ \lengthtest{ \paperwidth = 297mm}}
{\geometry{top=1cm,left=1cm,right=1cm,bottom=1cm} }
{\geometry{top=1cm,left=1cm,right=1cm,bottom=1cm} }
}
% Turn off header and footer
\pagestyle{plain}
\footskip{} % Left empty on purpose
% Redefine section commands to use less space
\makeatletter
\newcommand\sbullet[1][.5]{\mathbin{\vcenter{\hbox{\scalebox{#1}{$\bullet$}}}}}
\renewcommand{\section}{\@startsection{section}{1}{0mm}%
{-1ex plus -.5ex minus -.2ex}%
{0.5ex plus .2ex}%x
{\normalfont\large\bfseries}}
\renewcommand{\subsection}{\@startsection{subsection}{2}{0mm}%
{-1explus -.5ex minus -.2ex}%
{0.5ex plus .2ex}%
{\normalfont\normalsize\bfseries}}
\renewcommand{\subsubsection}{\@startsection{subsubsection}{3}{0mm}%
{-1ex plus -.5ex minus -.2ex}%
{1ex plus .2ex}%
{\normalfont\small\bfseries}}
\makeatother
% Define BibTeX command
\def\BibTeX{{\rm B\kern-.05em{\sc i\kern-.025em b}\kern-.08em
T\kern-.1667em\lower.7ex\hbox{E}\kern-.125emX}}
% Don't print section numbers
% \setcounter{secnumdepth}{0}
\setlength{\parindent}{0pt}
\setlength{\parskip}{0pt plus 0.5ex}
\lstset{language=R}
% -----------------------------------------------------------------------
\begin{document}
\raggedright
\footnotesize
\begin{multicols*}{3}
% multicol parameters
% These lengths are set only within the two main columns
%\setlength{\columnseprule}{0.25pt}
\setlength{\premulticols}{1pt}
\setlength{\postmulticols}{1pt}
\setlength{\multicolsep}{1pt}
\setlength{\columnsep}{2pt}
\begin{center}
\Large{Statistik ZF} \\
\small{Mathematik IV, zu VL von Jan Ernest} \\
\small{Jannis Portmann 2020} \\
{\ccbysa}
\end{center}
\begin{center}
\rule{\linewidth}{0.25pt}
\end{center}
\section{Modelle für Zähldaten}
\subsection{Wahrscheinlichkeitsmodelle}
\begin{itemize}
\item Grundraum $\Omega$ mit Elementarereignissen $\omega_i$ (z.B. Augenzahl eines Würfels)
\item Ereignisse $A$, $B$, $C$, ... (Teilmenge von $\Omega$) (z.B. Kombinationen von Augenzahlen)
\item Wahrscheinlichkeit für jedes Ereignis $P(A)$, $P(B)$, ...
\end{itemize}
\subsection{Operatoren}
\begin{itemize}
\item $A \cup B$ - ODER (inklusiv, "und/oder") \\
\item $A \cap B$ - UND (Konjunktion) \\
\item $A^c$ - NICHT (Negation) \\
\item $A \backslash B = A \cap B^c$ - A UND NICHT B
\end{itemize}
\subsection{Axiome der Wahrscheinlichkeitsrechnug}
\begin{enumerate}
\item $P(A) \geq 0$ - Die Wahrscheinlichkeiten sind immer nicht-negativ
\item $P(\Omega) = 1$ - Das Ereignis $\Omega$ hat Wahrscheinlichkeit eins
\item $P(A \cup B) = P(A) + P(B)$ falls $A \cap B = \emptyset$ (A und B sind disjunkt), d.h. für alle Ereignisse, die sich gegenseitig ausschliessen.
\end{enumerate}
Daraus folgen:
\begin{itemize}
\item $P(A^c) = 1 - P(A)$
\item $P(A \cup B) = P(A) + P(B) - P(A \cap B)$
\end{itemize}
\subsection{Wahrscheinlichkeiten berechnen}
Für diskrete Wahrscheinlichkeitsmodelle
\subsubsection{Summe der Elementarereinisse (verschiedene $P(\omega_i)$)}
$$P(A) = \sum_{\omega \in A} P(\{ \omega \})$$
\subsubsection{Laplace-Modell (gleiche $P(\omega_i)$)}
\label{section:laplace}
$$P(A)=\frac{|A|}{|\Omega|} = \frac{\mathrm{günstig}}{\mathrm{möglich}}$$
\subsection{Unabhängigkeit}
$A$ und $B$ sind stochastisch unabhängig, wenn gilt:
$$P(A \cap B) = P(A)P(B)$$
somit können wir dies annehmen, falls wir wissen, dass $A$ und $B$ nicht kausal voneinander abhängig sind
\subsection{Bedingte Wahrscheinlichkeit (Abhängigkeit)}
\subsubsection{Satz von Bayes}
$$P(A|B)P(B)=P(B|A)P(A)=P(A \cap B)$$
somit ist $P(A|B)$ nicht unbedingt $P(B|A)$\footnote{$P(A|B)$: $P(A)$ gegeben $B$}
\subsubsection{Gesetz der totalen Wahrscheinlichkeit}
$$P(B) = \sum_{i=1}^k P(B|A_k)P(A_k)$$
\subsubsection{Odds}
$$\mathrm{odds}(E) = \frac{P(E)}{1-P(E)} = \frac{P(E)}{P(E^c)}$$
(vgl. Abschnitt \ref{section:laplace})
$$\mathrm{odds}(E | A) = \frac{P(E | A)}{1-P(E|A)}$$
\subsubsection{Odds-Ratio}
$$\mathrm{OR} = \frac{\mathrm{odds}(E|A)}{\mathrm{odds}(E|B)}$$
\subsection{Zufallsvariable}
$$X(\omega) = x$$
\begin{center}
\begin{tabular}{ll}
$X$: & $\Omega \rightarrow \mathbb{R}$ \\
& $\omega \rightarrow X(\omega)$
\end{tabular}
\end{center}
Grossbuchstabe: Funktion, Kleinbuchstabe: Realisierung
$$ P(X=x)=P(\{\omega; X(\omega)=x\})= \sum_{\omega;X(\omega)=x} P(\omega)$$
So dass $\omega = x$, also einen gewünschten Wert (z.B. Jass: $P(\mathrm{Koenig}) = P(\mathrm{Schilten-Koenig})+P(\mathrm{Schellen-Koenig})+$...
\subsection{Diskrete Verteilungen}
\subsubsection{Kennzahlen}
\textbf{Erwartungswert}
$$\mathbb{E}(X) = \sum_{x \in \mathbb{W}_X} x P(X = x)$$
wobei $\mathbb{W}_x$ der Wertebereich von X ist.
\textbf{Varianz}
$$\mathrm{Var}(X) = \sum_{x \in \mathbb{W}_X}(x-\mathbb{E}(X))^2P(X=x)$$
\textbf{Standardabweichung}
$$\sigma(X) = \sqrt{\mathrm{Var}(X)}$$
\subsubsection{Bernoulli-($\pi$)-Verteilung}
$$P(X = 1) = \pi, P(X = 0) = 1 - \pi, 0 \leq \pi \leq 1$$
Beschreibt das eintreffen bzw. nicht-eintreffen eines bestimmten Ereignisses.
\subsubsection{Binomialverteilung \footnote{Dabei ist $\binom{n}{x} = \frac{n!}{x!(n-x)!}$ (TR: nCr($n,x$))})}
$$P(X = x) = \binom{n}{x} \pi^x(1 - \pi)^{n-x}, x \in \mathbb{N}_0$$
Dabei ist $0 \leq \pi \leq 1$ der Erfolgsparameter der Verteilung. \\
Notation: $X \sim \mathrm{Bin}(n,\pi)$ ($X$ folgt einer Binomialverteilung mit Parametern $n$ und $\pi$)
Zusammenhänge:
\begin{itemize}
\item $\mathrm{Bin}(1,\pi) = \mathrm{Bernoulli}(\pi)$
\item $X_1 \sim \mathrm{Bin}(n_1,\pi); X_2 \sim \mathrm{Bin}(n_2,\pi)$ unabhängig $\Rightarrow S := X_1 + X_2$, dann $S \sim \mathrm{Bin}(n_1+n_2,\pi)$
\item $X_1 \sim \mathrm{Bin}(n_1,\pi); X_2 \sim \mathrm{Bin}(n_2,\pi)$ unabhängig $\Rightarrow P(X_1=x_1 \cap X_2=x_2) = P(X_1 = x_1) \cdot P(X_2 = x_2)$
\end{itemize}
\textbf{Beispiel} \\
Urne mit Zurücklegen
\subsubsection{Poisson-($\lambda$)-verteilung}
$$P(X = x) = \mathrm{exp}(-\lambda)\frac{\lambda^x}{x!}, x \in \mathbb{N}_0$$
Dabei sind $\mathbb{E}(X) = \lambda, \mathrm{Var}(X) = \lambda, \sigma(X) = \sqrt{\lambda}$ \\
Für zwei unabhängige Poisson-Verteilungen $X \sim \mathrm{Poisson(\lambda_x)}, Y \sim \mathrm{Poisson}(\lambda_y)$ ist $X + Y \sim \mathrm{Poisson}(\lambda_x + \lambda_y)$ \\
Es gilt auch
$$P(X > n) = 1 - P(X \leq n) = 1 - (P(X = 0) + P(X=1) + ... + P(X = n))$$
\subsubsection{Geometrische Verteilung}
Sei $X \sim \mathrm{Bernoulli}(\pi)$, dann ist
$$Y = P(X=n) = \pi (1 - \pi)^{n-1}$$
die Anzahl Fehlversuche bis zu einem erfogreichen Versuch.
\subsubsection{Poisson-Approximation der Binomial-Verteilung}
$X \sim \mathrm{Bin}(n, \pi)$ und $Y \sim \mathrm{Poisson}(\lambda)$, für kleine $\pi$ und grosse $n$ gilt:
$$P(X=x)=\binom{n}{x}\pi^x(1-\pi^{n-x}) \approx P(Y = x)=\mathrm{exp}(-\lambda)\frac{\lambda^x}{x!}, x \in \mathbb{N}_0$$
wobei $\lambda = n\pi$
\begin{figure}[H]
\centering
\includegraphics[width=.15\textwidth]{poisson-approx.png}
\caption{Poisson Approximation der Binomialverteilung}
\label{fig:poisson-approx}
\end{figure}
\subsubsection{Diskrete Uniformverteilung}
$$P(X = x_i) = \frac{1}{n}, i \in \mathbb{N}$$
$X \sim \mathrm{Uniform}(x_i)$, alle $n$ Ereignisse $x$ sind gleich wahrscheinlich
\subsubsection{Hypergeometrische Verteilung}
Einfluss von entfernten Ereignissen auf Wahrscheinlichkeiten von neuen Ziehungen (ohne Zurücklegen).
$$P(X = x)=\frac{\binom{m}{x}\binom{N-m}{n-x}}{\binom{N}{n}}$$
$X \sim \mathrm{Hyper}(N,n,m)$, dabei $N$ die total möglichen Ereignisse, $m$ die Gewinne und es wird $n$ gezogen.
\subsection{Kennwerte}
\subsubsection{Bernoulli-Verteilung}
\begin{center}
\begin{tabular}{rl}
$\mathbb{E}(X) =$ & $\pi$ \\
Var$(X) =$ & $\pi(1-\pi)$ \\
$\sigma_X =$ & $\sqrt{\pi(1-\pi)}$
\end{tabular}
\end{center}
\subsubsection{Binomialverteilung}
\begin{center}
\begin{tabular}{rl}
$\mathbb{E}(X) =$ & $n\pi$ \\
Var$(X) =$ & $n\pi(1-\pi)$ \\
$\sigma_X =$ & $\sqrt{n\pi(1-\pi)}$
\end{tabular}
\end{center}
\subsubsection{Poisson-Verteilung}
\begin{center}
\begin{tabular}{rl}
$\mathbb{E}(X) =$ & $\lambda$ \\
Var$(X) =$ & $\lambda$ \\
$\sigma_X =$ & $\sqrt{\lambda}$
\end{tabular}
\end{center}
\subsubsection{Geometrische Verteilung}
\begin{center}
\begin{tabular}{rl}
$\mathbb{E}(X) =$ & $\frac{1}{\pi}$ \\
Var$(X) =$ & $\frac{1-\pi}{\pi^2}$ \\
$\sigma_X =$ & $\frac{\sqrt{1-\pi}}{\pi}$
\end{tabular}
\end{center}
\subsubsection{Hypergeometrische Verteilung}
\begin{center}
\begin{tabular}{rl}
$\mathbb{E}(X) =$ & $\frac{nm}{M}$ \\
Var$(X) =$ & $\frac{nm(N-m)(N-n)}{N^2(N-1)}$ \\
$\sigma_X =$ & $\sqrt{\frac{nm(N-m)(N-n)}{N^2(N-1)}}$
\end{tabular}
\end{center}
\section{Statistik für Zähldaten}
\begin{enumerate}
\item \textbf{Grundfragestellung:} Welches ist der zu den Beobachtungen plausibelste Parameterwert? Die Antwort auf diese Frage heisst (Punkt-)Schätzung.
\item \textbf{Grundfragestellung:} Sind die Beobachtungen kompatibel (statistisch vereinbar) mit einem vorgegebenen Parameterwert? Die Antwort auf diese 2. Grundfrage heisst statistischer Test.
\item \textbf{Grundfragestellung:} Grundfragestellung: Welche Parameterwerte sind mit den Beobachtungen kompatibel (statistisch vereinbar)? Die Antwort auf diese 3. Grundfrage heisst Vertrauensintervall. Das Vertrauensintervall ist allgemeiner und informativer als ein statistischer Test.
\end{enumerate}
\subsection{Punktschätzung von Parametern}
$\hat{X}$ bezeichnet den Schätzwert von $X$
\\ \\
Bei \textbf{Binomialverteilung}:
\subsubsection{Momentenmehtode}
Aus $\mathbb{E}(X) = n\pi \Leftrightarrow \pi = \frac{\mathbb{E}(X)}{x}$, daraus $\hat{\mathbb{E}(X)}=x$ und somit
$$\hat{\pi} = \frac{x}{n}$$
\subsubsection{Maximum-Likelihood}
Vorgehen:
\begin{itemize}
\item Funktion $P$ der Wahrscheinlichkeit aufstellen
\item $\log(P)$
\item $\frac{\mathrm{d}P}{\mathrm{d}\pi} = 0$
\item auflösen nach $\pi$
\end{itemize}
Dies ist für eine Binomialverteilung ebenfalls $\hat{\pi} = \frac{x}{n}$
\subsection{Aufbau statistischer Test}
$P(X \geq c)$ für verschiedene $c$
\begin{enumerate}
\item Modell $X$ erstellen
\item Nullhypothese \\
\begin{center}
\begin{tabular}{ll}
$H_0$: & $\pi = \pi_0$
\end{tabular}
\end{center}
und Alternativhypothese
\begin{center}
\begin{tabular}{ll}
$H_A$: & $\pi \neq \pi_0$ (zweiseitig) \\
& $\pi > \pi_0$ (einseitig nach oben) \\
& $\pi < \pi_0$ (einseitig nach unten)
\end{tabular}
\end{center}
oft ist $H_0: \pi = 1/2$ (= reiner Zufall). Man testet also gegen Zufall.
\item Teststatistik $T$ (Anzahl treffer bei $n$ Versuchen), Verteilung unter $H_0: T \sim \mathrm{Bin}(n,\pi_0)$
\item Festlegen von Signifikanzniveau $\alpha$ (meist $\alpha = 0.05$ oder $\alpha = 0.01$)
\item Bestimmung Verwerfungsbereich
$$K = \begin{cases}
[0,c_u] \cup [c_0,n] & H_A: \pi \neq \pi_0 \\ [c,n] & H_A: \pi > \pi_0 \\ [0,c] & H_A: \pi < \pi_0
\end{cases}$$
Wobei $c$ der Wert ist bei dem noch $P(X \leq c) \leq \alpha$ für $H_A: \pi < \pi_0$),\\
analog $P(X \geq c) \leq \alpha$ für $H_A: \pi > \pi_0$
\item Testentscheid: Ist $t \in K$? Falls ja wird $H_0$ verworfen, falls nicht wird sie als korrekt angenommen\footnote{Achtung: Das heisst nicht, dass $H_0$ gültig ist! (Falsifizierbarkeit)}
\end{enumerate}
\textbf{Bsp. Berechnung von $c$} \\
Es sei $X \sim \mathrm{Bin}(150,0.1)$ unter $H_A: \pi < 0.1$. Dann soll
$$P(X \leq c) \leq \alpha$$
Also berechne mit Tabelle (schaue wo $P(X=x) \leq \alpha$ für verschiedene $x$ (kumulativ)) oder R.
\subsubsection{Normalapproximation der Binomialverteilung}
Gilt, wenn $n\pi > 5$ und $n(1-\pi) > 5$ (Faustregel) \\
Für eine Verteilung $X \sim \mathrm{Binom}(n,\pi)$ und $\alpha = 0.05$ gilt für einseitige Tests:
$$c \approx \begin{cases}
n\pi_0+1.64\sqrt{n\pi_0(1-\pi_0)} \mathrm{\; bei \;} H_0: \pi > \pi_0 \mathrm{\; (aufgerundet)} \\
n\pi_0-1.64\sqrt{n\pi_0(1-\pi_0)} \mathrm{\; bei \;} H_0: \pi < \pi_0 \mathrm{\; (abgerundet)} \\
\end{cases}$$
Für einen zweiseitigen Test ($\pi \neq \pi_0$) gilt:
$$c_0 \approx n\pi_0+1.96\sqrt{n\pi_0(1-\pi_0)} \mathrm{\; (aufgerundet)}$$
$$c_u \approx n\pi_0-1.96\sqrt{n\pi_0(1-\pi_0)} \mathrm{\; (abgerundet)}$$
\subsubsection{Fehler 1. und 2. Art}
\label{sec:fehler12}
\begin{enumerate}
\item Art: Fälschliches Verwerfen von $H_0$, obwohl $H_0$ richtig ist.
\item Art: Fälschliches Beibehalten von $H_0$, obwohl $H_A$ zutrifft.
\end{enumerate}
$$P(\mathrm{Fehler \; 1. \; Art}) = P_{H_0}(X \in K)\leq \alpha$$
Fehler 1. Art soll möglichst vermieden werden!
\subsubsection{Macht (Power)}
\label{sec:macht}
$$\mathrm{Macht}:=1-P(\mathrm{Fehler \; 2. \; Art}) = P_{H_A} (X \in K) = P(X \geq c) \mathrm{\; z.B.}$$
Idee: Wie gross muss eine Stichprobe sein, damit mit einer bestimmten Macht $\beta=x$ eine Hypothese bewiesen werden kann auf Signifikanzniveau $\alpha$?
\subsubsection{P-Wert}
Gibt die Wahrscheinlichkeit an, dass die Beobachtung oder extremeres Ereigniss eintritt unter $H_0$
$$P_{H_0}(T \geq t)$$
Es ist auch das kleinste Signifikanzniveau $\alpha$, auf dem $H_0$ gerade noch verworfen wird. \\
Also falls $p$-Wert $> \alpha$ wird $H_0$ beibehalten.
\subsubsection{Vertrauensintervall (VI)}
\label{sec:vertrauensintervall}
$$I:=\{\pi_0;\; \mathrm{Nullhypothese} \; H_0:\pi = \pi_0 \mathrm{wird \; beibehalten}\}$$
Für grosse $n$ gilt
$$I \approx \frac{x}{n} \pm 1.96\sqrt{\frac{x}{n}(1-\frac{x}{n})\frac{1}{n}}$$
Die Werte von $\pi_0$ bei denen $H_0: \pi = \pi_0$ nicht verworfen wird, ist ein $(1-\alpha)$-VI.
$$P_\pi(\pi \in I(X) \gtrapprox 1-\alpha)$$
Ein $(1-\alpha)$-VI, enthält den wahren Parameter $\pi$ mit einer Wahrscheinlichkeit von $(1-\alpha)$ \\
\section{Modelle und Statistik für Zähldaten}
\subsection{Deskriptive Statistik}
\subsubsection{Kennzahlen}
\textbf{Arithmetisches Mittel}
$$\bar{x} = \frac{1}{n}\sum_{i=1}^nx_i$$
\textbf{Empirische Standardabweichung}
$$s_x = \sqrt{\mathrm{Var}} = \sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2}$$
\textbf{Quantile} \\
$\alpha$-Quantil \\
"Wert $x$ bei dem $\alpha \cdot 100 \%$-Werte kleiner als $x$ sind"
\subsubsection{Kovarianz und Korrelation}
Gemeinsame Verteilung von zwei Zufallsvariablen $X$ und $Y$ \\
\textbf{Kovarianz}
$$\mathrm{Cov}(X,Y)=\mathbb{E}[(X-\mu_x)(Y-\mu_y)] = \mathbb{E}(XY) - \mathbb{E}(X)\mathbb{E}(Y)$$
es gilt somit auch
$$\mathrm{Cov}(X,X) = \mathrm{Var}(X)$$
\textbf{Korrelation}
$$\mathrm{Cor}(X,Y)=\rho_{XY} = \frac{\mathrm{Cov}(X,Y)}{\sigma_X\sigma_Y}$$
wobei $\rho_{XY} \in [-1,1]$ \\
Falls $X, Y$ unabhängig $\mathrm{Cor}(X,Y) = 0$.\footnote{Aber dies bedeutet nicht, dass falls $\mathrm{Cor}(X,Y) = 0$, $X$ und $Y$ dann unabhängig sind!}
\textbf{Empirische Korrelation}
$$r = \frac{s_{xy}}{s_xs_y}$$
wobei $s_{xy} = \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{n-1}$
\subsubsection{Grafische Methoden}
\textbf{Histogramme} \\
Einteilung in Klassen, auftragen der Beobachtugen je Klasse in Balkendiagramm
\begin{figure}[H]
\centering
\includegraphics[width=.2\textwidth]{histogram.png}
\caption{Histogramm}
\label{fig:histogram}
\end{figure}
\textbf{Boxplot} \\
Rechteck, vom 75\%- und 25\%-Quantil begrenzt
\begin{figure}[H]
\centering
\includegraphics[width=.15\textwidth]{boxplot.png}
\caption{Beispiel Boxplot (IQR = Interquartile-Range)}
\label{fig:boxplot}
\end{figure}
\textbf{Streudiagramm (Scatter-Plot)} \\
Auftragen der Daten $(x_n,y_n)$
\begin{figure}[H]
\centering
\includegraphics[width=.15\textwidth]{scatter.png}
\caption{Streudigramm}
\label{fig:scatter}
\end{figure}
\subsection{Stetige Zufallsvariablen und Wahrscheinlichkeitsverteilungen}
Eine Zufallsvariable $X$ heisst stetig, falls deren Wertebereich $\mathbb{W}_X$ stetig ist \\
Da Punktverteilung
$$P(X=x) = 0, \forall x \in \mathbb{W}_X, \footnote{Da in jedem kontunuierlichen Intervall $\infty$ Werte sind}$$
benötigen wir
$$P(X \in (a,b]) = P(a < X \leq b)$$
\textbf{Kumulative Verteilungsfunktion}
$$F(x) = P(X \leq x)$$
\begin{figure}[H]
\centering
\includegraphics[width=.2\textwidth]{kumulative.png}
\caption{Kumulative Verteilungsfunktion}
\label{fig:kumulative}
\end{figure}
\subsubsection{Wahrscheinlichkeits-Dichte}
$$f(x) = \dot{F}(x) \Longleftrightarrow F(x) = \int_{-\infty}^xf(y)\mathrm{d}y$$
$$f(x) \geq 0, \forall x$$
\subsection{Kennzahlen von stetigen Verteilungen}
\begin{center}
\begin{tabular}{rl}
$\mathbb{E}(X) =$ & $\int_{-\infty}^{\infty}xf(x)\mathrm{d}x$ \\
Var$(X) =$ & $\mathbb{E}((X-\mathbb{E}(X))^2) = \int_{-\infty}^{\infty}(x-\mathbb{E}(X))^2f(x)\mathrm{d}x$ \\
$\sigma(X) =$ & $\sqrt{\mathrm{Var}(X)}$
\end{tabular}
\end{center}
\subsubsection{Quantile}
$$P(X \leq q(\alpha)) = \alpha$$
$q(\alpha)$ ist der Punkt, an dem die Fläche unter der Dichtefunktion $f(x)$ von $-\infty$ bis $q(\alpha)$ gleich $\alpha$ ist. (z.B. beim Median ($\alpha = 50\%$) sind die Flächen darunter und darüber gleich gross)
\subsection{Stetige Verteilungen}
\subsubsection{Uniforme Verteilung}
$X \sim \mathrm{Uniform}([a,b]), \mathbb{W}_X = [a,b]$
$$f(x) = \begin{cases}
\frac{1}{b-a}, \; \mathrm{falls} \; a \leq x \leq b \\
0, \;\;\;\;\;\;\, \mathrm{sonst} %uglyAF
\end{cases}$$
somit ist die kumulative Verteilung
$$F(x) = \begin{cases}
0, \;\;\;\;\;\;\, \mathrm{falls} \; x < a \\
\frac{x-a}{b-a}, \; \mathrm{falls} \; a \leq x \leq b \\
1, \;\;\;\;\;\;\, \mathrm{falls} \; x > b
\end{cases}$$
\textbf{Kennzahlen}
\begin{center}
\begin{tabular}{rl}
$\mathbb{E}(X) =$ & $\frac{a+b}{2}x$ \\
Var$(X) =$ & $\frac{(b-a)^2}{12}$ \\
$\sigma_X =$ & $\frac{b-a}{\sqrt{12}}$
\end{tabular}
\end{center}
\subsubsection{Exponential-Verteilung}
$X \sim \mathrm{Exp}(\lambda), \mathbb{W}_X = [0,\infty), \lambda \in \mathbb{R}^+$
$$f(x) = \begin{cases}
\lambda e^{-\lambda x}, \; \mathrm{falls} \; x \geq 0 \\
0, \;\;\;\;\;\;\;\;\;\; \mathrm{sonst} %uglyAF
\end{cases}$$
also
$$F(x) = \begin{cases}
1 - e^{-\lambda x}, \; \mathrm{falls} \; x \geq 0 \\
0, \;\;\;\;\;\;\;\;\;\;\;\;\;\, \mathrm{falls} \; x < 0
\end{cases}$$
\textbf{Kennzahlen}
\begin{center}
\begin{tabular}{rl}
$\mathbb{E}(X) =$ & $\frac{1}{\lambda}$ \\
Var$(X) =$ & $\frac{1}{\lambda^2}$ \\
$\sigma_X =$ & $\frac{1}{\lambda}$
\end{tabular}
\end{center}
\subsubsection{Normalverteilung (Gauss'sche-Verteilung)}
$X \sim \mathcal{N}(\mu,\sigma^2), \mathbb{W}_X = \mathbb{R}, \mu \in \mathbb{R} \; \mathrm{und} \; \sigma \in \mathbb{R}^+$
$$f(x) = \frac{1}{\sigma\sqrt{2\pi}}\mathrm{exp}\bigg(-\frac{(x-\mu)^2}{2\sigma^2}\bigg)$$
$$F(x) \Rightarrow \mathrm{Tabelle!}$$
\textbf{Kennzahlen}
\begin{center}
\begin{tabular}{rl}
$\mathbb{E}(X) =$ & $\mu$ \\
Var$(X) =$ & $\sigma^2$ \\
$\sigma_X =$ & $\sigma$
\end{tabular}
\end{center}
\textbf{Summe} \\
Seien $X_1 \sim \mathcal{N}(\mu_1,\sigma_1^2)$ i.i.d., $X_2 \sim \mathcal{N}(\mu_2,\sigma_2^2)$ i.i.d. und $Y = X_1 + X_2$ dann ist
$$Y \sim \mathcal{N}(\mu_1 + \mu_2, \sigma_1^2+\sigma_2^2)$$
\subsubsection{Standard-Normalverteilung}
$X \sim \mathcal{N}(0,1), \mathbb{W}_X = \mathbb{R}, \mu = 0 \; \mathrm{und} \; \sigma = 1$
$$\varphi (x) = \frac{1}{\sqrt{2\pi}}\mathrm{exp}\bigg(-\frac{x^2}{2}\bigg)$$
$$\Phi(x) = \int_{-\infty}^x\varphi(y)\mathrm{d}y$$
$$\Phi(-c) = P(X \leq -c) = P(X \geq c) = 1-P(X \leq c) = 1 - \Phi(c)$$
\subsection{Funktionen einer Zufallsvariable}
Sei $g: \mathbb{R} \rightarrow \mathbb{R}$ und $X$ eine Zufallsvariable, so ist
$$Y = g(X)$$
eine Transformation.
$$\mathbb{E}(Y) = \mathbb{E}(g(X)) = \int_{-\infty}^{\infty}g(x)f_X(x) \mathrm{d}x$$
\subsubsection{Lineare Transformation}
Sei $X \sim \mathcal{N}(\sigma,\omega^2)$ und $Y = a+bX$ \\
dann sind
\begin{center}
\begin{tabular}{rl}
$\mathbb{E}(Y) =$ & $a +b\mathbb{E}(X)$ \\
Var$(Y) =$ & $b^2 \cdot \mathrm{Var}(X)$ \\
$\sigma_Y =$ & $|b| \cdot \sqrt{\mathrm{Var}(X)}$ \\
$q_Y(\alpha) =$ & $a+b\cdot q_X(\alpha)$
\end{tabular}
\end{center}
\subsubsection{Standardisieren einer Zufallsvariable}
Überführen von $X$ in eine \textit{Standard-Normalverteilung} $(\mathbb{E} = 0, \sigma = 1)$
$$Z = g(X) = \frac{X-\mathbb{E}(X)}{\sigma_X} = \frac{X-\mu}{\sigma} \sim \mathcal{N}(0,1)$$
\subsubsection{Lognormal-Verteilung}
Sei $Y \sim \mathcal{N}(\mu,\sigma^2)$ dann soll $X = \mathrm{exp}(Y)$ mit $\mu \in \mathbb{R}$ und $\sigma \in \mathbb{R}^+$
$$\mathbb{E}(X) = \mathrm{exp}(\mu + \frac{\sigma^2}{2}) > \mathrm{exp}(\mathbb{E}(Y))$$
\subsubsection{Berechnung von Momenten}
Das $k$-te Moment ist gegeben als
$$m_k = \mathbb{E}(X^k)$$
also z.B.
$$m_2 = \mathbb{E}(X^2) = \int_{-\infty}^\infty x^2 f(x) \mathrm{d}x$$
Verschiebungssatz für die Varianz:
$$\mathrm{Var}(X) = \mathbb{E}(X^2) - \mathbb{E}(X)^2$$
\subsection{Überprüfen der Normalverteilungs-Annahme}
\subsubsection{Q-Q Plot (Quantil-Quantil Plot)}
Man plottet die empirischen Quantile gegen die theoretischen Quantile der Modell-Verteilung. Die Punkte sollten ungefähr auf der Winkelhalbierenden $y = f(x) = x$ liegen.
\subsubsection{Normal-Plot}
\label{sec:normalplot}
Für Klassen von Verteilungen, z.B. Klasse der Normalverteilungen mit verschiedenen $\mu, \sigma$. \\
Sei $X \sim \mathcal{N}(\mu, \sigma^2)$, dann sind die Quantile von X
$$q(\alpha) = \mu + \sigma \Phi^{-1}(\alpha)$$
Ein \textit{Q-Q Plot} bei dem die Modell-Verteilung gleich $\mathcal{N}(0,1)$ ist, heisst Normal-Plot.
\subsection{Funktionen von mehreren Zufallsvariablen}
Statt einer Zufallsvariale $X$ und deren $n$ unabhängigen Realisierungen $x_1, x_2, ... , x_n$, nimmt man oft $X_1, X_2, ... , X_n$. Somit wird $y = g(x_1, x_2, ... , x_n)$ zu einer Funktion von Zufallsvariablen
$$Y = g(X_1, X_2, ... , X_n)$$
\subsubsection{Unabhängigkeit und i.i.d. Annahme}
Unabhängig heisst, dass es keine gemeinsamen Prozesse gibt, die den Ausgang beeinflussen. \\
\textit{Notation}:
$$X_1,X_2,...,X_n \; \mathrm{i.i.d}$$
wobei \textit{i.i.d} für \textit{independent, identically distributed} steht. \\
Es gilt dann immer
$$\mathbb{E}(X_1 + X_2) = \mathbb{E}(X_1) + \mathbb{E}(X_2)$$
wenn $X_1,X_2$ unabhängig, auch
$$\mathrm{Var}(X_1 + X_2) = \mathrm{Var}(X_1) + \mathrm{Var}(X_2),$$
für nicht unabhängig
$$\mathrm{Var}(aX_1 + bX_2) = a^2\mathrm{Var}(X_1) + b^2 \mathrm{Var}(X_2) + 2ab\mathrm{Cov}(X_1,X_2).$$
\subsubsection{Gesetz der grossen Zahlen und $\sqrt{n}$-Gesetz}
Sei $X_1, X_2, ..., X_n \; \mathrm{i.i.d} \sim \mathrm{kumulative \; Verteilungsfunktion} \; F$, dann sind
\begin{center}
\begin{tabular}{rcl}
$\mathbb{E}(\bar{X_n})$ & $=$ & $\mu$ \\
Var$(\bar{X_n})$ & $=$ & $\frac{\sigma_X^2}{n}$ \\
$\sigma(\bar{X_n})$ & $=$ & $\frac{\sigma_X}{\sqrt{n}}$
\end{tabular}
\end{center}
Somit sind für eine doppelte Genauigkeit viermal soviele Messwerte nötig. \\
Standardabweichung von $X_n$ ist der \textit{Standardfehler} des Arithmetischen Mittels.
$$\bar{X_n} \rightarrow \mu(n\rightarrow\infty)$$
\subsubsection{Zentraler Grenzwertsatz}
Sei $X_1, X_2, ..., X_n \; \mathrm{i.i.d}$, dann gilt
$$\bar{X_n} = \mathcal{N}(\mu,\frac{\sigma^2_X}{n})$$
und daraus folgt für die Summe $\sum_{i=1}^nX_i$
$$S_X \approx \mathcal{N}(n\mu,n\sigma^2).$$
Aus
$$Z_n = \frac{\sqrt{n}(\bar{X_n}-\mu)}{\sigma_X} \sim \mathcal{N}(0,1)$$
folgt
$$\forall x: \lim_{n\rightarrow\infty} P(Z_n \leq x) = \Phi(x)$$
\subsubsection{Verletzung der Unabhängigkeit}
Sei $X_1, X_2, ..., X_n \; \neg \; \mathrm{i.i.d}$
$$\mathbb{E}(\bar{X_n}) = \mu$$
$$\mathrm{Var}(\bar{X_n}) = \frac{\sigma_X^2}{n}\bigg(1+\frac{1}{n}\sum_{1\leq i \leq j \leq n} \rho_{X_i X_j}\bigg)$$
mit $\rho_{X_i X_j}$ die Korrelation zwischen $X_i, X_j$ \\
Die Unabhängigkeit führt dazu, dass die Genauigkeit des arithmetischen Mittels beeinflusst wird!
\subsection{Statisitk für eine Stichprobe}
% Wasn't able to fit it into the third-columns
\begin{figure}[H]
\begin{tabular}{l|lccc|c}
\hline
\multirow{2}{*}{} & \multicolumn{4}{c|}{Annahmen} & \multirow{2}{*}{Macht} \\
& \multicolumn{1}{c}{\begin{tabular}[c]{@{}c@{}}$\sigma_X$ \\ bekannt \end{tabular}} & $X_i \sim \mathcal{N}$ & \begin{tabular}[c]{@{}c@{}}sym. \\ Verteilung \end{tabular} & i.i.d. & \\
\hline\hline
z-Test & \multicolumn{1}{c}{$\sbullet$ } & $\sbullet$ & $\sbullet$ & $\sbullet$ & $****$ \\
t-Test & & $\sbullet$ & $\sbullet$ & $\sbullet$ & $***$ \\
Wilcoxon & & \multicolumn{1}{l}{} & $\sbullet$ & $\sbullet$ & $**$ \\
Vorzeichen & & \multicolumn{1}{l}{} & \multicolumn{1}{l}{} & $\sbullet$ & $*$ \\
\hline
\end{tabular}
\caption{Übersicht der verschiedenen Tests für $\mu$}
\label{tab:tests}
\end{figure}
\subsubsection{Punktschätzung}
Betrachtung von Daten $x_1, x_2, ...,x_n$ als Realisierungen von $X_1, X_2, ..., X_n$ i.i.d. \\
Wenn $\mathbb{E}(X_i) = \mu$ und $\mathrm{Var}(X_i) = \sigma_X^2$ gesucht:
\begin{center}
\begin{tabular}{rcl}
$\hat{\mu}$ & $=$ & $\displaystyle\frac{1}{n}\sum_{i=1}^n X_i = X_n$ \\
$\hat{\sigma_X}^2$ & $=$ & $\displaystyle\frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X_n})^2$
\end{tabular}
\end{center}
\subsubsection{z-Test ($\sigma_X$ bekannt)}
\begin{enumerate}
\item \textbf{Modell}: $X_i$ ist eine kontunuierliche Messgrösse und Annahme $X_1, X_2, ..., X_n \; \mathrm{i.i.d.} \; \mathcal{N}(\mu, \sigma_X^2)$
\item \textbf{Nullhypothese}:
\begin{center}
\begin{tabular}{cll}
& $H_0:$ & $\mu = \mu_0$
\end{tabular}
\end{center}
\textbf{Alternativhypothese}:
\begin{center}
\begin{tabular}{clll}
& $H_A:$ & $\mu \neq \mu_0$ & zweiseitig \\
oder & $H_A:$ & $\mu > \mu_0$ & einseitig \\
oder & $H_A:$ & $\mu < \mu_0$ & einseitig \\
\end{tabular}
\end{center}
\item \textbf{Teststatistik}:
$$Z = \frac{(\bar{X_n} - \mu_0)}{\sigma_{X_n}} = \frac{\sqrt{n}(\bar{X_n} - \mu_0)}{\sigma_X} = \frac{\mathrm{beobachtet}-\mathrm{erwartet}}{\mathrm{Standardfehler}}$$
Verteilung der Teststatistik unter $H_0: Z \sim \mathcal{N}(0,1)$
\item \textbf{Signifikanzniveau}: $\alpha$
\item \textbf{Verwerfungsbereich für die Teststatistik}:\\
$$K=\begin{cases}
(-\infty,-\Phi^{-1}(1-\frac{\alpha}{2}]\cup [\Phi^{-1}(1-\frac{\alpha}{2}),\infty), \quad \, \mathrm{bei} \; H_A: \mu \neq \mu_0 \\
(-\infty,-\Phi^{-1}(1-\alpha], \qquad\qquad\qquad\qquad\qquad\kern .025em \mathrm{bei} \; H_A: \mu < \mu_0 \\
[\Phi^{-1}(1-\alpha),\infty), \qquad\qquad\qquad\qquad\qquad\quad\kern 0.25em \mathrm{bei} \; H_A: \mu > \mu_0
\end{cases}$$
\item \textbf{Testentscheid}:\\
Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt.
\end{enumerate}
\subsubsection{Fehler 1./2. Art und Macht}
Es gilt wie in \textit{Kapitel \ref{sec:fehler12}} und \textit{\ref{sec:macht}}. \\
$$P_{\mu_0}(T \in K) = \alpha$$
$$P_\mu(T \in K) = \mathrm{Macht}(\mu)$$
\subsubsection{t-Test ($\sigma_X$ unbekannt)}
\label{sec:ttest}
\begin{enumerate}
\item \textbf{Modell}: $X_i$ ist eine kontinuierliche Messgrösse und Annahme $X_1, X_2, ..., X_n \; \mathrm{i.i.d.} \; \mathcal{N}(\mu, \sigma_X^2)$
\item \textbf{Nullhypothese}:
\begin{center}
\begin{tabular}{cll}
& $H_0:$ & $\mu = \mu_0$
\end{tabular}
\end{center}
\textbf{Alternativhypothese}:
\begin{center}
\begin{tabular}{clll}
& $H_A:$ & $\mu \neq \mu_0$ & zweiseitig \\
oder & $H_A:$ & $\mu > \mu_0$ & einseitig \\
oder & $H_A:$ & $\mu < \mu_0$ & einseitig \\
\end{tabular}
\end{center}
\item \textbf{Teststatistik}:
$$\hat{\sigma_X} = \sqrt{\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X_n})^2}$$
$$T = \frac{\sqrt{n}(\bar{X_n} - \mu_0)}{\hat{\sigma_X}} = \frac{\mathrm{beobachtet}-\mathrm{erwartet}}{\mathrm{geschätzter \; Standardfehler}}$$
Verteilung der Teststatistik unter $H_0: T \sim t_{n-1}$
\item \textbf{Signifikanzniveau}: $\alpha$
\item \textbf{Verwerfungsbereich für die Teststatistik}:\\
$$K=\begin{cases}
(-\infty,-t_{n-1;1-\frac{\alpha}{2}}] \cup [t_{n-1;1-\frac{\alpha}{2}},\infty), \quad \;\; \mathrm{bei} \; H_A: \mu \neq \mu_0 \\
(-\infty,-t_{n-1;1-\alpha}], \qquad\qquad\qquad\qquad\kern 1.6em \mathrm{bei} \; H_A: \mu < \mu_0 \\
[t_{n-1;1-\alpha},\infty), \qquad\qquad\qquad\qquad\qquad\quad\kern 0.25em \mathrm{bei} \; H_A: \mu > \mu_0
\end{cases}$$
\item \textbf{Testentscheid}:\\
Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt.
\end{enumerate}
\subsubsection{P-Wert des \textit{t-Tests}}
\label{sec:pval}
$$\mathrm{P-Wert} = P(|T| > |t|) = 2\bigg(1-F_{t_{n-1}}\bigg(\frac{\sqrt{n}|\bar{x_n}-\mu_0|}{\hat{\sigma_X}}\bigg)\bigg)$$
wobei $F_{t_{n-a}}$ die kumulative Verteilungsfunktion der t-Verteilung mit $n-1$ Freiheitsgraden ist ($F_{t_{n-1}}(t) = P(T \leq t),T \sim t_{n-1}$)
\subsubsection{Vertrauensintervall für $\mu$}
Vgl. auch \ref{sec:vertrauensintervall}\\
Für einseitige Intervalle
$$\mu_0 \leq \bar{x_n}+\frac{\hat{\sigma_X}\cdot t_{n-1;1-\alpha}}{\sqrt{n}} \mathrm{\; und \;} \mu_0 \geq \bar{x_n}-\frac{\hat{\sigma_X}\cdot t_{n-1;1-\alpha}}{\sqrt{n}}$$
und das zweiseitige Intervall
$$I = \bigg[\bar{x_n} - t_{n-1;1-\frac{\alpha}{2}}\frac{\hat{\sigma_X}}{\sqrt{n}},\bar{x_n} + t_{n-1;1-\frac{\alpha}{2}}\frac{\hat{\sigma_X}}{\sqrt{n}}\bigg]$$
\subsubsection{Vorzeichentest}
\begin{enumerate}
\item \textbf{Modell}: $X_1, X_2, ..., X_n \; \mathrm{i.i.d.}$ wobei $X_i$ eine beliebige Verteilung hat \\
\item \textbf{Nullhypothese}:
$$H_0: \mu = \mu_0 \mathrm{\; (\mu \; ist \; der \; Median)}$$
\textbf{Alternativhypothese}:
\begin{center}
\begin{tabular}{clll}
& $H_A:$ & $\mu \neq \mu_0$ & zweiseitig \\
oder & $H_A:$ & $\mu > \mu_0$ & einseitig \\
oder & $H_A:$ & $\mu < \mu_0$ & einseitig \\
\end{tabular}
\end{center}
\item \textbf{Teststatistik}: \\
$V$: Anzahl $X_i$ mit $X_i > \mu_0$ \\
Verteilung der Teststatistik unter $H_0: V \sim \mathrm{Bin}(n,\pi_0)$, mit $\pi_0 = 0.5$
\item \textbf{Signifikanzniveau}: $\alpha$ \\
\item \textbf{Verwerfungsbereich für die Teststatistik}: \\
$$K=\begin{cases}
[0,c_u] \cup [c_0,n], \quad \;\; \mathrm{bei} \; H_A: \mu \neq \mu_0 \\
[0,c], \qquad\qquad\kern 2.1em \mathrm{bei} \; H_A: \mu < \mu_0 \\
[c,n], \qquad\qquad\quad\kern 1em \mathrm{bei} \; H_A: \mu > \mu_0
\end{cases}$$
\item \textbf{Testentscheid}: \\
Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt.
\end{enumerate}
\subsubsection{Wilcoxon-Test}
Voraussetzung: Realisierungen von $X_1, X_2, ..., X_n \; \mathrm{i.i.d.}$, stetig und symetrisch bezgl. $\mu = \mathbb{E}(X_i)$ \\
Für Berechnung benutze R (\ref{sec:wilcoxon})
\subsection{Statisitk für zwei Stichproben}
\subsubsection{Gepaarte Stichprobe}
\label{sec:paired}
Ligt vor falls:
\begin{itemize}
\item beide Versuchsbedingungen an derselben Versuchseinheit eingesetzt werden
\item oder jeder Versuchseinheit aus der einen Gruppe genau eine Versuchseinheit aus der anderen Gruppe zugeordnet werden kann.
\end{itemize}
Die Daten entsprechen
$$x_1,...x_n \mathrm{unter \; Versuchsbedingung \; 1}$$
$$y_1,...y_n \mathrm{unter \; Versuchsbedingung \; 2}$$
wobei dasselbe $n$ für beide nötig ist. \\
\textbf{Gepoolte Varianz}
$$S_\mathrm{pool}=\sqrt{\frac{\hat{\sigma}_X^2+\hat{\sigma}_Y^2}{2}}$$
\subsubsection{t-Test für gepaarte Stichproben}
$$d_i = x_i - y_i, i \in \mathbb{N} \leq n$$
$d_i$ seinen Realisierungen von $D_1,...D_n$ i.i.d. Somit vereinfacht sich die Betrachtung zu einer Variable auf welche wir den \textit{t-Test} aus \ref{sec:ttest} anwenden können.
\subsubsection{Ungepaarte Stichproben}
Falls eine Paarung wie in \ref{sec:paired} nicht möglich ist und die Daten
$$X_1,...X_n \mathrm{i.i.d}$$
$$Y_1,...Y_m \mathrm{i.i.d}$$
entsprechen, wobei $m \neq n$ nicht zwingend notwendig ist. Entscheidend ist, dass $x_i$ und $yi$ zu verschiedenen Versuchseinheiten gehören und als unabhängig angenommen werden können.
\subsubsection{t-Test für ungepaarte Stichproben}
\begin{enumerate}
\item \textbf{Modell}:
$$X_1,...X_n \mathrm{i.i.d} \sim \mathcal{N}(\mu_X,\sigma^2)$$
$$Y_1,...Y_m \mathrm{i.i.d} \sim \mathcal{N}(\mu_Y,\sigma^2)$$
\item \textbf{Nullhypothese}:
\begin{center}
\begin{tabular}{cll}
& $H_0:$ & $\mu_X = \mu_Y$
\end{tabular}
\end{center}
\textbf{Alternativhypothese}:
\begin{center}
\begin{tabular}{clll}
& $H_A:$ & $\mu_X \neq \mu_Y$ & zweiseitig \\
oder & $H_A:$ & $\mu_X > \mu_Y$ & einseitig \\
oder & $H_A:$ & $\mu_X < \mu_Y$ & einseitig \\
\end{tabular}
\end{center}
\item \textbf{Teststatistik}:
$$T = \frac{\bar{X_n}-\bar{Y_m}}{S_{pool}\sqrt{\frac{1}{n}+\frac{1}{m}}}$$
wobei
\begin{center}
\begin{tabular}{rl}
$\displaystyle S_{pool}$ & $\displaystyle = \sqrt{\frac{1}{n+m-2}\bigg(\sum_{i=1}^n(X_i-\bar{X_n})^2+\sum_{i=1}^m(Y_i-\bar{Y_m})^2\bigg)}$ \\
& $\displaystyle = \sqrt{\frac{(n-1)\hat{\sigma_X}^2+(m-1)\hat{\sigma_Y}^2}{n+m-2}}$
\end{tabular}
\end{center}
Verteilung der Teststatistik unter $H_0: T \sim t_{n+m-2}$
\item \textbf{Signifikanzniveau}: $\alpha$
\item \textbf{Verwerfungsbereich für die Teststatistik}:\\
$$K=\begin{cases}
(-\infty,-t_{n+m-2;1-\frac{\alpha}{2}}] \cup [t_{n+m-2;1-\frac{\alpha}{2}},\infty), \quad \;\; \mathrm{bei} \; H_A: \mu_X \neq \mu_Y \\
(-\infty,-t_{n+m-2;1-\alpha}], \qquad\qquad\qquad\qquad\kern 3.2em \mathrm{bei} \; H_A: \mu_X < \mu_Y \\
[t_{n+m-2;1-\alpha},\infty), \qquad\qquad\qquad\qquad\qquad\quad\kern 2em \mathrm{bei} \; H_A: \mu_X > \mu_Y
\end{cases}$$
\item \textbf{Testentscheid}:\\
Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt.
\end{enumerate}
\subsubsection{Zwei-Stichproben Wilcoxon-Test (Mann-Whitney Test)}
Seien zwei Stichproben
$$X_1,...X_n \mathrm{i.i.d} \sim \mathcal{N}(\mu_X,\sigma^2)$$
$$Y_1,...Y_m \mathrm{i.i.d} \sim \mathcal{N}(\mu_Y,\sigma^2)$$
und $F_X$ eine beliebige Verteilungsfunktion.
Wir definieren nun
$$F_Y(x):=F_X(x-\delta)$$
was einer verschobenen Funktion von $F_X$ entspricht.
\section{Regression}
\subsection{Einfache Lineare Regression}
\subsubsection{Modell}
\label{sec:regmod}
$$y_i = \beta_0 + \beta_1x_i+E_i,$$
wobei $i \in \mathbb{N} \leq n$, $E_i \sim \mathcal{N}(0,\sigma^2)$, $E_1,...E_n$ i.i.d., $\mathbb{E}(E_i) = 0$ und $\mathrm{Var}(E_i) = \sigma^2$ \\
$Y$ bezeichnen wir als \textbf{Zielvariable (response variable)}, $x$ als \textbf{erklärende Variable (explanatory/predictor variable)} oder \textbf{Co-Variable (covariate)} und $E_i$ als Störfaktor (zufällig)
\begin{figure}[H]
\centering
\includegraphics[width=.12\textwidth]{sreg.png}
\caption{Einfache lineare Regression mit Residuen}
\label{fig:sreg}
\end{figure}
\subsubsection{Parameterschätzung}
Das Modell aus \ref{sec:regmod} mit der \textit{Methode der kleinsten Quadrate} liefert
$$\hat{\beta_0},\hat{\beta_1} \mathrm{\; Minimierung \; von \;} \sum_{i=1}^n(Y_i-(\beta_0+\beta_1x_i))^2,$$
daraus ergibt sich
$$\hat{\beta_1} = \frac{\sum_{i=1}^n(y_i-\bar{y})(x_i-\bar{x})}{\sum_{i=1}^n(x_i-\bar{x})^2}$$
und
$$\hat{\beta_0} = \bar{y} - \hat{\beta_1}\bar{x}$$
dabei gilt
$$\mathbb{E}(\hat{\beta_0}) = \beta_0, \mathbb{E}(\hat{\beta_1}) = \beta_1$$
Für den \textbf{Standardfehler} gilt
$$s(\hat{\beta_1}) = \frac{\sigma}{\sqrt{\sum_{i=1}^n(x_i-\bar{x})^2}}.$$
Die \textbf{Residuen}
$$R_i = Y_i - (\hat{\beta_0}+\hat{\beta_1)x_i}, i \in \{1,2,...,n\}$$
somit approximieren wir $E_i \approx R_i$ und daraus
$$\hat{\sigma}^2 = \frac{1}{n-2}\sum_{i=1}^nR_i^2$$
\subsection{Tests und Vertrauensintervalle der einfachen linearen Regression}
\subsubsection{t-Test in der Regression}
\begin{enumerate}
\item \textbf{Modell}: \\
$$Y_i = \beta_0 + \beta_1x_i + E_i$$ \\
$$E_1, E_2, ..., E_n \; \mathrm{i.i.d.} \; \mathcal{N}(0, \sigma_X^2)$$
\item \textbf{Nullhypothese}:
$$H_0: \beta_1 = 0$$
\textbf{Alternativhypothese}:
$$H_A: \beta_1 \neq 0$$
\item \textbf{Teststatistik}:
$$T = \frac{\hat{\beta_1}-0}{\hat{s}(\hat{\beta_1})} = \frac{\mathrm{beobachtet}-\mathrm{erwartet}}{\mathrm{geschätzter \; Standardfehler}}$$
Dabei ist $\hat{s}$ der geschätzte Standardfehler $\sqrt{\widehat{\mathrm{Var}}(\hat{\beta_1})} = \frac{\hat{\sigma}}{\sqrt{\sum_{i=1}^n(x_i-\bar{x_n})^2}}$
Verteilung der Teststatistik unter $H_0: T \sim t_{n-2}$
\item \textbf{Signifikanzniveau}: $\alpha$
\item \textbf{Verwerfungsbereich für die Teststatistik}:\\
$$K=(-\infty,-t_{n-2;1-\frac{\alpha}{2}}] \cup [t_{n-2;1-\frac{\alpha}{2}},\infty)$$
\item \textbf{Testentscheid}:\\
Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt.
\end{enumerate}
Analog funktioniert auch ein \textit{t-Test} für $H_0: \beta_0 = 0, H_A: \beta_0 \neq 0$
\subsubsection{t-Wert}
$$\frac{\hat{\beta_i}}{s(\hat{\beta_i})}$$
\subsubsection{P-Wert}
Vgl. dazu \ref{sec:pval}, jedoch anstatt $n-1$ sind es hier $n-2$ Freiheitsgrade. Der P-Wert der Regression wird meist nicht von Hand berechnet (vgl. \ref{sec:rreg}).
\subsubsection{Vertrauensintervalle}
Die zweiseitigen Vertrauensintervalle für $\beta_i (i = 0, 1)$ zum Niveau $1 - \alpha$ sind gegeben durch
$$[\hat{\beta_i}-\hat{s}(\hat{\beta_i})t_{n-2;1-\frac{\alpha}{2}},\hat{\beta_i}+\hat{s}(\hat{\beta_i})t_{n-2;1-\frac{\alpha}{2}}]$$
Für grosse $n$ approximieren wir $t_{n-2;1-\frac{\alpha}{2}}$ mit $\Phi^{-1}(1-\frac{\alpha}{2})$, somit für 95\%-Vertruaensintervalle
$$[\hat{\beta_i}-2\hat{s}(\hat{\beta_i}),\hat{\beta_i}+2\hat{s}(\hat{\beta_i})]$$
\subsubsection{Bestimmtheitsmass $R^2$}
\label{sec:r2}
Sei $\hat{y_i} = \hat{\beta_0}+\hat{\beta_1}x_i$ der Wert auf der Regressionsgerade am Punkt $x_i$, dann gilt
$$\underbrace{\sum_{i=1}^n(y_i-\bar{y})^2}_{SS_Y}=\underbrace{\sum_{i=1}^n(y_i-\hat{y_i})^2}_{SS_E}+\underbrace{\sum_{i=1}^n(\hat{y_i}-\bar{y})^2}_{SS_R}$$
wobei
\begin{itemize}
\item $SS_Y$: die totale Variation der Zielvariablen (ohne Einfluss der erklärenden Variablen $x$)
\item $SS_E$: die Variation des Fehlers (Residuen-Quadratsumme)
\item $SS_R$: die Variation, welche durch die Regression erklärt wird (Einfluss der erklärenden Variablen $x$).
\end{itemize}
Wir definieren
$$R^2:=\frac{SS_R}{SS_Y}, R^2 \in [0,1]$$
als Mass für den Antwil der totalen Variation, welche durch die Regression erklärt wird. \\
Wenn $R^2$ gegen $1$ geht ist es eine "gute" Regression.
$$R^2 = \hat{\rho}_{Y\hat{Y}}^2$$
\subsubsection{Vorgehen bei einfacher linearer Regression}
\begin{enumerate}
\item Plotten von $Y$ und $x$ in einem Streudiagramm. Überprüfen, ob eine lineare Regression überhaupt sinnvoll ist.
\item Anpassen der Regressionsgeraden; d.h. Berechnung der Punktschätzer $\beta_0, \beta_1$
\item Testen ob erklärende Variable $x$ einen Einfluss auf die Zielvariable $Y$ hat mittels \textit{t-Test} für $H_0 : \beta_1 = 0$ und $H_A : \beta_1 \neq 0$. Falls dieser Test ein nicht-signifikantes Ergebnis liefert, so hat die erklärende Variable keinen signifikanten Einfluss auf die Zielvariable.
\item Testen ob Regression durch Nullpunkt geht mit \textit{t-Test} für $H_0 : \beta_1 = 0$ und $H_A : \beta_1 \neq 0$. Falls dieser Test ein nicht-signifikantes Ergebnis liefert, so kann man das kleinere Modell mit Regression durch Nullpunkt benutzen (ohne Achsenabschnitt $\beta_0$).
\item Bei Interesse: Angabe von Vertrauensintervallen für $\beta_0$ und $\beta_1$.
\item Angabe des Bestimmtheitsmass $R^2$. Dies ist in gewissem Sinne eine informellere (und zusätzliche) Quantifizierung als der statistische Test in Punkt 3.
\item Überprüfen der Modell-Voraussetzungen mittels Residuenanalyse (vgl. \ref{sec:resid}).
\end{enumerate}
\subsection{Residuenanalyse}
\label{sec:resid}
\textbf{Annahmen und deren Überprüfung}:
\begin{enumerate}
\item $\mathbb{E}(E_i)=0$ (\textit{Tukey-Anscombe Plot}, vgl. \ref{sec:tukey}) \\
Es gilt $\mathbb{E}(Y_i)=\beta_0+\beta_1x_i+\mathbb{E}(E_i)=\beta_0+\beta_1x_i$, sodass keine systematischen Fehler auftreten können. Dennoch können Abweichungen auftreten (z.B. komplizierte quadr. Verteilung)
\item $E_1,E_2,...,E_n$ i.i.d. (Plot bzgl. \textit{serieller Korrelation}, \textit{Tukey-Anscombe}) \\
Die Fehler müssen unabhängig voneinander sein, insbesondere sind $\mathrm{Cor}(E_i,E_j) = 0$ für $i \neq j$, was bedeutet, dass keine \textit{serielle Korrelation} auftritt. Da die Fehler gleich verteilt sein müssen, ist die Varianz der Fehler auch gleich.
\item $E_1,E_2,...,E_n$ i.i.d. $\mathcal{N}(0,\sigma^2)$ \\
Es wird angenommen, dass die Fehler normalverteilt sind. Überprüfung mit Normalplot der Residuen.
\end{enumerate}
\subsubsection{Tukey-Anscombe Plot}
\label{sec:tukey}
Plotten der Residuen $R_i$ gegen die angepassten Werte $\hat{y_i}$. \\
Idealerweise sind die Punkte gleichmässig um $0$ gestreut.
Bei verletzen Modellannehmen können auftreten:
\begin{itemize}
\item Kegelförmiges anwachsen von $\hat{y_i}$. Falls $\hat{y_i} > 0$ versuche
$$\log(Y_i) = \beta_0+\beta_1 x_i + E_i$$
\item Ausreisser (Versuche robuste Regression)
\item Unregelmässige Struktur (möglicherweise kein linearer Zusammenhang)
\end{itemize}
\subsubsection{Serielle Korrelation}
Überprüfung der Unabhängigkeitsannahme der $E_1, E_2, ..., E_n$: Plotten von $r_i$ gegen $i$. \\
Dabei sollte eine gleichmässige Verteilung um $0$ entstehen.
\subsubsection{Normaleplot}
Wie in \ref{sec:normalplot} erwarten wir möglichst eine Gerade, falls die Fehler normalverteilt sind.
\subsection{Multiple lineare Regression}
Oft sind erklärende Variablen $x_{i,1},...,x_{i,p-1}; (p>2)$
\subsubsection{Modell}
$$Y_i = \beta_0 + \sum_{j=1}^{p-1}\beta_jx_{i,j}+E_i, i \in \mathbb{N} \leq n$$
$$E_1, E_2, ..., E_i \mathrm{\; i.i.d.},\mathbb{E}(E_i)=0, \mathrm{Var}(E_i)=\sigma^2$$
In Matrixschreibweise:
$$\underbrace{Y}_{n \times 1} = \underbrace{X}_{n \times p}\times\underbrace{\beta}_{p \times 1}+\underbrace{E}_{n \times 1}$$
wobei:
\begin{itemize}
\item $Y = (Y_1,...,Y_n)^T$ \\
\item $X: (n \times p)$-Matrix mit Spaltenvektoren $(1,1,...1)^T,(x_{1,1},x_{2,1},...,x_{n,1})^T,...,(x_{1,p-1},x_{2,p-1},...,x_{n,p-1})^T$\\
\item $\beta = (\beta_0,...,\beta_{p-1})$, der Parametervektor \\
\item $E = (E_1, ..., E_n)^T$, der Fehlervektor
\end{itemize}
Somit ist eine \textbf{einfache lineare Regression} \\
\begin{center}
\begin{tabular}{ccc}
$$p = 2,$$ & $$X = \begin{pmatrix}
1 & x_1 \\
1 & x_2 \\
\vdots & \vdots \\
1 & x_n
\end{pmatrix},$$ & $$\beta = \begin{pmatrix}
\beta_0 \\
\beta_1
\end{pmatrix}^T$$
\end{tabular}
\end{center}
Analog dazu für \textbf{lineare Regression mit mehreren erklärenden Varablen}
$Y_i = \beta_0 + \beta_1x_{i,1}+\beta_2x_{i,2} + E_i, i \in \mathbb{N} \leq n$
\begin{center}
\begin{tabular}{ccc}
$$p = 3,$$ & $$X = \begin{pmatrix}
1 & x_{1,1} & x_{1,2} \\
1 & x_{2,1} & x_{2,2} \\
\vdots & \vdots & \vdots \\
1 & x_{n,1} & x_{n,2}
\end{pmatrix},$$ & $$\beta = \begin{pmatrix}
\beta_0 \\
\beta_1 \\
\beta_2
\end{pmatrix}^T$$
\end{tabular}
\end{center}
ebenfalls für \textbf{lineare Regression mit quadratisch erklärenden Varablen}
$Y_i = \beta_0 + \beta_1x_{i}+\beta_2x_{i}^2 + E_i, i \in \mathbb{N} \leq n$
\begin{center}
\begin{tabular}{ccc}
$$p = 3,$$ & $$X = \begin{pmatrix}
1 & x_{1} & x_{1}^2 \\
1 & x_{2} & x_{2}^2 \\
\vdots & \vdots & \vdots \\
1 & x_{n} & x_{n}^2
\end{pmatrix},$$ & $$\beta = \begin{pmatrix}
\beta_0 \\
\beta_1 \\
\beta_2
\end{pmatrix}^T$$
\end{tabular}
\end{center}
und schlussendlich für eine \textbf{Regression mit transformierten erklärenden Varablen} \\
$Y_i = \beta_0 + \beta_1\log(x_{i,2})+\beta_2\sin(\pi x_{i,3}) + E_i, i \in \mathbb{N} \leq n$
\begin{center}
\begin{tabular}{ccc}
$$p = 3,$$ & $$X = \begin{pmatrix}
1 & \log(x_{1,2}) & \sin(\pi x_{1,3}) \\
1 & \log(x_{2,2}) & \sin(\pi x_{2,3}) \\
\vdots & \vdots & \vdots \\
1 & \log(x_{n,2}) & \sin(\pi x_{n,3})
\end{pmatrix},$$ & $$\beta = \begin{pmatrix}
\beta_0 \\
\beta_1 \\
\beta_2
\end{pmatrix}^T$$
\end{tabular}
\end{center}
\subsubsection{Interpretation}
\begin{itemize}
\item Bei \textbf{einfacher linearer Regression} ist $\beta_1$ die erwartete Zunahme der Zielgrösse bei Erhöhung von $x_1$ um eine Einheit.
\item Bei \textbf{multipler linearer Regression} ist $\beta_i$ die erwartete Zunahme der Zielgrösse bei Erhöhung von $x_i$ um eine Einheit - bei \textbf{Fixierung der anderen Variablen}.
\end{itemize}
\subsubsection{Parameterschätzung und t-Test}
Auch hier benutzen wir die \textit{Methode der kleinsten Quadrate}. \\
$$\hat{\beta_0},\hat{\beta_1},...,\hat{\beta}_{p-1} \mathrm{\; Minimierung \; von \;} \sum_{i=1}^n(Y_i-(\beta_0+\beta_1x_{i,1}+...+\beta_{p-1}x_{i,p-1}))^2,$$
falls $p < n$
$$\hat{\beta} = (X^TX)^{-1}X^TY.$$
Für die Fehlervarianz
$$\hat{\sigma} = \frac{1}{n-p}\sum_{i=1}^nR^2_i,R_i = Y_i - \bigg(\hat{\beta}_0+\sum_{j=1}^{p-1}\hat{\beta}_jx_{i,j}\bigg)$$
Den \textit{t-Test} können wir analog zur \textit{einfachen Regression} mit
\begin{center}
\begin{tabular}{ll}
$H_0: \beta_j = 0$ & \multirow{2}{*}{$, j \in \mathbb{N} \leq p-1$} \\
$H_A: \beta_i \neq 0$ &
\end{tabular}
\end{center}
durchführen. Dabei misst $\beta_i$ den linearen Effekt der $i$-ten erklärenden Variable auf Zielvariable $Y$ \textbf{nach Elimination} der linearen Effekte auf $Y$ aller anderen Variablen. Es ist nicht möglich, durch direkte einfach lineare Regression von $Y$ zur $j$-ten erklärenden Variable $\beta_j$ zu erhalten!
\subsubsection{F-Test}
Prüft, ob es mindestens eine erklärende Variable gibt, die einen signifikanten Effekt auf die Zielvariable hat.
\begin{center}
\begin{tabular}{lll}
$H_0:$ & $\beta_1 = ... = \beta_{p-1} = 0$ \\
$H_A:$ & mindestens ein $\beta_j \neq 0$, & $j \in \mathbb{N} \leq p-1 $
\end{tabular}
\end{center}
Hier können einzelne Variablen signifikant sein und andere nicht. Bei starker Korrelation zwischen zwei kann man eine weglassen, da keine neue Information.
\subsubsection{Bestimmtheitsmass $R^2$}
Es gilt wie in \ref{sec:r2}
$$R^2 = \hat{\rho}_{Y\hat{Y}}^2$$
\scriptsize
\end{multicols*}
\newpage
\begin{multicols*}{2}
\section{R}
\subsection{diskrete Verteilungen}
\begin{lstlisting}
# d... berechnet P(X = x)
# p... berechnet P(X <= x)
# q... berechnet Quantile der Verteilung
# r... zieht eine bestimmte Anzahl Realisierungen der gewaehlten Verteilung
\end{lstlisting}
\subsubsection{Binomialverteilung}
\begin{lstlisting}
dbinom(x = 5, size = 10, prob = 0.5) # Berechnet P(X = 5) fuer X ~ Binomial(10, 0.5)
pbinom(q = 5, size = 10, prob = 0.5) # Berechnet P(X <= 5) fuer X ~ Binomial(10, 0.5)
qbinom(p = 0.2, size = 10, prob = 0.5) # Berechnet das 20%-Quantil fuer X ~ Binomial(10, 0.5)
rbinom(n = 100, size = 10, prob = 0.5) # Zieht zufaellig n=100 Realisierungen von X ~ Binomial(10, 0.5)
# (fuehren Sie den oberen Befehl rbinom 2x aus, Sie erhalten andere Werte)
\end{lstlisting}
\subsubsection{Poissonverteilung}
\begin{lstlisting}
dpois(x = 5, lambda = 2) # Berechnet P(X = 5) fuer X ~ Poisson(2)
ppois(q = 5, lambda = 2) # Berechnet P(X <= 5) fuer X ~ Poisson(2)
qpois(p = 0.2, lambda = 2) # Berechnet das 20%-Quantil fuer X ~ Poisson(2)
rpois(n = 100, lambda = 2) # Zieht n=100 Realisierungen von X ~ Poisson(2)
\end{lstlisting}
\subsubsection{Binomialtest}
\begin{lstlisting}
## Der Binomialtest kann in R mit dem Befehl binom.test(...) durchgefuehrt werden.
## Die Argumente der Funktion sind:
## - x: Der beobachtete Wert der Teststatistik
## - n, p: Die Parameter der Verteilung der Teststatistik (Binomial(n,p)) unter der Nullhypothese
## - alternative:
## Die Wahl der Alternativhypothese. Moegliche Optionen sind:
## - "less" fuer H_A: pi < pi_0
## - "greater" fuer H_A: pi > pi_0
## - "two.sided" fuer H_A: pi ungleich pi_0
## - conf.level:
## Das Konfidenzniveau fuer das Vertrauensintervall. Entspricht (1 - Signifikanzniveau).
## Beispiel:
## Wir vermuten, dass ein Wuerfel zu viele 6er wuerfelt.
## Wir haben in 50 Wuerfen 13 mal eine sechs gewuerfelt.
## Wir moechten auf dem 1%-Signifikanzniveau testen, ob der Wuerfel zu viele 6er wuerfelt.
binom.test(x = 13, n = 50, p = 1/6, alternative = "greater", conf.level = 0.99)
\end{lstlisting}
\subsection{Kennzahlen}
\begin{lstlisting}
## Wir haben folgende Daten beobachtet / gemessen
x <- c(1.1, 2.3, -2.4, 3.9, 5.1, -1.7, 2.0, -1.1, 3.4, 0.7)
y <- c(0.8, 2.1, -1.3, 1.0, 0.4, -3.2, 3.1, -0.1, 5.1, 4.3)
mean(x) # arithmetisches Mittel
var(x) # Varianz
sd(x) # Standardabweichung
max(x) # Maximum
min(x) # Minimum
median(x) # Median
quantile(x, probs = 0.25) # empirisches 25%-Quantil
summary(x) # Gibt Ueberblick ueber einige Kennzahlen
cor(x,y) # Empirische Korrelatin von x und y
\end{lstlisting}
\subsection{Grafische Methoden}
\begin{lstlisting}
plot(x, y) # Streudiagramm von x und y
hist(x) # Histogramm Typ "Frequency" (siehe VL 8)
hist(x, freq = FALSE) # Histogramm Typ "Density" (siehe VL 8)
hist(x, breaks = 10) # mit breaks = ... kann die Anzahl Balken gesteuert werden, siehe Serie 8)
plot(ecdf(x)) # Empirische kumulative Verteilungsfunktion
boxplot(x) # Boxplot
z <- rnorm(n = 100, mean = 2, sd = 1)
qqnorm(z) # QQ-Plot, welcher mit den theoretischen Quantilen der N(0,1)-Verteilung vergleicht.
\end{lstlisting}
\subsection{Stetige Verteilungen}
\subsubsection{Uniformverteilung}
\begin{lstlisting}
dunif(x = 2.5, min = 1, max = 3) # Wert der Dichte f(x) von X ~ Uniform([1,3]) an der Stelle x=2.5
punif(q = 2.5, min = 1, max = 3) # Wert der kum. Verteilungsfkt. F(x) von X ~ Uniform([1,3]) an der Stelle x=2.5
qunif(p = 0.2, min = 1, max = 3) # 20%-Quantil von X ~ Uniform([1,3])
runif(n = 100, min = 1, max = 3) # Zieht zufaellig 100 Realisierungen von X ~ Uniform([1,3])
\end{lstlisting}
\subsubsection{Exponentialverteilung}
\begin{lstlisting}
dexp(x = 2, rate = 1) # Wert der Dichte f(x) von X ~ Exp(1) an der Stelle x = 2
pexp(q = 2, rate = 1) # Wert der kum. Verteilungsfunktion F(x) von X ~ Exp(1) an der Stelle x = 2
qexp(p = 0.2, rate = 1) # 20%-Quantil von X ~ Exp(1)
rexp(n = 100, rate = 1) # Zieht zufaellig 100 Realisierungen von X ~ Exp(1)
\end{lstlisting}
\subsubsection{Normalverteilung}
\begin{lstlisting}
dnorm(x = 3, mean = 1, sd = sqrt(2)) # Wert der Dichte f(x) von X ~ N(1,2) an der Stelle x = 3
pnorm(q = 3, mean = 1, sd = sqrt(2)) # Wert der kum. VF F(x) von X ~ N(1,2) an der Stelle x = 3
qnorm(p = 0.2, mean = 1, sd = sqrt(2)) # 20%-Quantil von X ~ N(1,2)
rnorm(n = 100, mean = 1, sd = sqrt(2)) # Zieht zufaellig 100 Realisierungen von X ~ N(1,2)
\end{lstlisting}
\subsubsection{Standardnormalverteilung}
\begin{lstlisting}
dnorm(x = 3) # Wenn man meam = ..., sd = ... nicht angibt, wird eine N(0,1)-Verteilung angenommen.
pnorm(q = 3)
qnorm(p = 0.2) # entspricht Phi^{-1}(0.2)
rnorm(n = 100)
\end{lstlisting}
\subsection{Ein-Stichproben t-Test (gepaart)}
\begin{lstlisting}
## Der Ein-Stichproben t-Test kann in R mit dem Befehl t.test(...) durchgefuehrt werden.
## Die benoetigten Argumente der Funktion sind:
## - x: Der Vektor mit den beobachteten Werten
## - mu: Der Wert mu_0 der Nullhypothese
## - alternative:
## Die Wahl der Alternativhypothese. Moegliche Optionen sind:
## - "less" fuer H_A: mu < mu_0
## - "greater" fuer H_A: mu > mu_0
## - "two.sided" fuer H_A: mu ungleich mu_0
## - conf.level:
## Das Konfidenzniveau fuer das Vertrauensintervall. Entspricht (1 - Signifikanzniveau).
t.test(x = x, y = y, alternative = "greater", mu = 0, paired = TRUE, conf.level = 0.95)
\end{lstlisting}
\subsection{Zwei-Stichproben t-Test (ungepaart)}
\begin{lstlisting}
## Um in R einen ungepaarten Zwei-Stichproben t-Test durchzufuehren, verwenden
## Sie ebenfalls die Funktion t.test(...) mit den Argumenten
## - x: Der Vektor mit den beobachteten Werten der ersten Stichprobe
## - y: Der Vektor mit den beobachteten Werten der zweiten Stichprobe
## - mu: Der Wert mu_0 der Nullhypothese (typischerweise = 0, da Nullhypothese: "Es gibt keinen Unterschied")
## - alternative:
## Die Wahl der Alternativhypothese. Moegliche Optionen sind:
## - "less" fuer H_A: mu_X - mu_Y < mu_0
## - "greater" fuer H_A: mu_X - mu_Y > mu_0
## - "two.sided" fuer H_A: mu_X - mu_Y ungleich mu_0
## - paired = FALSE (ungepaarter Test)
## - var.equal = TRUE (standardmaessig ist var.equal = FALSE, dann wird ein Welch-Test durchgefuehrt)
## - conf.level:
## Das Konfidenzniveau fuer das Vertrauensintervall. Entspricht (1 - Signifikanzniveau).
t.test(x = x, y = y, alternative = "two.sided", mu = 80.00, paired = FALSE, conf.level = 0.95)
\end{lstlisting}
\newpage
\subsection{Wilcoxon-Test}
\label{sec:wilcoxon}
\begin{lstlisting}
## Ein- und Zwei-Stichproben Wilcoxon Tests stehen in R unter dem Befehl wilcox.test(...) zur Verfuegung.
## Die Argumente der Funktion sind analog zu denjenigen der t-Tests.
wilcox.test(x = x, alternative = "greater", mu = 80)
\end{lstlisting}
\subsection{Verteilungen}
\lstinline{pt} für kumulative Verteilungsfunktion \\
\lstinline{qt} für Quantile
\subsection{Regression}
\label{sec:rreg}
\subsubsection{Einfache Lineare Regression}
\begin{lstlisting}
## Um in R ein einfaches lineares Regressionsmodell anzupassen, verwendet man den R-Befehl lm(...).
## Wir betrachten das Beispiel mit Buchpreis und Seitenzahl aus dem Vorlesungsskript.
x <- c(50, 100, 150, 200, 250, 300, 350, 400, 450, 500) ## Seitenzahl, erklaerende Variable.
y <- c(9.9, 10.7, 13.3, 15.2, 16.4, 23.6, 23.5, 21.1, 28.9, 29.1) ## Buchpreis, Zielvariable.
\end{lstlisting}
Eigentliche Regression:
\begin{lstlisting}
## Um das lineare Regressionsmodell Y_i = beta_0 + beta_1 x_i + E_i zu fitten, benutzt man
fit <- lm(y ~ x) #("y gegen x")
## Man kann Achsenabschnitt und Steigung sehen, wenn man sich das Objekt 'fit' anschaut:
fit
\end{lstlisting}
oder
\begin{lstlisting}
fit <- lm(y ~ x)
summary(fit)
\end{lstlisting}
liefert den Output
\begin{lstlisting}
Residuals:
Min 1Q Median 3Q Max
-3.6958 -0.5944 -0.2203 0.9300 3.3048
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.793333 1.391060 4.884 0.00122 **
x 0.045006 0.004484 10.037 8.25e-06 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.036 on 8 degrees of freedom
Multiple R-squared: 0.9264, Adjusted R-squared: 0.9172
F-statistic: 100.8 on 1 and 8 DF, p-value: 8.254e-06
\end{lstlisting}
somit $Y_i = 6.793333 + 0.045006x_i$
\textbf{Weitere Plots}
\begin{lstlisting}
## Residuenplots erhaelt man einfach mittels
plot(fit) # man muss in der "Console" mehrmals die Eingabetaste dr¸cken, um die Plots zu sehen.
## oder:
plot(fit$fitted, fit$resid) ## Tukey-Anscombe plot
qqnorm(fit$residuals) ## qq-Plot der Residuen
## 95%-Vertrauensintervalle f¸r Koeffizienten (siehe VL 14, Slide 8)
confint(fit)
## 95%-Vertrauens-/Vorhersageintervalle (siehe VL 14, Slides 9 und 10)
nd <- data.frame(x=1, y=NA)
predict(fit, newdata = nd, interval = "confidence") ## Vertrauensintervall
predict(fit, newdata = nd, interval = "prediction") ## Vorhersageintervall
## Nehmen wir an, die Daten befinden sich in einem data.frame (anstelle von zwei Vektoren).
Daten_Buch <- data.frame(Seitenzahl = x, Buchpreis = y)
Daten_Buch
## Dieselbe Regression wie oben kann man nun berechnen, indem man entweder schreibt:
fit2 <- lm(Daten_Buch$Buchpreis ~ Daten_Buch$Seitenzahl)
summary(fit2)
## oder alternativ:
fit3 <- lm(Buchpreis ~ Seitenzahl, data = Daten_Buch)
summary(fit3)
## Alle 3 Varianten (fit, fit2, fit3) liefern exakt dasselbe Resultat.
\end{lstlisting}
\subsubsection{Multiple lineare Regression}
\begin{lstlisting}
## Um in R ein multiples lineares Regressionsmodell anzupassen, verwendet man ebenfalls den R-Befehl lm(...).
## Wir betrachten das Beispiel mit Buchpreis und Seitenzahl aus dem Vorlesungsskript, moechten nun jedoch
## als zweite erklaerende Variable noch das Erscheinungsjahr des Buches ins Modell aufnehmen.
x1 <- c(50, 100, 150, 200, 250, 300, 350, 400, 450, 500) ## Seitenzahl, erklaerende Variable 1.
x2 <- c(2017, 1999, 2013, 2004, 2001, 1979, 2018, 2008, 2015, 2002) ## Erscheinungsjahr, erklaerende Variable 2.
y <- c(9.9, 10.7, 13.3, 15.2, 16.4, 23.6, 23.5, 21.1, 28.9, 29.1) ## Buchpreis, Zielvariable.
## Das multiple lineare Regressionsmodell Y_i = beta_0 + beta_1 x_1 + beta_2 x_2 + E_i berechnet man
## mit dem Befehl:
fit <- lm(y ~ x1 + x2)
## Die restlichen Befehle sind analog zur einfachen linearen Regression.
\end{lstlisting}
\section{Anhang}
\label{sec:anhang}
\section*{Referenzen}
\begin{enumerate}
\item Skript "Vorlesungsskript Mathematik IV für Agrarwissenschaften, Erdwissenschaften, Lebensmittelwissenschaften und Umweltnaturwissenschaften", Dr. Jan Ernest, HS19 \\
\item Statistik\_MatheIV.pdf, scmelina, HS18
\item ZF\_Statistik\_ClemenceBoutry.pdf ,clboutry, FS16
\end{enumerate}
\section*{Bildquellen}
\begin{itemize}
\item Abb. \ref{fig:poisson-approx}: Skbkekas, \url{https://upload.wikimedia.org/wikipedia/commons/1/16/Poisson_pmf.svg}
\item Abb. \ref{fig:histogram}: DanielPenfield, \url{https://upload.wikimedia.org/wikipedia/commons/c/c3/Histogram_of_arrivals_per_minute.svg}
\item Abb. \ref{fig:boxplot}: towardsdatascience.com, \url{https://towardsdatascience.com/understanding-boxplots-5e2df7bcbd5}
\item Abb. \ref{fig:scatter}: DanielPenfield, \url{https://upload.wikimedia.org/wikipedia/commons/a/af/Scatter_diagram_for_quality_characteristic_XXX.svg}
\item Abb. \ref{fig:kumulative}: Skript
\item Abb. \ref{fig:sreg}: Skript
\end{itemize}
\doclicenseImage \\
Dieses Dokument ist unter (CC BY-SA 4.0) freigegeben \\
\faGlobe \kern 1em \url{https://n.ethz.ch/~jannisp} \\
\faGit \kern 0.88em \url{https://git.thisfro.ch/thisfro/statistik-zf} \\
Jannis Portmann, HS19
\end{multicols*}
\end{document}