1421 lines
58 KiB
TeX
1421 lines
58 KiB
TeX
\documentclass[8pt,landscape]{extarticle}
|
||
\usepackage{multicol}
|
||
\usepackage{calc}
|
||
\usepackage{ifthen}
|
||
\usepackage[a4paper, landscape]{geometry}
|
||
\usepackage{hyperref}
|
||
\usepackage{ccicons}
|
||
\usepackage{amsmath, amsfonts, amssymb, amsthm}
|
||
\usepackage{listings}
|
||
\usepackage{xcolor}
|
||
\usepackage[ngerman]{babel}
|
||
\usepackage{graphicx}
|
||
\usepackage{multirow}
|
||
\usepackage{fontawesome}
|
||
\usepackage{float}
|
||
\usepackage[
|
||
type={CC},
|
||
modifier={by-sa},
|
||
version={3.0},
|
||
]{doclicense}
|
||
|
||
\graphicspath{ {./img/} }
|
||
|
||
\definecolor{codegreen}{rgb}{0,0.6,0}
|
||
\definecolor{codegray}{rgb}{0.5,0.5,0.5}
|
||
\definecolor{codepurple}{rgb}{0.58,0,0.82}
|
||
\definecolor{backcolour}{rgb}{0.9,0.9,0.9}
|
||
|
||
\lstdefinestyle{mystyle}{
|
||
backgroundcolor=\color{backcolour},
|
||
commentstyle=\color{codegreen},
|
||
keywordstyle=\color{magenta},
|
||
numberstyle=\tiny\color{codegray},
|
||
stringstyle=\color{codepurple},
|
||
basicstyle=\ttfamily\footnotesize,
|
||
breakatwhitespace=false,
|
||
breaklines=true,
|
||
captionpos=b,
|
||
keepspaces=true,
|
||
numbers=left,
|
||
numbersep=5pt,
|
||
showspaces=false,
|
||
showstringspaces=false,
|
||
showtabs=false,
|
||
tabsize=2
|
||
}
|
||
|
||
\lstset{style=mystyle}
|
||
|
||
% To make this come out properly in landscape mode, do one of the following
|
||
% 1.
|
||
% pdflatex latexsheet.tex
|
||
%
|
||
% 2.
|
||
% latex latexsheet.tex
|
||
% dvips -P pdf -t landscape latexsheet.dvi
|
||
% ps2pdf latexsheet.ps
|
||
|
||
|
||
% If you're reading this, be prepared for confusion. Making this was
|
||
% a learning experience for me, and it shows. Much of the placement
|
||
% was hacked in; if you make it better, let me know...
|
||
|
||
|
||
% 2008-04
|
||
% Changed page margin code to use the geometry package. Also added code for
|
||
% conditional page margins, depending on paper size. Thanks to Uwe Ziegenhagen
|
||
% for the suggestions.
|
||
|
||
% 2006-08
|
||
% Made changes based on suggestions from Gene Cooperman. <gene at ccs.neu.edu>
|
||
|
||
|
||
% To Do:
|
||
% \listoffigures \listoftables
|
||
% \setcounter{secnumdepth}{0}
|
||
|
||
|
||
% This sets page margins to .5 inch if using letter paper, and to 1cm
|
||
% if using A4 paper. (This probably isn't strictly necessary.)
|
||
% If using another size paper, use default 1cm margins.
|
||
\ifthenelse{\lengthtest { \paperwidth = 11in}}
|
||
{ \geometry{top=.5in,left=.5in,right=.5in,bottom=.5in} }
|
||
{\ifthenelse{ \lengthtest{ \paperwidth = 297mm}}
|
||
{\geometry{top=1cm,left=1cm,right=1cm,bottom=1cm} }
|
||
{\geometry{top=1cm,left=1cm,right=1cm,bottom=1cm} }
|
||
}
|
||
|
||
% Turn off header and footer
|
||
\pagestyle{plain}
|
||
\footskip{} % Left empty on purpose
|
||
|
||
% Redefine section commands to use less space
|
||
\makeatletter
|
||
\newcommand\sbullet[1][.5]{\mathbin{\vcenter{\hbox{\scalebox{#1}{$\bullet$}}}}}
|
||
\renewcommand{\section}{\@startsection{section}{1}{0mm}%
|
||
{-1ex plus -.5ex minus -.2ex}%
|
||
{0.5ex plus .2ex}%x
|
||
{\normalfont\large\bfseries}}
|
||
\renewcommand{\subsection}{\@startsection{subsection}{2}{0mm}%
|
||
{-1explus -.5ex minus -.2ex}%
|
||
{0.5ex plus .2ex}%
|
||
{\normalfont\normalsize\bfseries}}
|
||
\renewcommand{\subsubsection}{\@startsection{subsubsection}{3}{0mm}%
|
||
{-1ex plus -.5ex minus -.2ex}%
|
||
{1ex plus .2ex}%
|
||
{\normalfont\small\bfseries}}
|
||
\makeatother
|
||
|
||
% Define BibTeX command
|
||
\def\BibTeX{{\rm B\kern-.05em{\sc i\kern-.025em b}\kern-.08em
|
||
T\kern-.1667em\lower.7ex\hbox{E}\kern-.125emX}}
|
||
|
||
% Don't print section numbers
|
||
% \setcounter{secnumdepth}{0}
|
||
|
||
|
||
\setlength{\parindent}{0pt}
|
||
\setlength{\parskip}{0pt plus 0.5ex}
|
||
|
||
\lstset{language=R}
|
||
|
||
% -----------------------------------------------------------------------
|
||
|
||
\begin{document}
|
||
|
||
\raggedright
|
||
\footnotesize
|
||
\begin{multicols*}{3}
|
||
|
||
|
||
% multicol parameters
|
||
% These lengths are set only within the two main columns
|
||
%\setlength{\columnseprule}{0.25pt}
|
||
\setlength{\premulticols}{1pt}
|
||
\setlength{\postmulticols}{1pt}
|
||
\setlength{\multicolsep}{1pt}
|
||
\setlength{\columnsep}{2pt}
|
||
|
||
\begin{center}
|
||
\Large{Statistik ZF} \\
|
||
\small{Mathematik IV, zu VL von Jan Ernest} \\
|
||
\small{Jannis Portmann 2020} \\
|
||
{\ccbysa}
|
||
\end{center}
|
||
|
||
\begin{center}
|
||
\rule{\linewidth}{0.25pt}
|
||
\end{center}
|
||
|
||
\section{Modelle für Zähldaten}
|
||
\subsection{Wahrscheinlichkeitsmodelle}
|
||
\begin{itemize}
|
||
\item Grundraum $\Omega$ mit Elementarereignissen $\omega_i$ (z.B. Augenzahl eines Würfels)
|
||
\item Ereignisse $A$, $B$, $C$, ... (Teilmenge von $\Omega$) (z.B. Kombinationen von Augenzahlen)
|
||
\item Wahrscheinlichkeit für jedes Ereignis $P(A)$, $P(B)$, ...
|
||
\end{itemize}
|
||
|
||
\subsection{Operatoren}
|
||
\begin{itemize}
|
||
\item $A \cup B$ - ODER (inklusiv, "und/oder") \\
|
||
\item $A \cap B$ - UND (Konjunktion) \\
|
||
\item $A^c$ - NICHT (Negation) \\
|
||
\item $A \backslash B = A \cap B^c$ - A UND NICHT B
|
||
\end{itemize}
|
||
|
||
\subsection{Axiome der Wahrscheinlichkeitsrechnug}
|
||
\begin{enumerate}
|
||
\item $P(A) \geq 0$ - Die Wahrscheinlichkeiten sind immer nicht-negativ
|
||
\item $P(\Omega) = 1$ - Das Ereignis $\Omega$ hat Wahrscheinlichkeit eins
|
||
\item $P(A \cup B) = P(A) + P(B)$ falls $A \cap B = \emptyset$ (A und B sind disjunkt), d.h. für alle Ereignisse, die sich gegenseitig ausschliessen.
|
||
\end{enumerate}
|
||
Daraus folgen:
|
||
\begin{itemize}
|
||
\item $P(A^c) = 1 - P(A)$
|
||
\item $P(A \cup B) = P(A) + P(B) - P(A \cap B)$
|
||
\end{itemize}
|
||
|
||
\subsection{Wahrscheinlichkeiten berechnen}
|
||
Für diskrete Wahrscheinlichkeitsmodelle
|
||
\subsubsection{Summe der Elementarereinisse (verschiedene $P(\omega_i)$)}
|
||
$$P(A) = \sum_{\omega \in A} P(\{ \omega \})$$
|
||
|
||
\subsubsection{Laplace-Modell (gleiche $P(\omega_i)$)}
|
||
\label{section:laplace}
|
||
$$P(A)=\frac{|A|}{|\Omega|} = \frac{\mathrm{günstig}}{\mathrm{möglich}}$$
|
||
|
||
\subsection{Unabhängigkeit}
|
||
$A$ und $B$ sind stochastisch unabhängig, wenn gilt:
|
||
$$P(A \cap B) = P(A)P(B)$$
|
||
somit können wir dies annehmen, falls wir wissen, dass $A$ und $B$ nicht kausal voneinander abhängig sind
|
||
|
||
\subsection{Bedingte Wahrscheinlichkeit (Abhängigkeit)}
|
||
\subsubsection{Satz von Bayes}
|
||
$$P(A|B)P(B)=P(B|A)P(A)=P(A \cap B)$$
|
||
somit ist $P(A|B)$ nicht unbedingt $P(B|A)$\footnote{$P(A|B)$: $P(A)$ gegeben $B$}
|
||
|
||
\subsubsection{Gesetz der totalen Wahrscheinlichkeit}
|
||
$$P(B) = \sum_{i=1}^k P(B|A_k)P(A_k)$$
|
||
|
||
\subsubsection{Odds}
|
||
$$\mathrm{odds}(E) = \frac{P(E)}{1-P(E)} = \frac{P(E)}{P(E^c)}$$
|
||
(vgl. Abschnitt \ref{section:laplace})
|
||
$$\mathrm{odds}(E | A) = \frac{P(E | A)}{1-P(E|A)}$$
|
||
|
||
\subsubsection{Odds-Ratio}
|
||
$$\mathrm{OR} = \frac{\mathrm{odds}(E|A)}{\mathrm{odds}(E|B)}$$
|
||
|
||
\subsection{Zufallsvariable}
|
||
$$X(\omega) = x$$
|
||
|
||
\begin{center}
|
||
\begin{tabular}{ll}
|
||
$X$: & $\Omega \rightarrow \mathbb{R}$ \\
|
||
& $\omega \rightarrow X(\omega)$
|
||
\end{tabular}
|
||
\end{center}
|
||
Grossbuchstabe: Funktion, Kleinbuchstabe: Realisierung
|
||
|
||
$$ P(X=x)=P(\{\omega; X(\omega)=x\})= \sum_{\omega;X(\omega)=x} P(\omega)$$
|
||
|
||
So dass $\omega = x$, also einen gewünschten Wert (z.B. Jass: $P(\mathrm{Koenig}) = P(\mathrm{Schilten-Koenig})+P(\mathrm{Schellen-Koenig})+$...
|
||
|
||
\subsection{Diskrete Verteilungen}
|
||
\subsubsection{Kennzahlen}
|
||
\textbf{Erwartungswert}
|
||
$$\mathbb{E}(X) = \sum_{x \in \mathbb{W}_X} x P(X = x)$$
|
||
wobei $\mathbb{W}_x$ der Wertebereich von X ist.
|
||
|
||
\textbf{Varianz}
|
||
$$\mathrm{Var}(X) = \sum_{x \in \mathbb{W}_X}(x-\mathbb{E}(X))^2P(X=x)$$
|
||
|
||
\textbf{Standardabweichung}
|
||
$$\sigma(X) = \sqrt{\mathrm{Var}(X)}$$
|
||
|
||
\subsubsection{Bernoulli-($\pi$)-Verteilung}
|
||
$$P(X = 1) = \pi, P(X = 0) = 1 - \pi, 0 \leq \pi \leq 1$$
|
||
Beschreibt das eintreffen bzw. nicht-eintreffen eines bestimmten Ereignisses.
|
||
|
||
\subsubsection{Binominalverteilung \footnote{Dabei ist $\binom{n}{x} = \frac{n!}{x!(n-x)!}$}}
|
||
$$P(X = x) = \binom{n}{x} \pi^x(1 - \pi)^{n-x}, x \in \mathbb{N}_0$$
|
||
Dabei ist $0 \leq \pi \leq 1$ der Erfolgsparameter der Verteilung. \\
|
||
Notation: $X \sim \mathrm{Bin}(n,\pi)$ ($X$ folgt einer Binominalverteilung mit Parametern $n$ und $\pi$)
|
||
|
||
Zusammenhänge:
|
||
\begin{itemize}
|
||
\item $\mathrm{Bin}(1,\pi) = \mathrm{Bernoulli}(\pi)$
|
||
\item $X_1 \sim \mathrm{Bin}(n_1,\pi); X_2 \sim \mathrm{Bin}(n_2,\pi)$ unabhängig $\Rightarrow S := X_1 + X_2$, dann $S \sim \mathrm{Bin}(n_1+n_2,\pi)$
|
||
\end{itemize}
|
||
|
||
\subsubsection{Poisson-($\lambda$)-verteilung}
|
||
$$P(X = x) = \mathrm{exp}(-\lambda)\frac{\lambda^x}{x!}, x \in \mathbb{N}_0$$
|
||
Dabei sind $\mathbb{E}(X) = \lambda, \mathrm{Var}(X) = \lambda, \sigma(X) = \sqrt{\lambda}$ \\
|
||
Für zwei unabhängige Poisson-Verteilungen $X \sim \mathrm{Poisson(\lambda_x)}, Y \sim \mathrm{Poisson}(\lambda_y)$ ist $X + Y \sim \mathrm{Poisson}(\lambda_x + \lambda_y)$ \\
|
||
Es gilt auch
|
||
$$P(X > n) = P(X \leq n) = 1 - (P(X = 0) + P(X=1) + ... + P(X = n))$$
|
||
|
||
\subsubsection{Geometrische Verteilung}
|
||
Sei $X \sim \mathrm{Poisson}(\pi)$, dann ist
|
||
$$Y = P(X=n) = \pi (1 - \pi)^{n-1}$$
|
||
die Anzahl Fehlversuche bis zu einem erfogreichen Versuch.
|
||
|
||
\subsubsection{Poisson-Approximation der Binomial-Verteilung}
|
||
$X \sim \mathrm{Bin}(n, \pi)$ und $Y \sim \mathrm{Poisson}(\lambda)$, für kleine $\pi$ und grosse $n$ gilt:
|
||
$$P(X=x)=\binom{n}{x}\pi^x(1-\pi^{n-x}) \approx P(Y = x)=\mathrm{exp}(-\lambda)\frac{\lambda^x}{x!}, x \in \mathbb{N}_0$$
|
||
wobei $\lambda = n\pi$
|
||
|
||
\begin{figure}[H]
|
||
\centering
|
||
\includegraphics[width=.15\textwidth]{poisson-approx.png}
|
||
\caption{Poisson Approximation der Binominalverteilung}
|
||
\label{fig:poisson-approx}
|
||
\end{figure}
|
||
|
||
\subsubsection{Diskrete Uniformverteilung}
|
||
$$P(X = x_i) = \frac{1}{n}, i \in \mathbb{N}$$
|
||
$X \sim \mathrm{Uniform}(x_i)$, alle $n$ Ereignisse $x$ sind gleich wahrscheinlich
|
||
|
||
\subsubsection{Hypergeometrische Verteilung}
|
||
Einfluss von entfernten Ereignissen auf Wahrscheinlichkeiten von neuen Ziehungen (ohne Zurücklegen).
|
||
|
||
$$P(X = x)=\frac{\binom{m}{x}\binom{N-m}{n-x}}{\binom{N}{n}}$$
|
||
|
||
$X \sim \mathrm{Hyper}(N,n,m)$, dabei $N$ die total möglichen Ereignisse, $m$ die "Gewinne" und es wird $n$ gezogen.
|
||
|
||
\subsection{Kennwerte}
|
||
\subsubsection{Bernoulli-Verteilung}
|
||
\begin{center}
|
||
\begin{tabular}{rl}
|
||
$\mathbb{E}(X) =$ & $\pi$ \\
|
||
Var$(X) =$ & $\pi(1-\pi)$ \\
|
||
$\sigma_X =$ & $\sqrt{\pi(1-\pi)}$
|
||
\end{tabular}
|
||
\end{center}
|
||
|
||
\subsubsection{Binomialverteilung}
|
||
\begin{center}
|
||
\begin{tabular}{rl}
|
||
$\mathbb{E}(X) =$ & $n\pi$ \\
|
||
Var$(X) =$ & $n\pi(1-\pi)$ \\
|
||
$\sigma_X =$ & $\sqrt{n\pi(1-\pi)}$
|
||
\end{tabular}
|
||
\end{center}
|
||
|
||
\subsubsection{Poisson-Verteilung}
|
||
\begin{center}
|
||
\begin{tabular}{rl}
|
||
$\mathbb{E}(X) =$ & $\lambda$ \\
|
||
Var$(X) =$ & $\lambda$ \\
|
||
$\sigma_X =$ & $\sqrt{\lambda}$
|
||
\end{tabular}
|
||
\end{center}
|
||
|
||
\subsubsection{Geometrische Verteilung}
|
||
\begin{center}
|
||
\begin{tabular}{rl}
|
||
$\mathbb{E}(X) =$ & $\frac{1}{\pi}$ \\
|
||
Var$(X) =$ & $\frac{1-\pi}{\pi^2}$ \\
|
||
$\sigma_X =$ & $\frac{\sqrt{1-\pi}}{\pi}$
|
||
\end{tabular}
|
||
\end{center}
|
||
|
||
\subsubsection{Hypergeometrische Verteilung}
|
||
\begin{center}
|
||
\begin{tabular}{rl}
|
||
$\mathbb{E}(X) =$ & $\frac{nm}{M}$ \\
|
||
Var$(X) =$ & $\frac{nm(N-m)(N-n)}{N^2(N-1)}$ \\
|
||
$\sigma_X =$ & $\sqrt{\frac{nm(N-m)(N-n)}{N^2(N-1)}}$
|
||
\end{tabular}
|
||
\end{center}
|
||
|
||
\begin{center}
|
||
\rule{.5\linewidth}{0.25pt}
|
||
\end{center}
|
||
|
||
\section{Statistik für Zähldaten}
|
||
\begin{enumerate}
|
||
\item \textbf{Grundfragestellung:} Welches ist der zu den Beobachtungen plausibelste Parameterwert? Die Antwort auf diese Frage heisst (Punkt-)Schätzung.
|
||
\item \textbf{Grundfragestellung:} Sind die Beobachtungen kompatibel (statistisch vereinbar) mit einem vorgegebenen Parameterwert? Die Antwort auf diese 2. Grundfrage heisst statistischer Test.
|
||
\item \textbf{Grundfragestellung:} Grundfragestellung: Welche Parameterwerte sind mit den Beobachtungen kompatibel (statistisch vereinbar)? Die Antwort auf diese 3. Grundfrage heisst Vertrauensintervall. Das Vertrauensintervall ist allgemeiner und informativer als ein statistischer Test.
|
||
\end{enumerate}
|
||
|
||
\subsection{Punktschätzung von Parametern}
|
||
$\hat{X}$ bezeichnet den Schätzwert von $X$
|
||
\\ \\
|
||
Bei \textbf{Binominalverteilung}:
|
||
\subsubsection{Momentenmehtode}
|
||
Aus $\mathbb{E}(X) = n\pi \Leftrightarrow \pi = \frac{\mathbb{E}(X)}{x}$, daraus $\hat{\mathbb{E}(X)}=x$ und somit
|
||
$$\hat{\pi} = \frac{x}{n}$$
|
||
\subsubsection{Maximum-Likelihood}
|
||
Vorgehen:
|
||
\begin{itemize}
|
||
\item Funktion $P$ der Wahrscheinlichkeit aufstellen
|
||
\item $\log(P)$
|
||
\item $\frac{\mathrm{d}P}{\mathrm{d}\pi} = 0$
|
||
\item auflösen nach $\pi$
|
||
\end{itemize}
|
||
Dies ist für eine Binominalverteilung ebenfalls $\hat{\pi} = \frac{x}{n}$
|
||
|
||
\subsection{Aufbau statistischer Test}
|
||
$P(X \geq c)$ für verschiedene $c$
|
||
\begin{enumerate}
|
||
\item Modell $X$ erstellen
|
||
\item Nullhypothese \\
|
||
\begin{center}
|
||
\begin{tabular}{ll}
|
||
$H_0$: & $\pi = \pi_0$
|
||
\end{tabular}
|
||
\end{center}
|
||
und Alternativhypothese
|
||
\begin{center}
|
||
\begin{tabular}{ll}
|
||
$H_A$: & $\pi \neq \pi_0$ (zweiseitig) \\
|
||
& $\pi > \pi_0$ (einseitig nach oben) \\
|
||
& $\pi < \pi_0$ (einseitig nach unten)
|
||
\end{tabular}
|
||
\end{center}
|
||
oft ist $H_0: \pi = 1/2$ (= reiner Zufall). Man testet also gegen Zufall.
|
||
\item Teststatistik $T$ (Anzahl treffer bei $n$ Versuchen), Verteilung unter $H_0: T \sim \mathrm{Bin}(n,\pi_0)^3$
|
||
\item Festlegen von Signifikanzniveau $\alpha$ (meist $\alpha = 0.05$ oder $\alpha = 0.01$)
|
||
\item Bestimmung Verwerfungsbereich
|
||
$$K = \begin{cases}
|
||
[0,c_u] \cup [c_0,n] & H_A: \pi \neq \pi_0 \\ [c,n] & H_A: \pi > \pi_0 \\ [0,c] & H_A: \pi < \pi_0
|
||
\end{cases}$$
|
||
\item Testentscheid: Ist $t \in K$? Falls ja wird $H_0$ verworfen, falls nicht wird sie als korrekt angenommen\footnote{Achtung: Das heisst nicht, dass $H_0$ gültig ist! (Falsifizierbarkeit)}
|
||
\end{enumerate}
|
||
|
||
\subsubsection{Fehler 1. und 2. Art}
|
||
\label{sec:fehler12}
|
||
\begin{enumerate}
|
||
\item Art: Fälschliches Verwerfen von $H_0$, obwohl $H_0$ richtig ist.
|
||
\item Art: Fälschliches Beibehalten von $H_0$, obwohl $H_A$ zutrifft.
|
||
\end{enumerate}
|
||
|
||
$$P(\mathrm{Fehler \; 1. \; Art}) = P_{H_0}(X \in K)\leq \alpha$$
|
||
Fehler 1. Art soll möglichst vermieden werden!
|
||
|
||
\subsubsection{Macht (Power)}
|
||
\label{sec:macht}
|
||
$$\mathrm{Macht}:=1-P(\mathrm{Fehler \; 2. \; Art}) = P_{H_A} (X \in K)$$
|
||
Idee: Wie gross muss eine Stichprobe sein, damit mit einer bestimmten Macht $\beta=x$ eine Hypothese bewiesen werden kann auf Signifikanzniveau $\alpha$?
|
||
|
||
\subsubsection{P-Wert}
|
||
Der P-Wert ist ein Wert zwischen 0 und 1, der angibt, wie gut Nullhypothese und Daten zusammenpassen.
|
||
|
||
\subsubsection{Vertrauensintervall (VI)}
|
||
\label{sec:vertrauensintervall}
|
||
$$I:=\{\pi_0;\; \mathrm{Nullhypothese} \; H_0:\pi = \pi_0 \mathrm{wird \; beibehalten}\}$$
|
||
Die Werte von $\pi_0$ bei denen $H_0: \pi = \pi_0$ nicht verworfen wird, ist ein $(1-\alpha)$-VI.
|
||
$$P_\pi(\pi \in I(X) \gtrapprox 1-\alpha)$$
|
||
Ein $(1-\alpha)$-VI, enthält den wahren Parameter $\pi$ mit einer Wahrscheinlichkeit von $(1-\alpha)$
|
||
|
||
\begin{center}
|
||
\rule{.5\linewidth}{0.25pt}
|
||
\end{center}
|
||
|
||
\section{Modelle und Statistik für Zähldaten}
|
||
\subsection{Deskriptive Statistik}
|
||
\subsubsection{Kennzahlen}
|
||
\textbf{Arithmetisches Mittel}
|
||
$$\bar{x} = \frac{1}{n}\sum_{i=1}^nx_i$$
|
||
|
||
\textbf{Empirische Standardabweichung}
|
||
$$s_x = \sqrt{\mathrm{Var}} = \sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2}$$
|
||
|
||
\textbf{Quantile} \\
|
||
$\alpha$-Quantil \\
|
||
"Wert $x$ bei dem $\alpha \cdot 100 \%$-Werte kleiner als $x$ sind"
|
||
|
||
\subsubsection{Kovarianz und Korrelation}
|
||
Gemeinsame Verteilung von zwei Zufallsvariablen $X$ und $Y$ \\
|
||
\textbf{Kovarianz}
|
||
$$\mathrm{Cov}(X,Y)=\mathbb{E}[(X-\mu_x)(Y-\mu_y)] = \mathbb{E}(XY) - \mathbb{E}(X)\mathbb{E}(Y)$$
|
||
es gilt somit auch
|
||
$$\mathrm{Cov}(X,X) = \mathrm{Var}(X)$$
|
||
|
||
\textbf{Korrelation}
|
||
$$\mathrm{Cor}(X,Y)=\rho_{XY} = \frac{\mathrm{Cov}(X,Y)}{\sigma_X\sigma_Y}$$
|
||
wobei $\rho_{XY} \in [-1,1]$ \\
|
||
Falls $X, Y$ unabhängig $\mathrm{Cor}(X,Y) = 0$.\footnote{Aber dies bedeutet nicht, dass falls $\mathrm{Cor}(X,Y) = 0$, $X$ und $Y$ dann unabhängig sind!}
|
||
|
||
\textbf{Empirische Korrelation}
|
||
$$r = \frac{s_{xy}}{s_xs_y}$$
|
||
wobei $s_{xy} = \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{n-1}$
|
||
|
||
\subsubsection{Grafische Methoden}
|
||
\textbf{Histogramme} \\
|
||
Einteilung in Klassen, auftragen der Beobachtugen je Klasse in Balkendiagramm
|
||
\begin{figure}[H]
|
||
\centering
|
||
\includegraphics[width=.2\textwidth]{histogram.png}
|
||
\caption{Histogramm}
|
||
\label{fig:histogram}
|
||
\end{figure}
|
||
|
||
\textbf{Boxplot} \\
|
||
Rechteck, vom 75\%- und 25\%-Quantil begrenzt
|
||
\begin{figure}[H]
|
||
\centering
|
||
\includegraphics[width=.2\textwidth]{boxplot.png}
|
||
\caption{Beispiel Boxplot (IQR = Interquartile-Range)}
|
||
\label{fig:boxplot}
|
||
\end{figure}
|
||
|
||
\textbf{Streudiagramm (Scatter-Plot)} \\
|
||
Auftragen der Daten $(x_n,y_n)$
|
||
|
||
\begin{figure}[H]
|
||
\centering
|
||
\includegraphics[width=.15\textwidth]{scatter.png}
|
||
\caption{Streudigramm}
|
||
\label{fig:scatter}
|
||
\end{figure}
|
||
|
||
\subsection{Stetige Zufallsvariablen und Wahrscheinlichkeitsverteilungen}
|
||
Eine Zufallsvariable $X$ heisst stetig, falls deren Wertebereich $\mathbb{W}_X$ stetig ist \\
|
||
Da Punktverteilung
|
||
$$P(X=x) = 0, \forall x \in \mathbb{W}_X, \footnote{Da in jedem kontunuierlichen Intervall $\infty$ Werte sind}$$
|
||
benötigen wir
|
||
$$P(X \in (a,b]) = P(a < X \leq b)$$
|
||
\textbf{Kumulative Verteilungsfunktion}
|
||
$$F(x) = P(X \leq x)$$
|
||
|
||
\begin{figure}[H]
|
||
\centering
|
||
\includegraphics[width=.2\textwidth]{kumulative.png}
|
||
\caption{Kumulative Verteilungsfunktion}
|
||
\label{fig:kumulative}
|
||
\end{figure}
|
||
|
||
\subsubsection{(Wahrscheinlichkeits-)Dichte)}
|
||
$$f(x) = \dot{F}(x) \Longleftrightarrow F(x) = \int_{-\infty}^xf(y)\mathrm{d}y$$
|
||
|
||
\subsection{Kennzahlen von stetigen Verteilungen}
|
||
\begin{center}
|
||
\begin{tabular}{rl}
|
||
$\mathbb{E}(X) =$ & $\int_{-\infty}^{\infty}xf(x)\mathrm{d}x$ \\
|
||
Var$(X) =$ & $\mathbb{E}((X-\mathbb{E}(X))^2) = \int_{-\infty}^{\infty}(x-\mathbb{E}(X))^2f(x)\mathrm{d}x$ \\
|
||
$\sigma(X) =$ & $\sqrt{\mathrm{Var}(X)}$
|
||
\end{tabular}
|
||
\end{center}
|
||
|
||
\subsubsection{Quantile}
|
||
$$P(X \leq q(\alpha)) = \alpha$$
|
||
$q(\alpha)$ ist der Punkt, an dem die Fläche unter der Dichtefunktion $f(x)$ von $-\infty$ bis $q(\alpha)$ gleich $\alpha$ ist. (z.B. beim Median ($\alpha = 50\%$) sind die Flächen darunter und darüber gleich gross)
|
||
|
||
\subsection{Stetige Verteilungen}
|
||
\subsubsection{Uniforme Verteilung}
|
||
$X \sim \mathrm{Uniform}([a,b]), \mathbb{W}_X = [a,b]$
|
||
$$f(x) = \begin{cases}
|
||
\frac{1}{b-a}, \; \mathrm{falls} \; a \leq x \leq b \\
|
||
0, \;\;\;\;\;\;\, \mathrm{sonst} %uglyAF
|
||
\end{cases}$$
|
||
somit ist die kumulative Verteilung
|
||
$$F(x) = \begin{cases}
|
||
0, \;\;\;\;\;\;\, \mathrm{falls} \; x < a \\
|
||
\frac{x-a}{b-a}, \; \mathrm{falls} \; a \leq x \leq b \\
|
||
1, \;\;\;\;\;\;\, \mathrm{falls} \; x > b
|
||
\end{cases}$$
|
||
\textbf{Kennzahlen}
|
||
\begin{center}
|
||
\begin{tabular}{rl}
|
||
$\mathbb{E}(X) =$ & $\frac{a+b}{2}x$ \\
|
||
Var$(X) =$ & $\frac{(b-a)^2}{12}$ \\
|
||
$\sigma_X =$ & $\frac{b-a}{\sqrt{12}}$
|
||
\end{tabular}
|
||
\end{center}
|
||
|
||
\subsubsection{Exponential-Verteilung}
|
||
$X \sim \mathrm{Exp}(\lambda), \mathbb{W}_X = [0,\infty), \lambda \in \mathbb{R}^+$
|
||
$$f(x) = \begin{cases}
|
||
\lambda e^{-\lambda x}, \; \mathrm{falls} \; x \geq 0 \\
|
||
0, \;\;\;\;\;\;\;\;\;\; \mathrm{sonst} %uglyAF
|
||
\end{cases}$$
|
||
also
|
||
$$F(x) = \begin{cases}
|
||
1 - e^{-\lambda x}, \; \mathrm{falls} \; x \geq 0 \\
|
||
0, \;\;\;\;\;\;\;\;\;\;\;\;\;\, \mathrm{falls} \; x < 0
|
||
\end{cases}$$
|
||
|
||
\textbf{Kennzahlen}
|
||
\begin{center}
|
||
\begin{tabular}{rl}
|
||
$\mathbb{E}(X) =$ & $\frac{1}{\lambda}x$ \\
|
||
Var$(X) =$ & $\frac{1}{\lambda^2}$ \\
|
||
$\sigma_X =$ & $\frac{1}{\lambda}$
|
||
\end{tabular}
|
||
\end{center}
|
||
|
||
\subsubsection{Normalverteilung (Gauss'sche-Verteilung)}
|
||
$X \sim \mathcal{N}(\mu,\sigma^2), \mathbb{W}_X = \mathbb{R}, \mu \in \mathbb{R} \; \mathrm{und} \; \sigma \in \mathbb{R}^+$
|
||
$$f(x) = \frac{1}{\sigma\sqrt{2\pi}}\mathrm{exp}\bigg(-\frac{(x-\mu)^2}{2\sigma^2}\bigg)$$
|
||
$$F(x) \Rightarrow \mathrm{Tabelle!}$$
|
||
\textbf{Kennzahlen}
|
||
\begin{center}
|
||
\begin{tabular}{rl}
|
||
$\mathbb{E}(X) =$ & $\mu$ \\
|
||
Var$(X) =$ & $\sigma^2$ \\
|
||
$\sigma_X =$ & $\sigma$
|
||
\end{tabular}
|
||
\end{center}
|
||
|
||
\subsubsection{Standard-Normalverteilung}
|
||
$X \sim \mathcal{N}(0,1), \mathbb{W}_X = \mathbb{R}, \mu = 0 \; \mathrm{und} \; \sigma = 1$
|
||
$$\varphi (x) = \frac{1}{\sqrt{2\pi}}\mathrm{exp}\bigg(-\frac{x^2}{2}\bigg)$$
|
||
$$\Phi(x) = \int_{-\infty}^x\varphi(y)\mathrm{d}y$$
|
||
|
||
$$\Phi(-c) = P(X \leq -c) = P(X \geq c) = 1-P(X \leq c) = 1 - \Phi(c)$$
|
||
|
||
\subsection{Funktionen einer Zufallsvariable}
|
||
Sei $g: \mathbb{R} \rightarrow \mathbb{R}$ und $X$ eine Zufallsvariable, so ist
|
||
$$Y = g(X)$$
|
||
eine Transformation.
|
||
|
||
$$\mathbb{E}(Y) = \mathbb{E}(g(X)) = \int_{-\infty}^{\infty}g(x)f_X(x) \mathrm{d}x$$
|
||
|
||
\subsubsection{Lineare Transformation}
|
||
Sei $X \sim \mathcal{N}(\sigma,\omega^2)$ und $Y = a+bX$ \\
|
||
dann sind
|
||
\begin{center}
|
||
\begin{tabular}{rl}
|
||
$\mathbb{E}(Y) =$ & $a +b\mathbb{E}(X)$ \\
|
||
Var$(Y) =$ & $b^2 \cdot \mathrm{Var}(X)$ \\
|
||
$\sigma_Y =$ & $b \cdot \sqrt{\mathrm{Var}(X)}$ \\
|
||
$q_Y(\alpha) =$ & $a+b\cdot q_X(\alpha)$
|
||
\end{tabular}
|
||
\end{center}
|
||
|
||
\subsubsection{Standardisieren einer Zufallsvariable}
|
||
Überführen von $X$ in eine \textit{Standard-Normalverteilung} $(\mathbb{E} = 0, \sigma = 1)$
|
||
$$Z = g(X) = \frac{X-\mathbb{E}(X)}{\sigma_X} = \frac{X-\mu}{\sigma} \sim \mathcal{N}(0,1)$$
|
||
|
||
\subsubsection{Lognormal-Verteilung}
|
||
Sei $Y \sim \mathcal{N}(\mu,\sigma^2)$ dann soll $X = \mathrm{exp}(Y)$ mit $\mu \in \mathbb{R}$ und $\sigma \in \mathbb{R}^+$
|
||
$$\mathbb{E}(X) = \mathrm{exp}(\mu + \frac{\sigma^2}{2}) > \mathrm{exp}(\mathbb{E}(Y))$$
|
||
|
||
\subsubsection{Berechnung von Momenten}
|
||
Das $k$-te Moment ist gegeben als
|
||
$$m_k = \mathbb{E}(X^k)$$
|
||
also z.B.
|
||
$$m_2 = \mathbb{E}(X^2) = \int_{-\infty}^\infty x^2 f(x) \mathrm{d}x$$
|
||
|
||
Verschiebungssatz für die Varianz:
|
||
$$\mathrm{Var}(X) = \mathbb{E}(X^2) - \mathbb{E}(X)^2$$
|
||
|
||
\subsection{Überprüfen der Normalverteilungs-Annahme}
|
||
\subsubsection{Q-Q Plot (Quantil-Quantil Plot)}
|
||
Man plottet die empirischen Quantile gegen die theoretischen Quantile der Modell-Verteilung. Die Punkte sollten ungefähr auf der Winkelhalbierenden $y = f(x) = x$ liegen.
|
||
|
||
\subsubsection{Normal-Plot}
|
||
\label{sec:normalplot}
|
||
Für Klassen von Verteilungen, z.B. Klasse der Normalverteilungen mit verschiedenen $\mu, \sigma$. \\
|
||
Sei $X \sim \mathcal{N}(\mu, \sigma^2)$, dann sind die Quantile von X
|
||
$$q(\alpha) = \mu + \sigma \Phi^{-1}(\alpha)$$
|
||
Ein \textit{Q-Q Plot} bei dem die Modell-Verteilung gleich $\mathcal{N}(0,1)$ ist, heisst Normal-Plot.
|
||
|
||
\subsection{Funktionen von mehreren Zufallsvariablen}
|
||
Statt einer Zufallsvariale $X$ und deren $n$ unabhängigen Realisierungen $x_1, x_2, ... , x_n$, nimmt man oft $X_1, X_2, ... , X_n$. Somit wird $y = g(x_1, x_2, ... , x_n)$ zu einer Funktion von Zufallsvariablen
|
||
$$Y = g(X_1, X_2, ... , X_n)$$
|
||
|
||
\subsubsection{Unabhängigkeit und i.i.d. Annahme}
|
||
Unabhängig heisst, dass es keine gemeinsamen Prozesse gibt, die den Ausgang beeinflussen. \\
|
||
\textit{Notation}:
|
||
$$X_1,X_2,...,X_n \; \mathrm{i.i.d}$$
|
||
wobei \textit{i.i.d} für "independent, identically distributed" steht. \\
|
||
Es gilt dann immer
|
||
$$\mathbb{E}(X_1 + X_2) = \mathbb{E}(X_1) + \mathbb{E}(X_2)$$
|
||
wenn $X_1,X_2$ unabhängig, auch
|
||
$$\mathrm{Var}(X_1 + X_2) = \mathrm{Var}(X_1) + \mathrm{Var}(X_2),$$
|
||
für nicht unabhängig
|
||
$$\mathrm{Var}(aX_1 + bX_2) = a^2\mathrm{Var}(X_1) + b^2 \mathrm{Var}(X_2) + 2ab\mathrm{Cov}(X_1,X_2).$$
|
||
|
||
\subsubsection{Gesetz der grossen Zahlen und $\sqrt{n}$-Gesetz}
|
||
Sei $X_1, X_2, ..., X_n \; \mathrm{i.i.d} \sim \mathrm{kumulative \; Verteilungsfunktion} \; F$, dann sind
|
||
\begin{center}
|
||
\begin{tabular}{rcl}
|
||
$\mathbb{E}(\bar{X_n})$ & $=$ & $\mu$ \\
|
||
Var$(\bar{X_n})$ & $=$ & $\frac{\sigma_X^2}{n}$ \\
|
||
$\sigma(\bar{X_n})$ & $=$ & $\frac{\sigma_X}{\sqrt{n}}$
|
||
\end{tabular}
|
||
\end{center}
|
||
Somit sind für eine doppelte Genauigkeit viermal soviele Messwerte nötig. \\
|
||
Standardabweichung von $X_n$ ist der \textit{Standardfehler} des Arithmetischen Mittels.
|
||
$$\bar{X_n} \rightarrow \mu(n\rightarrow\infty)$$
|
||
|
||
\subsubsection{Zentraler Grenzwertsatz}
|
||
Sei $X_1, X_2, ..., X_n \; \mathrm{i.i.d}$, dann gilt
|
||
$$\bar{X_n} = \mathcal{N}(\mu,\frac{\sigma^2_X}{n})$$
|
||
und daraus folgt für die Summe $\sum_{i=1}^nX_i$
|
||
$$S_X \approx \mathcal{N}(n\mu,n\sigma^2).$$
|
||
|
||
Aus
|
||
$$Z_n = \frac{\sqrt{n}(\bar{X_n}-\mu)}{\sigma_X} \sim \mathcal{N}(0,1)$$
|
||
folgt
|
||
$$\forall x: \lim_{n\rightarrow\infty} P(Z_n \leq x) = \Phi(x)$$
|
||
|
||
\subsubsection{Verletzung der Unabhängigkeit}
|
||
Sei $X_1, X_2, ..., X_n \; \neg \; \mathrm{i.i.d}$
|
||
$$\mathbb{E}(\bar{X_n}) = \mu$$
|
||
$$\mathrm{Var}(\bar{X_n}) = \frac{\sigma_X^2}{n}\bigg(1+\frac{1}{n}\sum_{1\leq i \leq j \leq n} \rho_{X_i X_j}\bigg)$$
|
||
mit $\rho_{X_i X_j}$ die Korrelation zwischen $X_i, X_j$ \\
|
||
Die Unabhängigkeit führt dazu, dass die Genauigkeit des arithmetischen Mittels beeinflusst wird!
|
||
|
||
\subsection{Statisitk für eine Stichprobe}
|
||
% Wasn't able to fit it into the third-columns
|
||
Siehe \textit{Abb. \ref{fig:tests}} im \hyperref[sec:anhang]{Anhang}.
|
||
|
||
\subsubsection{Punktschätzung}
|
||
Betrachtung von Daten $x_1, x_2, ...,x_n$ als Realisierungen von $X_1, X_2, ..., X_n$ i.i.d. \\
|
||
Wenn $\mathbb{E}(X_i) = \mu$ und $\mathrm{Var}(X_i) = \sigma_X^2$ gesucht:
|
||
\begin{center}
|
||
\begin{tabular}{rcl}
|
||
$\hat{\mu}$ & $=$ & $\displaystyle\frac{1}{n}\sum_{i=1}^n X_i = X_n$ \\
|
||
$\hat{\sigma_X}^2$ & $=$ & $\displaystyle\frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X_n})^2$
|
||
\end{tabular}
|
||
\end{center}
|
||
|
||
\subsubsection{z-Test ($\sigma_X$ bekannt)}
|
||
\begin{enumerate}
|
||
\item \textbf{Modell}: $X_i$ ist eine kontunuierliche Messgrösse und Annahme $X_1, X_2, ..., X_n \; \mathrm{i.i.d.} \; \mathcal{N}(\mu, \sigma_X^2)$
|
||
\item \textbf{Nullhypothese}:
|
||
\begin{center}
|
||
\begin{tabular}{cll}
|
||
& $H_0:$ & $\mu = \mu_0$
|
||
\end{tabular}
|
||
\end{center}
|
||
\textbf{Alternativhypothese}:
|
||
\begin{center}
|
||
\begin{tabular}{clll}
|
||
& $H_A:$ & $\mu \neq \mu_0$ & zweiseitig \\
|
||
oder & $H_A:$ & $\mu > \mu_0$ & einseitig \\
|
||
oder & $H_A:$ & $\mu < \mu_0$ & einseitig \\
|
||
\end{tabular}
|
||
\end{center}
|
||
\item \textbf{Teststatistik}:
|
||
$$Z = \frac{(\bar{X_n} - \mu_0)}{\sigma_{X_n}} = \frac{\sqrt{n}(\bar{X_n} - \mu_0)}{\sigma_X} = \frac{\mathrm{beobachtet}-\mathrm{erwartet}}{\mathrm{Standardfehler}}$$
|
||
Verteilung der Teststatistik unter $H_0: Z \sim \mathcal{N}(0,1)$
|
||
\item \textbf{Signifikanzniveau}: $\alpha$
|
||
\item \textbf{Verwerfungsbereich für die Teststatistik}:\\
|
||
$$K=\begin{cases}
|
||
(-\infty,-\Phi^{-1}(1-\frac{\alpha}{2}]\cup [\Phi^{-1}(1-\frac{\alpha}{2}),\infty), \quad \, \mathrm{bei} \; H_A: \mu \neq \mu_0 \\
|
||
(-\infty,-\Phi^{-1}(1-\frac{\alpha}{2}], \qquad\qquad\qquad\qquad\qquad\kern .025em \mathrm{bei} \; H_A: \mu < \mu_0 \\
|
||
[\Phi^{-1}(1-\frac{\alpha}{2}),\infty), \qquad\qquad\qquad\qquad\qquad\quad\kern 0.25em \mathrm{bei} \; H_A: \mu > \mu_0
|
||
\end{cases}$$
|
||
\item \textbf{Testentscheid}:\\
|
||
Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt.
|
||
\end{enumerate}
|
||
|
||
\subsubsection{Fehler 1./2. Art und Macht}
|
||
Es gilt wie in \textit{Kapitel \ref{sec:fehler12}} und \textit{\ref{sec:macht}}. \\
|
||
$$P_{\mu_0}(T \in K) = \alpha$$
|
||
$$P_\mu(T \in K) = \mathrm{Macht}(\mu)$$
|
||
|
||
\subsubsection{t-Test ($\sigma_X$ unbekannt)}
|
||
\label{sec:ttest}
|
||
\begin{enumerate}
|
||
\item \textbf{Modell}: $X_i$ ist eine kontinuierliche Messgrösse und Annahme $X_1, X_2, ..., X_n \; \mathrm{i.i.d.} \; \mathcal{N}(\mu, \sigma_X^2)$
|
||
\item \textbf{Nullhypothese}:
|
||
\begin{center}
|
||
\begin{tabular}{cll}
|
||
& $H_0:$ & $\mu = \mu_0$
|
||
\end{tabular}
|
||
\end{center}
|
||
\textbf{Alternativhypothese}:
|
||
\begin{center}
|
||
\begin{tabular}{clll}
|
||
& $H_A:$ & $\mu \neq \mu_0$ & zweiseitig \\
|
||
oder & $H_A:$ & $\mu > \mu_0$ & einseitig \\
|
||
oder & $H_A:$ & $\mu < \mu_0$ & einseitig \\
|
||
\end{tabular}
|
||
\end{center}
|
||
\item \textbf{Teststatistik}:
|
||
$$\hat{\sigma_X} = \sqrt{\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X_n})^2}$$
|
||
$$T = \frac{\sqrt{n}(\bar{X_n} - \mu_0)}{\hat{\sigma_X}} = \frac{\mathrm{beobachtet}-\mathrm{erwartet}}{\mathrm{geschätzter \; Standardfehler}}$$
|
||
Verteilung der Teststatistik unter $H_0: T \sim t_{n-1}$
|
||
\item \textbf{Signifikanzniveau}: $\alpha$
|
||
\item \textbf{Verwerfungsbereich für die Teststatistik}:\\
|
||
$$K=\begin{cases}
|
||
(-\infty,-t_{n-1;1-\frac{\alpha}{2}}] \cup [t_{n-1;1-\frac{\alpha}{2}},\infty), \quad \;\; \mathrm{bei} \; H_A: \mu \neq \mu_0 \\
|
||
(-\infty,-t_{n-1;1-\frac{\alpha}{2}}], \qquad\qquad\qquad\qquad\kern 1.6em \mathrm{bei} \; H_A: \mu < \mu_0 \\
|
||
[t_{n-1;1-\frac{\alpha}{2}},\infty), \qquad\qquad\qquad\qquad\qquad\quad\kern 0.25em \mathrm{bei} \; H_A: \mu > \mu_0
|
||
\end{cases}$$
|
||
\item \textbf{Testentscheid}:\\
|
||
Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt.
|
||
\end{enumerate}
|
||
|
||
\subsubsection{P-Wert des \textit{t-Tests}}
|
||
\label{sec:pval}
|
||
$$\mathrm{P-Wert} = P(|T| > |t|) = 2\bigg(1-F_{t_{n-1}}\bigg(\frac{\sqrt{n}|\bar{x_n}-\mu_0|}{\hat{\sigma_X}}\bigg)\bigg)$$
|
||
wobei $F_{t_{n-a}}$ die kumulative Verteilungsfunktion der t-Verteilung mit $n-1$ Freiheitsgraden ist ($F_{t_{n-1}}(t) = P(T \leq t),T \sim t_{n-1}$)
|
||
|
||
\subsubsection{Vertrauensintervall für $\mu$}
|
||
Vgl. auch \ref{sec:vertrauensintervall}\\
|
||
Aus
|
||
$$\mu_0 \leq \bar{x_n}+\frac{\hat{\sigma_X}\cdot t_{n-1;1-\frac{\alpha}{2}}}{\sqrt{n}} \mathrm{\; und \;} \mu_0 \geq \bar{x_n}-\frac{\hat{\sigma_X}\cdot t_{n-1;1-\frac{\alpha}{2}}}{\sqrt{n}}$$
|
||
folgt das Intervall
|
||
$$I = \bigg[\bar{x_n} - t_{n-1;1-\frac{\alpha}{2}}\frac{\hat{\sigma_X}}{\sqrt{n}},\bar{x_n} + t_{n-1;1-\frac{\alpha}{2}}\frac{\hat{\sigma_X}}{\sqrt{n}}\bigg]$$
|
||
|
||
\subsubsection{Vorzeichentest}
|
||
\begin{enumerate}
|
||
\item \textbf{Modell}: $X_1, X_2, ..., X_n \; \mathrm{i.i.d.}$ wobei $X_i$ eine beliebige Verteilung hat \\
|
||
\item \textbf{Nullhypothese}:
|
||
$$H_0: \mu = \mu_0 \mathrm{\; (\mu \; ist \; der \; Median)}$$
|
||
\textbf{Alternativhypothese}:
|
||
\begin{center}
|
||
\begin{tabular}{clll}
|
||
& $H_A:$ & $\mu \neq \mu_0$ & zweiseitig \\
|
||
oder & $H_A:$ & $\mu > \mu_0$ & einseitig \\
|
||
oder & $H_A:$ & $\mu < \mu_0$ & einseitig \\
|
||
\end{tabular}
|
||
\end{center}
|
||
\item \textbf{Teststatistik}: \\
|
||
$V$: Anzahl $X_i$ mit $X_i > \mu_0$ \\
|
||
Verteilung der Teststatistik unter $H_0: V \sim \mathrm{Bin}(n,\pi_0)$, mit $\pi_0 = 0.5$
|
||
\item \textbf{Signifikanzniveau}: $\alpha$ \\
|
||
\item \textbf{Verwerfungsbereich für die Teststatistik}: \\
|
||
$$K=\begin{cases}
|
||
[0,c_u] \cup [c_0,n], \quad \;\; \mathrm{bei} \; H_A: \mu \neq \mu_0 \\
|
||
[0,c_u], \qquad\qquad\kern 1.44em \mathrm{bei} \; H_A: \mu < \mu_0 \\
|
||
[c_0,n], \qquad\qquad\quad\kern 0.46em \mathrm{bei} \; H_A: \mu > \mu_0
|
||
\end{cases}$$
|
||
\item \textbf{Testentscheid}: \\
|
||
Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt.
|
||
\end{enumerate}
|
||
|
||
\subsubsection{Wilcoxon-Test}
|
||
Voraussetzung: Realisierungen von $X_1, X_2, ..., X_n \; \mathrm{i.i.d.}$, stetig und symetrisch bezgl. $\mu = \mathbb{E}(X_i)$ \\
|
||
Für Berechnung benutze R (\ref{sec:wilcoxon})
|
||
|
||
\subsection{Statisitk für zwei Stichproben}
|
||
\subsubsection{Gepaarte Stichprobe}
|
||
\label{sec:paired}
|
||
Ligt vor falls:
|
||
\begin{itemize}
|
||
\item beide Versuchsbedingungen an derselben Versuchseinheit eingesetzt werden
|
||
\item oder jeder Versuchseinheit aus der einen Gruppe genau eine Versuchseinheit aus der anderen Gruppe zugeordnet werden kann.
|
||
\end{itemize}
|
||
Die Daten entsprechen
|
||
$$x_1,...x_n \mathrm{unter \; Versuchsbedingung \; 1}$$
|
||
$$y_1,...y_n \mathrm{unter \; Versuchsbedingung \; 2}$$
|
||
wobei dasselbe $n$ für beide nötig ist.
|
||
|
||
\subsubsection{t-Test für gepaarte Stichproben}
|
||
$$d_i = x_i - y_i, i \in \mathbb{N} \leq n$$
|
||
$d_i$ seinen Realisierungen von $D_1,...D_n$ i.i.d. Somit vereinfacht sich die Betrachtung zu einer Variable auf welche wir den \textit{t-Test} aus \ref{sec:ttest} anwenden können.
|
||
|
||
\subsubsection{Ungepaarte Stichproben}
|
||
Falls eine Paarung wie in \ref{sec:paired} nicht möglich ist und die Daten
|
||
$$X_1,...X_n \mathrm{i.i.d}$$
|
||
$$Y_1,...Y_m \mathrm{i.i.d}$$
|
||
entsprechen, wobei $m \neq n$ nicht zwingend notwendig ist. Entscheidend ist, dass $x_i$ und $yi$ zu verschiedenen Versuchseinheiten geören und als unabhängig angenommen werden können.
|
||
|
||
\subsubsection{t-Test für ungepaarte Stichproben}
|
||
\begin{enumerate}
|
||
\item \textbf{Modell}:
|
||
$$X_1,...X_n \mathrm{i.i.d} \sim \mathcal{N}(\mu_X,\sigma^2)$$
|
||
$$Y_1,...Y_m \mathrm{i.i.d} \sim \mathcal{N}(\mu_Y,\sigma^2)$$
|
||
\item \textbf{Nullhypothese}:
|
||
\begin{center}
|
||
\begin{tabular}{cll}
|
||
& $H_0:$ & $\mu_X = \mu_Y$
|
||
\end{tabular}
|
||
\end{center}
|
||
\textbf{Alternativhypothese}:
|
||
\begin{center}
|
||
\begin{tabular}{clll}
|
||
& $H_A:$ & $\mu_X \neq \mu_Y$ & zweiseitig \\
|
||
oder & $H_A:$ & $\mu_X > \mu_Y$ & einseitig \\
|
||
oder & $H_A:$ & $\mu_X < \mu_Y$ & einseitig \\
|
||
\end{tabular}
|
||
\end{center}
|
||
\item \textbf{Teststatistik}:
|
||
$$T = \frac{\bar{X_n}-\bar{Y_m}}{S_{pool}\sqrt{\frac{1}{n}+\frac{1}{m}}}$$
|
||
wobei
|
||
\begin{center}
|
||
\begin{tabular}{rl}
|
||
$\displaystyle S_{pool}$ & $\displaystyle = \sqrt{\frac{1}{n+m-2}\bigg(\sum_{i=1}^n(X_i-\bar{X_n})^2+\sum_{i=1}^m(Y_i-\bar{Y_m})^2\bigg)}$ \\
|
||
& $\displaystyle = \sqrt{\frac{1}{n+m-2}\bigg((n-1)\hat{\sigma_X}^2+(m-1)\hat{\sigma_Y}^2\bigg)}$
|
||
\end{tabular}
|
||
\end{center}
|
||
Verteilung der Teststatistik unter $H_0: T \sim t_{n+m-2}$
|
||
\item \textbf{Signifikanzniveau}: $\alpha$
|
||
\item \textbf{Verwerfungsbereich für die Teststatistik}:\\
|
||
$$K=\begin{cases}
|
||
(-\infty,-t_{n+m-2;1-\frac{\alpha}{2}}] \cup [t_{n+m-2;1-\frac{\alpha}{2}},\infty), \quad \;\; \mathrm{bei} \; H_A: \mu_X \neq \mu_Y \\
|
||
(-\infty,-t_{n+m-2;1-\frac{\alpha}{2}}], \qquad\qquad\qquad\qquad\kern 3.2em \mathrm{bei} \; H_A: \mu_X < \mu_Y \\
|
||
[t_{n+m-2;1-\frac{\alpha}{2}},\infty), \qquad\qquad\qquad\qquad\qquad\quad\kern 2em \mathrm{bei} \; H_A: \mu_X > \mu_Y
|
||
\end{cases}$$
|
||
\item \textbf{Testentscheid}:\\
|
||
Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt.
|
||
\end{enumerate}
|
||
|
||
\subsubsection{Zwei-Stichproben Wilcoxon-Test (Mann-Whitney Test)}
|
||
Seien zwei Stichproben
|
||
$$X_1,...X_n \mathrm{i.i.d} \sim \mathcal{N}(\mu_X,\sigma^2)$$
|
||
$$Y_1,...Y_m \mathrm{i.i.d} \sim \mathcal{N}(\mu_Y,\sigma^2)$$
|
||
und $F_X$ eine beliebige Verteilungsfunktion.
|
||
Wir definieren nun
|
||
$$F_Y(x):=F_X(x-\delta)$$
|
||
was einer verschobenen Funktion von $F_X$ entspricht.
|
||
|
||
|
||
\begin{center}
|
||
\rule{.5\linewidth}{0.25pt}
|
||
\end{center}
|
||
|
||
\section{Regression}
|
||
\subsection{Einfache Lineare Regression}
|
||
\subsubsection{Modell}
|
||
\label{sec:regmod}
|
||
$$y_i = \beta_0 + \beta_1x_i+E_i,$$
|
||
wobei $i \in \mathbb{N} \leq n$, $E_i \sim \mathcal{N}(0,\sigma^2)$, $E_1,...E_n$ i.i.d., $\mathbb{E}(E_i) = 0$ und $\mathrm{Var}(E_i) = \sigma^2$ \\
|
||
$Y$ bezeichnen wir als \textbf{Zielvariable (response variable)}, $x$ als \textbf{erklärende Variable (explanatory/predictor variable)} oder \textbf{Co-Variable (covariate)} und $E_i$ als Störfaktor (zufällig)
|
||
|
||
\begin{figure}[H]
|
||
\centering
|
||
\includegraphics[width=.12\textwidth]{sreg.png}
|
||
\caption{Einfache lineare Regression mit Residuen}
|
||
\label{fig:sreg}
|
||
\end{figure}
|
||
|
||
\subsubsection{Parameterschätzung}
|
||
Das Modell aus \ref{sec:regmod} mit der \textit{Methode der kleinsten Quadrate} liefert
|
||
$$\hat{\beta_0},\hat{\beta_1} \mathrm{\; Minimierung \; von \;} \sum_{i=1}^n(Y_i-(\beta_0+\beta_1x_i))^2,$$
|
||
daraus ergibt sich
|
||
$$\hat{\beta_1} = \frac{\sum_{i=1}^n(Y_i-\bar{Y_n})(x_i-\bar{x_n})}{\sum_{i=1}^n(x_i-\bar{x_n})^2}$$
|
||
und
|
||
$$\hat{\beta_0} = \bar{Y_n} - \hat{\beta_1}\bar{x_n}$$
|
||
dabei gilt
|
||
$$\mathbb{E}(\hat{\beta_0}) = \beta_0, \mathbb{E}(\hat{\beta_1}) = \beta_1$$
|
||
Für den \textbf{Standardfehler} gilt
|
||
$$s(\hat{\beta_1}) = \frac{\sigma}{\sqrt{\sum_{i=1}^n(x_i-\bar{x_n})^2}}.$$
|
||
Die \textbf{Residuen}
|
||
$$R_i = Y_i - (\hat{\beta_0}+\hat{\beta_1)x_i}, i \in \{1,2,...,n\}$$
|
||
somit approximieren wir $E_i \approx R_i$ und daraus
|
||
$$\hat{\sigma}^2 = \frac{1}{n-2}\sum_{i=1}^nR_i^2$$
|
||
|
||
\subsection{Tests und Vertrauensintervalle der einfachen linearen Regression}
|
||
\subsubsection{t-Test in der Regression}
|
||
\begin{enumerate}
|
||
\item \textbf{Modell}: \\
|
||
$$Y_i = \beta_0 + \beta_1x_i + E_i$$ \\
|
||
$$E_1, E_2, ..., E_n \; \mathrm{i.i.d.} \; \mathcal{N}(0, \sigma_X^2)$$
|
||
\item \textbf{Nullhypothese}:
|
||
$$H_0: \beta = 0$$
|
||
\textbf{Alternativhypothese}:
|
||
$$H_A: \beta_1 \neq 0$$
|
||
\item \textbf{Teststatistik}:
|
||
$$T = \frac{\hat{\beta_1}-0}{\hat{s}(\hat{\beta_1})} = \frac{\mathrm{beobachtet}-\mathrm{erwartet}}{\mathrm{geschätzter \; Standardfehler}}$$
|
||
Dabei ist $\hat{s}$ der geschätzte Standardfehler $\sqrt{\widehat{\mathrm{Var}}(\hat{\beta_1})} = \frac{\hat{\sigma}}{\sqrt{\sum_{i=1}^n(x_i-\bar{x_n})^2}}$
|
||
Verteilung der Teststatistik unter $H_0: T \sim t_{n-2}$
|
||
\item \textbf{Signifikanzniveau}: $\alpha$
|
||
\item \textbf{Verwerfungsbereich für die Teststatistik}:\\
|
||
$$K=(-\infty,-t_{n-2;1-\frac{\alpha}{2}}] \cup [t_{n-2;1-\frac{\alpha}{2}},\infty)$$
|
||
\item \textbf{Testentscheid}:\\
|
||
Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt.
|
||
\end{enumerate}
|
||
Analog funktioniert auch ein \textit{t-Test} für $H_0: \beta_0 = 0, H_A: \beta_0 \neq 0$
|
||
|
||
\subsubsection{P-Wert}
|
||
Vgl. dazu \ref{sec:pval}, jedoch anstatt $n-1$ sind es hier $n-2$ Freiheitsgrade. Der P-Wert der Regression wird meist nicht von Hand berechnet (vgl. \ref{sec:rreg}).
|
||
|
||
\subsubsection{Vertrauensintervalle}
|
||
Die zweiseitigen Vertrauensintervalle für $\beta_i (i = 0, 1)$ zum Niveau $1 - \alpha$ sind gegeben durch
|
||
$$[\hat{\beta_i}-\hat{s}(\hat{\beta_i})t_{n-2;1-\frac{\alpha}{2}},\hat{\beta_i}+\hat{s}(\hat{\beta_i})t_{n-2;1-\frac{\alpha}{2}}]$$
|
||
Für grosse $n$ approximieren wir $t_{n-2;1-\frac{\alpha}{2}}$ mit $\Phi^{-1}(1-\frac{\alpha}{2})$, somit für 95\%-Vertruaensintervalle
|
||
$$[\hat{\beta_i}-2\hat{s}(\hat{\beta_i}),\hat{\beta_i}+2\hat{s}(\hat{\beta_i})]$$
|
||
|
||
\subsubsection{Bestimmtheitsmass $R^2$}
|
||
\label{sec:r2}
|
||
Sei $\hat{y_i} = \hat{\beta_0}+\hat{\beta_1}x_i$ der Wert auf der Regressionsgerade am Punkt $x_i$, dann gilt
|
||
$$\underbrace{\sum_{i=1}^n(y_i-\bar{y})^2}_{SS_Y}=\underbrace{\sum_{i=1}^n(y_i-\hat{y_i})^2}_{SS_E}+\underbrace{\sum_{i=1}^n(\hat{y_i}-\bar{y})^2}_{SS_R}$$
|
||
wobei
|
||
\begin{itemize}
|
||
\item $SS_Y$: die totale Variation der Zielvariablen (ohne Einfluss der erklärenden Variablen $x$)
|
||
\item $SS_E$: die Variation des Fehlers (Residuen-Quadratsumme)
|
||
\item $SS_R$: die Variation, welche durch die Regression erklärt wird (Einfluss der erklärenden Variablen $x$).
|
||
\end{itemize}
|
||
|
||
Wir definieren
|
||
$$R^2:=\frac{SS_R}{SS_Y}, R^2 \in [0,1]$$
|
||
als Mass für den Antwil der totalen Variation, welche durch die Regression erklärt wird. \\
|
||
Wenn $R^2$ gegen $1$ geht ist es eine "gute" Regression.
|
||
|
||
$$R^2 = \hat{\rho}_{Y\hat{Y}}^2$$
|
||
|
||
\subsubsection{Vorgehen bei einfacher linearer Regression}
|
||
\begin{enumerate}
|
||
\item Plotten von $Y$ und $x$ in einem Streudiagramm. Überprüfen, ob eine lineare Regression überhaupt sinnvoll ist.
|
||
\item Anpassen der Regressionsgeraden; d.h. Berechnung der Punktschätzer $\beta_0, \beta_1$
|
||
\item Testen ob erklärende Variable $x$ einen Einfluss auf die Zielvariable $Y$ hat mittels \textit{t-Test} für $H_0 : \beta_1 = 0$ und $H_A : \beta_1 \neq 0$. Falls dieser Test ein nicht-signifikantes Ergebnis liefert, so hat die erklärende Variable keinen signifikanten Einfluss auf die Zielvariable.
|
||
\item Testen ob Regression durch Nullpunkt geht mit \textit{t-Test} für $H_0 : \beta_1 = 0$ und $H_A : \beta_1 \neq 0$. Falls dieser Test ein nicht-signifikantes Ergebnis liefert, so kann man das kleinere Modell mit Regression durch Nullpunkt benutzen (ohne Achsenabschnitt $\beta_0$).
|
||
\item Bei Interesse: Angabe von Vertrauensintervallen für $\beta_0$ und $\beta_1$.
|
||
\item Angabe des Bestimmtheitsmass $R^2$. Dies ist in gewissem Sinne eine informellere (und zusätzliche) Quantifizierung als der statistische Test in Punkt 3.
|
||
\item Überprüfen der Modell-Voraussetzungen mittels Residuenanalyse (vgl. \ref{sec:resid}).
|
||
\end{enumerate}
|
||
|
||
\subsection{Residuenanalyse}
|
||
\label{sec:resid}
|
||
\textbf{Annahmen und deren Überprüfung}:
|
||
\begin{enumerate}
|
||
\item $\mathbb{E}(E_i)=0$ (\textit{Tukey-Anscombe Plot}, vgl. \ref{sec:tukey}) \\
|
||
Es gilt $\mathbb{E}(Y_i)=\beta_0+\beta_1x_i+\mathbb{E}(E_i)=\beta_0+\beta_1x_i$, sodass keine systematischen Fehler auftreten können. Dennoch können Abweichungen auftreten (z.B. komplizierte quadr. Verteilung)
|
||
\item $E_1,E_2,...,E_n$ i.i.d. (Plot bzgl. \textit{serieller Korrelation}, \textit{Tukey-Anscombe}) \\
|
||
Die Fehler müssen unabhängig voneinander sein, insbesondere sind $\mathrm{Cor}(E_i,E_j) = 0$ für $i \neq j$, was bedeutet, dass keine \textit{serielle Korrelation} auftritt. Da die Fehler gleich verteilt sein müssen, ist die Varianz der Fehler auch gleich.
|
||
\item $E_1,E_2,...,E_n$ i.i.d. $\mathcal{N}(0,\sigma^2)$ \\
|
||
Es wird angenommen, dass die Fehler normalverteilt sind. Überprüfung mit Normalplot der Residuen.
|
||
\end{enumerate}
|
||
|
||
\subsubsection{Tukey-Anscombe Plot}
|
||
\label{sec:tukey}
|
||
Plotten der Residuen $R_i$ gegen die angepassten Werte $\hat{y_i}$. \\
|
||
Idealerweise sind die Punkte gleichmässig um $0$ gestreut.
|
||
Bei verletzen Modellannehmen können auftreten:
|
||
\begin{itemize}
|
||
\item Kegelförmiges anwachsen von $\hat{y_i}$. Falls $\hat{y_i} > 0$ versuche
|
||
$$\log(Y_i) = \beta_0+\beta_1 x_i + E_i$$
|
||
\item Ausreisser (Versuche robuste Regression)
|
||
\item Unregelmässige Struktur (möglicherweise kein linearer Zusammenhang)
|
||
\end{itemize}
|
||
|
||
\subsubsection{Serielle Korrelation}
|
||
Überprüfung der Unabhängigkeitsannahme der $E_1, E_2, ..., E_n$: Plotten von $r_i$ gegen $i$. \\
|
||
Dabei sollte eine gleichmässige Verteilung um $0$ entstehen.
|
||
|
||
\subsubsection{Normaleplot}
|
||
Wie in \ref{sec:normalplot} erwarten wir möglichst eine Gerade, falls die Fehler normalverteilt sind.
|
||
|
||
\subsection{Multiple lineare Regression}
|
||
Oft sind erklärende Variablen $x_{i,1},...,x_{i,p-1}; (p>2)$
|
||
\subsubsection{Modell}
|
||
$$Y_i = \beta_0 + \sum_{j=1}^{p-1}\beta_jx_{i,j}+E_i, i \in \mathbb{N} \leq n$$
|
||
$$E_1, E_2, ..., E_i \mathrm{\; i.i.d.},\mathbb{E}(E_i)=0, \mathrm{Var}(E_i)=\sigma^2$$
|
||
|
||
In Matrixschreibweise:
|
||
$$\underbrace{Y}_{n \times 1} = \underbrace{X}_{n \times p}\times\underbrace{\beta}_{p \times 1}+\underbrace{E}_{n \times 1}$$
|
||
wobei:
|
||
\begin{itemize}
|
||
\item $Y = (Y_1,...,Y_n)^T$ \\
|
||
\item $X: (n \times p)$-Matrix mit Spaltenvektoren $(1,1,...1)^T,(x_{1,1},x_{2,1},...,x_{n,1})^T,...,(x_{1,p-1},x_{2,p-1},...,x_{n,p-1})^T$\\
|
||
\item $\beta = (\beta_0,...,\beta_{p-1})$, der Parametervektor \\
|
||
\item $E = (E_1, ..., E_n)^T$, der Fehlervektor
|
||
\end{itemize}
|
||
|
||
Somit ist eine \textbf{einfache lineare Regression} \\
|
||
\begin{center}
|
||
\begin{tabular}{ccc}
|
||
$$p = 2,$$ & $$X = \begin{pmatrix}
|
||
1 & x_1 \\
|
||
1 & x_2 \\
|
||
\vdots & \vdots \\
|
||
1 & x_n
|
||
\end{pmatrix},$$ & $$\beta = \begin{pmatrix}
|
||
\beta_0 \\
|
||
\beta_1
|
||
\end{pmatrix}^T$$
|
||
\end{tabular}
|
||
\end{center}
|
||
Analog dazu für \textbf{lineare Regression mit mehreren erklärenden Varablen}
|
||
$Y_i = \beta_0 + \beta_1x_{i,1}+\beta_2x_{i,2} + E_i, i \in \mathbb{N} \leq n$
|
||
\begin{center}
|
||
\begin{tabular}{ccc}
|
||
$$p = 3,$$ & $$X = \begin{pmatrix}
|
||
1 & x_{1,1} & x_{1,2} \\
|
||
1 & x_{2,1} & x_{2,2} \\
|
||
\vdots & \vdots & \vdots \\
|
||
1 & x_{n,1} & x_{n,2}
|
||
\end{pmatrix},$$ & $$\beta = \begin{pmatrix}
|
||
\beta_0 \\
|
||
\beta_1 \\
|
||
\beta_2
|
||
\end{pmatrix}^T$$
|
||
\end{tabular}
|
||
\end{center}
|
||
ebenfalls für \textbf{lineare Regression mit quadratisch erklärenden Varablen}
|
||
$Y_i = \beta_0 + \beta_1x_{i}+\beta_2x_{i}^2 + E_i, i \in \mathbb{N} \leq n$
|
||
\begin{center}
|
||
\begin{tabular}{ccc}
|
||
$$p = 3,$$ & $$X = \begin{pmatrix}
|
||
1 & x_{1} & x_{1}^2 \\
|
||
1 & x_{2} & x_{2}^2 \\
|
||
\vdots & \vdots & \vdots \\
|
||
1 & x_{n} & x_{n}^2
|
||
\end{pmatrix},$$ & $$\beta = \begin{pmatrix}
|
||
\beta_0 \\
|
||
\beta_1 \\
|
||
\beta_2
|
||
\end{pmatrix}^T$$
|
||
\end{tabular}
|
||
\end{center}
|
||
und schlussendlich für eine \textbf{Regression mit transformierten erklärenden Varablen} \\
|
||
$Y_i = \beta_0 + \beta_1\log(x_{i,2})+\beta_2\sin(\pi x_{i,3}) + E_i, i \in \mathbb{N} \leq n$
|
||
\begin{center}
|
||
\begin{tabular}{ccc}
|
||
$$p = 3,$$ & $$X = \begin{pmatrix}
|
||
1 & \log(x_{1,2}) & \sin(\pi x_{1,3}) \\
|
||
1 & \log(x_{2,2}) & \sin(\pi x_{2,3}) \\
|
||
\vdots & \vdots & \vdots \\
|
||
1 & \log(x_{n,2}) & \sin(\pi x_{n,3})
|
||
\end{pmatrix},$$ & $$\beta = \begin{pmatrix}
|
||
\beta_0 \\
|
||
\beta_1 \\
|
||
\beta_2
|
||
\end{pmatrix}^T$$
|
||
\end{tabular}
|
||
\end{center}
|
||
|
||
\subsubsection{Interpretation}
|
||
\begin{itemize}
|
||
\item Bei \textbf{einfacher linearer Regression} ist $\beta_1$ die erwartete Zunahme der Zielgrösse bei Erhöhung von $x_1$ um eine Einheit.
|
||
\item Bei \textbf{multipler linearer Regression} ist $\beta_i$ die erwartete Zunahme der Zielgrösse bei Erhöhung von $x_i$ um eine Einheit - bei \textbf{Fixierung der anderen Variablen}.
|
||
\end{itemize}
|
||
|
||
\subsubsection{Parameterschätzung und t-Test}
|
||
Auch hier benutzen wir die \textit{Methode der kleinsten Quadrate}. \\
|
||
$$\hat{\beta_0},\hat{\beta_1},...,\hat{\beta}_{p-1} \mathrm{\; Minimierung \; von \;} \sum_{i=1}^n(Y_i-(\beta_0+\beta_1x_{i,1}+...+\beta_{p-1}x_{i,p-1}))^2,$$
|
||
falls $p < n$
|
||
$$\hat{\beta} = (X^TX)^{-1}X^TY.$$
|
||
Für die Fehlervarianz
|
||
$$\hat{\sigma} = \frac{1}{n-p}\sum_{i=1}^nR^2_i,R_i = Y_i - \bigg(\hat{\beta}_0+\sum_{j=1}^{p-1}\hat{\beta}_jx_{i,j}\bigg)$$
|
||
|
||
Den \textit{t-Test} können wir analog zur \textit{einfachen Regression} mit
|
||
\begin{center}
|
||
\begin{tabular}{ll}
|
||
$H_0: \beta_j = 0$ & \multirow{2}{*}{$, j \in \mathbb{N} \leq p-1$} \\
|
||
$H_A: \beta_i \neq 0$ &
|
||
\end{tabular}
|
||
\end{center}
|
||
durchführen. Dabei misst $\beta_i$ den linearen Effekt der $i$-ten erklärenden Variable auf Zielvariable $Y$ \textbf{nach Elimination} der linearen Effekte auf $Y$ aller anderen Variablen. Es ist nicht möglich, durch direkte einfach lineare Regression von $Y$ zur $j$-ten erklärenden Variable $\beta_j$ zu erhalten!
|
||
|
||
\subsubsection{F-Test}
|
||
Prüft, ob es mindestens eine erklärende Variable gibt, die einen signifikanten Effekt auf die Zielvariable hat.
|
||
\begin{center}
|
||
\begin{tabular}{lll}
|
||
$H_0:$ & $\beta_1 = ... = \beta_{p-1} = 0$ \\
|
||
$H_A:$ & mindestens ein $\beta_j \neq 0$, & $j \in \mathbb{N} \leq p-1 $
|
||
\end{tabular}
|
||
\end{center}
|
||
|
||
Hier können einzelne Variablen signifikant sein und andere nicht. Bei starker Korrelation zwischen zwei kann man eine weglassen, da keine neue Information.
|
||
|
||
\subsubsection{Bestimmtheitsmass $R^2$}
|
||
Es gilt wie in \ref{sec:r2}
|
||
$$R^2 = \hat{\rho}_{Y\hat{Y}}^2$$
|
||
|
||
\begin{center}
|
||
\rule{.5\linewidth}{0.25pt}
|
||
\end{center}
|
||
|
||
\begin{center}
|
||
\rule{\linewidth}{0.25pt}
|
||
\end{center}
|
||
|
||
\scriptsize
|
||
|
||
\end{multicols*}
|
||
|
||
\newpage
|
||
|
||
\begin{multicols*}{2}
|
||
\section{R}
|
||
\subsection{diskrete Verteilungen}
|
||
\begin{lstlisting}
|
||
# d... berechnet P(X = x)
|
||
# p... berechnet P(X <= x)
|
||
# q... berechnet Quantile der Verteilung
|
||
# r... zieht eine bestimmte Anzahl Realisierungen der gewaehlten Verteilung
|
||
\end{lstlisting}
|
||
|
||
\subsubsection{Binomialverteilung}
|
||
\begin{lstlisting}
|
||
dbinom(x = 5, size = 10, prob = 0.5) # Berechnet P(X = 5) fuer X ~ Binomial(10, 0.5)
|
||
pbinom(q = 5, size = 10, prob = 0.5) # Berechnet P(X <= 5) fuer X ~ Binomial(10, 0.5)
|
||
qbinom(p = 0.2, size = 10, prob = 0.5) # Berechnet das 20%-Quantil fuer X ~ Binomial(10, 0.5)
|
||
rbinom(n = 100, size = 10, prob = 0.5) # Zieht zufaellig n=100 Realisierungen von X ~ Binomial(10, 0.5)
|
||
# (fuehren Sie den oberen Befehl rbinom 2x aus, Sie erhalten andere Werte)
|
||
\end{lstlisting}
|
||
|
||
\subsubsection{Poissonverteilung}
|
||
\begin{lstlisting}
|
||
dpois(x = 5, lambda = 2) # Berechnet P(X = 5) fuer X ~ Poisson(2)
|
||
ppois(q = 5, lambda = 2) # Berechnet P(X <= 5) fuer X ~ Poisson(2)
|
||
qpois(p = 0.2, lambda = 2) # Berechnet das 20%-Quantil fuer X ~ Poisson(2)
|
||
rpois(n = 100, lambda = 2) # Zieht n=100 Realisierungen von X ~ Poisson(2)
|
||
\end{lstlisting}
|
||
|
||
\subsubsection{Binomialtest}
|
||
\begin{lstlisting}
|
||
## Der Binomialtest kann in R mit dem Befehl binom.test(...) durchgefuehrt werden.
|
||
## Die Argumente der Funktion sind:
|
||
## - x: Der beobachtete Wert der Teststatistik
|
||
## - n, p: Die Parameter der Verteilung der Teststatistik (Binomial(n,p)) unter der Nullhypothese
|
||
## - alternative:
|
||
## Die Wahl der Alternativhypothese. Moegliche Optionen sind:
|
||
## - "less" fuer H_A: pi < pi_0
|
||
## - "greater" fuer H_A: pi > pi_0
|
||
## - "two.sided" fuer H_A: pi ungleich pi_0
|
||
## - conf.level:
|
||
## Das Konfidenzniveau fuer das Vertrauensintervall. Entspricht (1 - Signifikanzniveau).
|
||
|
||
## Beispiel:
|
||
## Wir vermuten, dass ein Wuerfel zu viele 6er wuerfelt.
|
||
## Wir haben in 50 Wuerfen 13 mal eine sechs gewuerfelt.
|
||
## Wir moechten auf dem 1%-Signifikanzniveau testen, ob der Wuerfel zu viele 6er wuerfelt.
|
||
binom.test(x = 13, n = 50, p = 1/6, alternative = "greater", conf.level = 0.99)
|
||
\end{lstlisting}
|
||
|
||
\subsection{Kennzahlen}
|
||
\begin{lstlisting}
|
||
## Wir haben folgende Daten beobachtet / gemessen
|
||
x <- c(1.1, 2.3, -2.4, 3.9, 5.1, -1.7, 2.0, -1.1, 3.4, 0.7)
|
||
y <- c(0.8, 2.1, -1.3, 1.0, 0.4, -3.2, 3.1, -0.1, 5.1, 4.3)
|
||
|
||
mean(x) # arithmetisches Mittel
|
||
var(x) # Varianz
|
||
sd(x) # Standardabweichung
|
||
|
||
max(x) # Maximum
|
||
min(x) # Minimum
|
||
|
||
median(x) # Median
|
||
quantile(x, probs = 0.25) # empirisches 25%-Quantil
|
||
|
||
summary(x) # Gibt Ueberblick ueber einige Kennzahlen
|
||
|
||
cor(x,y) # Empirische Korrelatin von x und y
|
||
\end{lstlisting}
|
||
|
||
\subsection{Grafische Methoden}
|
||
\begin{lstlisting}
|
||
plot(x, y) # Streudiagramm von x und y
|
||
hist(x) # Histogramm Typ "Frequency" (siehe VL 8)
|
||
hist(x, freq = FALSE) # Histogramm Typ "Density" (siehe VL 8)
|
||
hist(x, breaks = 10) # mit breaks = ... kann die Anzahl Balken gesteuert werden, siehe Serie 8)
|
||
plot(ecdf(x)) # Empirische kumulative Verteilungsfunktion
|
||
boxplot(x) # Boxplot
|
||
|
||
z <- rnorm(n = 100, mean = 2, sd = 1)
|
||
qqnorm(z) # QQ-Plot, welcher mit den theoretischen Quantilen der N(0,1)-Verteilung vergleicht.
|
||
\end{lstlisting}
|
||
|
||
\subsection{Stetige Verteilungen}
|
||
\subsubsection{Uniformverteilung}
|
||
\begin{lstlisting}
|
||
dunif(x = 2.5, min = 1, max = 3) # Wert der Dichte f(x) von X ~ Uniform([1,3]) an der Stelle x=2.5
|
||
punif(q = 2.5, min = 1, max = 3) # Wert der kum. Verteilungsfkt. F(x) von X ~ Uniform([1,3]) an der Stelle x=2.5
|
||
qunif(p = 0.2, min = 1, max = 3) # 20%-Quantil von X ~ Uniform([1,3])
|
||
runif(n = 100, min = 1, max = 3) # Zieht zufaellig 100 Realisierungen von X ~ Uniform([1,3])
|
||
\end{lstlisting}
|
||
|
||
\subsubsection{Exponentialverteilung}
|
||
\begin{lstlisting}
|
||
dexp(x = 2, rate = 1) # Wert der Dichte f(x) von X ~ Exp(1) an der Stelle x = 2
|
||
pexp(q = 2, rate = 1) # Wert der kum. Verteilungsfunktion F(x) von X ~ Exp(1) an der Stelle x = 2
|
||
qexp(p = 0.2, rate = 1) # 20%-Quantil von X ~ Exp(1)
|
||
rexp(n = 100, rate = 1) # Zieht zufaellig 100 Realisierungen von X ~ Exp(1)
|
||
\end{lstlisting}
|
||
|
||
\subsubsection{Normalverteilung}
|
||
\begin{lstlisting}
|
||
dnorm(x = 3, mean = 1, sd = sqrt(2)) # Wert der Dichte f(x) von X ~ N(1,2) an der Stelle x = 3
|
||
pnorm(q = 3, mean = 1, sd = sqrt(2)) # Wert der kum. VF F(x) von X ~ N(1,2) an der Stelle x = 3
|
||
qnorm(p = 0.2, mean = 1, sd = sqrt(2)) # 20%-Quantil von X ~ N(1,2)
|
||
rnorm(n = 100, mean = 1, sd = sqrt(2)) # Zieht zufaellig 100 Realisierungen von X ~ N(1,2)
|
||
\end{lstlisting}
|
||
|
||
\subsubsection{Standardnormalverteilung}
|
||
\begin{lstlisting}
|
||
dnorm(x = 3) # Wenn man meam = ..., sd = ... nicht angibt, wird eine N(0,1)-Verteilung angenommen.
|
||
pnorm(q = 3)
|
||
qnorm(p = 0.2) # entspricht Phi^{-1}(0.2)
|
||
rnorm(n = 100)
|
||
\end{lstlisting}
|
||
|
||
\subsection{Ein-Stichproben t-Test (gepaart)}
|
||
\begin{lstlisting}
|
||
## Der Ein-Stichproben t-Test kann in R mit dem Befehl t.test(...) durchgefuehrt werden.
|
||
## Die benoetigten Argumente der Funktion sind:
|
||
## - x: Der Vektor mit den beobachteten Werten
|
||
## - mu: Der Wert mu_0 der Nullhypothese
|
||
## - alternative:
|
||
## Die Wahl der Alternativhypothese. Moegliche Optionen sind:
|
||
## - "less" fuer H_A: mu < mu_0
|
||
## - "greater" fuer H_A: mu > mu_0
|
||
## - "two.sided" fuer H_A: mu ungleich mu_0
|
||
## - conf.level:
|
||
## Das Konfidenzniveau fuer das Vertrauensintervall. Entspricht (1 - Signifikanzniveau).
|
||
|
||
t.test(x = x, y = y, alternative = "greater", mu = 0, paired = TRUE, conf.level = 0.95)
|
||
\end{lstlisting}
|
||
|
||
\subsection{Zwei-Stichproben t-Test (ungepaart)}
|
||
\begin{lstlisting}
|
||
## Um in R einen ungepaarten Zwei-Stichproben t-Test durchzufuehren, verwenden
|
||
## Sie ebenfalls die Funktion t.test(...) mit den Argumenten
|
||
|
||
## - x: Der Vektor mit den beobachteten Werten der ersten Stichprobe
|
||
## - y: Der Vektor mit den beobachteten Werten der zweiten Stichprobe
|
||
## - mu: Der Wert mu_0 der Nullhypothese (typischerweise = 0, da Nullhypothese: "Es gibt keinen Unterschied")
|
||
## - alternative:
|
||
## Die Wahl der Alternativhypothese. Moegliche Optionen sind:
|
||
## - "less" fuer H_A: mu_X - mu_Y < mu_0
|
||
## - "greater" fuer H_A: mu_X - mu_Y > mu_0
|
||
## - "two.sided" fuer H_A: mu_X - mu_Y ungleich mu_0
|
||
## - paired = FALSE (ungepaarter Test)
|
||
## - var.equal = TRUE (standardmaessig ist var.equal = FALSE, dann wird ein Welch-Test durchgefuehrt)
|
||
## - conf.level:
|
||
## Das Konfidenzniveau fuer das Vertrauensintervall. Entspricht (1 - Signifikanzniveau).
|
||
|
||
t.test(x = x, y = y, alternative = "two.sided", mu = 80.00, paired = FALSE, conf.level = 0.95)
|
||
\end{lstlisting}
|
||
|
||
\newpage
|
||
|
||
\subsection{Wilcoxon-Test}
|
||
\label{sec:wilcoxon}
|
||
\begin{lstlisting}
|
||
## Ein- und Zwei-Stichproben Wilcoxon Tests stehen in R unter dem Befehl wilcox.test(...) zur Verfuegung.
|
||
## Die Argumente der Funktion sind analog zu denjenigen der t-Tests.
|
||
wilcox.test(x = x, alternative = "greater", mu = 80)
|
||
\end{lstlisting}
|
||
|
||
\subsection{Verteilungen}
|
||
\lstinline{pt} für kumulative Verteilungsfunktion \\
|
||
\lstinline{qt} für Quantile
|
||
|
||
\subsection{Regression}
|
||
\label{sec:rreg}
|
||
\subsubsection{Einfache Lineare Regression}
|
||
\begin{lstlisting}
|
||
## Um in R ein einfaches lineares Regressionsmodell anzupassen, verwendet man den R-Befehl lm(...).
|
||
|
||
## Wir betrachten das Beispiel mit Buchpreis und Seitenzahl aus dem Vorlesungsskript.
|
||
x <- c(50, 100, 150, 200, 250, 300, 350, 400, 450, 500) ## Seitenzahl, erklaerende Variable.
|
||
y <- c(9.9, 10.7, 13.3, 15.2, 16.4, 23.6, 23.5, 21.1, 28.9, 29.1) ## Buchpreis, Zielvariable.
|
||
\end{lstlisting}
|
||
|
||
Eigentliche Regression:
|
||
\begin{lstlisting}
|
||
## Um das lineare Regressionsmodell Y_i = beta_0 + beta_1 x_i + E_i zu fitten, benutzt man
|
||
fit <- lm(y ~ x)
|
||
|
||
## Man kann Achsenabschnitt und Steigung sehen, wenn man sich das Objekt 'fit' anschaut:
|
||
fit
|
||
\end{lstlisting}
|
||
oder
|
||
\begin{lstlisting}
|
||
fit <- lm(y ~ x)
|
||
summary(fit)
|
||
\end{lstlisting}
|
||
liefert den Output
|
||
\begin{lstlisting}
|
||
Residuals:
|
||
Min 1Q Median 3Q Max
|
||
-3.6958 -0.5944 -0.2203 0.9300 3.3048
|
||
|
||
Coefficients:
|
||
Estimate Std. Error t value Pr(>|t|)
|
||
(Intercept) 6.793333 1.391060 4.884 0.00122 **
|
||
x 0.045006 0.004484 10.037 8.25e-06 ***
|
||
---
|
||
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
|
||
|
||
Residual standard error: 2.036 on 8 degrees of freedom
|
||
Multiple R-squared: 0.9264, Adjusted R-squared: 0.9172
|
||
F-statistic: 100.8 on 1 and 8 DF, p-value: 8.254e-06
|
||
\end{lstlisting}
|
||
somit $Y_i = 6.793333 + 0.045006x_i$
|
||
|
||
\textbf{Weitere Plots}
|
||
\begin{lstlisting}
|
||
## Residuenplots erhaelt man einfach mittels
|
||
plot(fit) # man muss in der "Console" mehrmals die Eingabetaste dr¸cken, um die Plots zu sehen.
|
||
|
||
## oder:
|
||
plot(fit$fitted, fit$resid) ## Tukey-Anscombe plot
|
||
qqnorm(fit$residuals) ## qq-Plot der Residuen
|
||
|
||
## 95%-Vertrauensintervalle f¸r Koeffizienten (siehe VL 14, Slide 8)
|
||
confint(fit)
|
||
|
||
## 95%-Vertrauens-/Vorhersageintervalle (siehe VL 14, Slides 9 und 10)
|
||
nd <- data.frame(x=1, y=NA)
|
||
predict(fit, newdata = nd, interval = "confidence") ## Vertrauensintervall
|
||
predict(fit, newdata = nd, interval = "prediction") ## Vorhersageintervall
|
||
|
||
## Nehmen wir an, die Daten befinden sich in einem data.frame (anstelle von zwei Vektoren).
|
||
Daten_Buch <- data.frame(Seitenzahl = x, Buchpreis = y)
|
||
Daten_Buch
|
||
|
||
## Dieselbe Regression wie oben kann man nun berechnen, indem man entweder schreibt:
|
||
fit2 <- lm(Daten_Buch$Buchpreis ~ Daten_Buch$Seitenzahl)
|
||
summary(fit2)
|
||
|
||
## oder alternativ:
|
||
fit3 <- lm(Buchpreis ~ Seitenzahl, data = Daten_Buch)
|
||
summary(fit3)
|
||
|
||
## Alle 3 Varianten (fit, fit2, fit3) liefern exakt dasselbe Resultat.
|
||
\end{lstlisting}
|
||
|
||
\subsubsection{Multiple lineare Regression}
|
||
\begin{lstlisting}
|
||
## Um in R ein multiples lineares Regressionsmodell anzupassen, verwendet man ebenfalls den R-Befehl lm(...).
|
||
|
||
## Wir betrachten das Beispiel mit Buchpreis und Seitenzahl aus dem Vorlesungsskript, moechten nun jedoch
|
||
## als zweite erklaerende Variable noch das Erscheinungsjahr des Buches ins Modell aufnehmen.
|
||
|
||
x1 <- c(50, 100, 150, 200, 250, 300, 350, 400, 450, 500) ## Seitenzahl, erklaerende Variable 1.
|
||
x2 <- c(2017, 1999, 2013, 2004, 2001, 1979, 2018, 2008, 2015, 2002) ## Erscheinungsjahr, erklaerende Variable 2.
|
||
y <- c(9.9, 10.7, 13.3, 15.2, 16.4, 23.6, 23.5, 21.1, 28.9, 29.1) ## Buchpreis, Zielvariable.
|
||
|
||
## Das multiple lineare Regressionsmodell Y_i = beta_0 + beta_1 x_1 + beta_2 x_2 + E_i berechnet man
|
||
## mit dem Befehl:
|
||
fit <- lm(y ~ x1 + x2)
|
||
|
||
## Die restlichen Befehle sind analog zur einfachen linearen Regression.
|
||
\end{lstlisting}
|
||
|
||
\section{Anhang}
|
||
\label{sec:anhang}
|
||
\begin{figure}[H]
|
||
\begin{tabular}{l|llll|c|c}
|
||
\hline
|
||
\multirow{2}{*}{} & \multicolumn{4}{c}{Annahmen} & \multicolumn{1}{|c}{\multirow{2}{*}{\begin{tabular}{l}$n_\mathrm{min}$ bei \\ $\alpha = 0.05$\end{tabular}}} & \multicolumn{1}{|c}{\multirow{2}{*}{\begin{tabular}{c}Macht \\ für Bsp.\end{tabular}}} \\
|
||
& \multicolumn{1}{c}{\begin{tabular}{c}$\sigma_X$ \\ bekannt\end{tabular}} & \multicolumn{1}{c}{$X_i \sim \mathcal{N}$} & \multicolumn{1}{c}{\begin{tabular}{c}sym. \\ Verteilung\end{tabular}} & \multicolumn{1}{c}{i.i.d.} & \multicolumn{1}{|c|}{} & \multicolumn{1}{c}{} \\
|
||
\hline\hline
|
||
z-Test & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c|}{$\sbullet$} & 1 & 89\% \\
|
||
t-Test & & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c|}{$\sbullet$} & 2 & 79\% \\
|
||
Wilcoxon & & & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c|}{$\sbullet$} & 6 & 79\% \\
|
||
Vorzeichen & & & & \multicolumn{1}{c|}{$\sbullet$} & 5 & 48\% \\
|
||
\hline
|
||
\end{tabular}
|
||
\caption{Übersicht der verschiedenen Tests für $\mu$}
|
||
\label{fig:tests}
|
||
\end{figure}
|
||
|
||
\section*{Referenzen}
|
||
\begin{enumerate}
|
||
\item Skript "Vorlesungsskript Mathematik IV für Agrarwissenschaften, Erdwissenschaften, Lebensmittelwissenschaften und Umweltnaturwissenschaften", Dr. Jan Ernest, HS19 \\
|
||
\item Statistik\_MatheIV.pdf, scmelina, HS18
|
||
\item ZF\_Statistik\_ClemenceBoutry.pdf ,clboutry, FS16
|
||
\end{enumerate}
|
||
|
||
\section*{Bildquellen}
|
||
\begin{itemize}
|
||
\item Abb. \ref{fig:poisson-approx}: Skbkekas, \url{https://upload.wikimedia.org/wikipedia/commons/1/16/Poisson_pmf.svg}
|
||
\item Abb. \ref{fig:histogram}: DanielPenfield, \url{https://upload.wikimedia.org/wikipedia/commons/c/c3/Histogram_of_arrivals_per_minute.svg}
|
||
\item Abb. \ref{fig:boxplot}: towardsdatascience.com, \url{https://towardsdatascience.com/understanding-boxplots-5e2df7bcbd5}
|
||
\item Abb. \ref{fig:scatter}: DanielPenfield, \url{https://upload.wikimedia.org/wikipedia/commons/a/af/Scatter_diagram_for_quality_characteristic_XXX.svg}
|
||
\item Abb. \ref{fig:kumulative}: Skript
|
||
\item Abb. \ref{fig:sreg}: Skript
|
||
\end{itemize}
|
||
|
||
\doclicenseImage \\
|
||
\faGlobe \kern 1em \url{https://n.ethz.ch/~jannisp} \\
|
||
\faGit \kern 0.88em \url{https://git.thisfro.ch/thisfro/statistik-zf} \\
|
||
Jannis Portmann, HS19
|
||
\end{multicols*}
|
||
|
||
\end{document}
|