2020-01-03 15:21:09 +01:00
\documentclass [8pt,landscape] { extarticle}
\usepackage { multicol}
\usepackage { calc}
\usepackage { ifthen}
\usepackage [a4paper, landscape] { geometry}
\usepackage { hyperref}
\usepackage { ccicons}
\usepackage { amsmath, amsfonts, amssymb, amsthm}
\usepackage { listings}
\usepackage { xcolor}
2020-01-06 11:24:33 +01:00
\usepackage [ngerman] { babel}
2020-01-03 15:21:09 +01:00
\usepackage { graphicx}
\usepackage { multirow}
2020-01-06 11:24:33 +01:00
\usepackage { fontawesome}
2020-01-03 15:21:09 +01:00
\usepackage { float}
\usepackage [
type={ CC} ,
2020-01-06 11:24:33 +01:00
modifier={ by-sa} ,
2020-01-03 15:21:09 +01:00
version={ 3.0} ,
]{ doclicense}
\graphicspath { { ./img/} }
\definecolor { codegreen} { rgb} { 0,0.6,0}
\definecolor { codegray} { rgb} { 0.5,0.5,0.5}
\definecolor { codepurple} { rgb} { 0.58,0,0.82}
\definecolor { backcolour} { rgb} { 0.9,0.9,0.9}
\lstdefinestyle { mystyle} {
backgroundcolor=\color { backcolour} ,
commentstyle=\color { codegreen} ,
keywordstyle=\color { magenta} ,
numberstyle=\tiny \color { codegray} ,
stringstyle=\color { codepurple} ,
basicstyle=\ttfamily \footnotesize ,
breakatwhitespace=false,
breaklines=true,
captionpos=b,
keepspaces=true,
numbers=left,
numbersep=5pt,
showspaces=false,
showstringspaces=false,
showtabs=false,
tabsize=2
}
\lstset { style=mystyle}
% To make this come out properly in landscape mode, do one of the following
% 1.
% pdflatex latexsheet.tex
%
% 2.
% latex latexsheet.tex
% dvips -P pdf -t landscape latexsheet.dvi
% ps2pdf latexsheet.ps
% If you're reading this, be prepared for confusion. Making this was
% a learning experience for me, and it shows. Much of the placement
% was hacked in; if you make it better, let me know...
% 2008-04
% Changed page margin code to use the geometry package. Also added code for
% conditional page margins, depending on paper size. Thanks to Uwe Ziegenhagen
% for the suggestions.
% 2006-08
% Made changes based on suggestions from Gene Cooperman. <gene at ccs.neu.edu>
% To Do:
% \listoffigures \listoftables
% \setcounter{secnumdepth}{0}
% This sets page margins to .5 inch if using letter paper, and to 1cm
% if using A4 paper. (This probably isn't strictly necessary.)
% If using another size paper, use default 1cm margins.
\ifthenelse { \lengthtest { \paperwidth = 11in} }
{ \geometry { top=.5in,left=.5in,right=.5in,bottom=.5in} }
{ \ifthenelse { \lengthtest { \paperwidth = 297mm} }
{ \geometry { top=1cm,left=1cm,right=1cm,bottom=1cm} }
{ \geometry { top=1cm,left=1cm,right=1cm,bottom=1cm} }
}
% Turn off header and footer
2020-01-06 11:24:33 +01:00
\pagestyle { plain}
\footskip { } % Left empty on purpose
2020-01-03 15:21:09 +01:00
% Redefine section commands to use less space
\makeatletter
\newcommand \sbullet [1] [.5] { \mathbin { \vcenter { \hbox { \scalebox { #1} { $ \bullet $ } } } } }
\renewcommand { \section } { \@ startsection{ section} { 1} { 0mm} %
{ -1ex plus -.5ex minus -.2ex} %
{ 0.5ex plus .2ex} %x
{ \normalfont \large \bfseries } }
\renewcommand { \subsection } { \@ startsection{ subsection} { 2} { 0mm} %
{ -1explus -.5ex minus -.2ex} %
{ 0.5ex plus .2ex} %
{ \normalfont \normalsize \bfseries } }
\renewcommand { \subsubsection } { \@ startsection{ subsubsection} { 3} { 0mm} %
{ -1ex plus -.5ex minus -.2ex} %
{ 1ex plus .2ex} %
{ \normalfont \small \bfseries } }
\makeatother
% Define BibTeX command
\def \BibTeX { { \rm B\kern -.05em{ \sc i\kern -.025em b} \kern -.08em
T\kern -.1667em\lower .7ex\hbox { E} \kern -.125emX} }
% Don't print section numbers
% \setcounter{secnumdepth}{0}
\setlength { \parindent } { 0pt}
\setlength { \parskip } { 0pt plus 0.5ex}
\lstset { language=R}
% -----------------------------------------------------------------------
\begin { document}
\raggedright
\footnotesize
\begin { multicols*} { 3}
% multicol parameters
% These lengths are set only within the two main columns
%\setlength{\columnseprule}{0.25pt}
\setlength { \premulticols } { 1pt}
\setlength { \postmulticols } { 1pt}
\setlength { \multicolsep } { 1pt}
\setlength { \columnsep } { 2pt}
\begin { center}
\Large { Statistik ZF} \\
\small { Mathematik IV, zu VL von Jan Ernest} \\
\small { Jannis Portmann 2020} \\
2020-01-06 11:24:33 +01:00
{ \ccbysa }
2020-01-03 15:21:09 +01:00
\end { center}
\begin { center}
\rule { \linewidth } { 0.25pt}
\end { center}
\section { Modelle für Zähldaten}
\subsection { Wahrscheinlichkeitsmodelle}
\begin { itemize}
\item Grundraum $ \Omega $ mit Elementarereignissen $ \omega _ i $ (z.B. Augenzahl eines Würfels)
\item Ereignisse $ A $ , $ B $ , $ C $ , ... (Teilmenge von $ \Omega $ ) (z.B. Kombinationen von Augenzahlen)
\item Wahrscheinlichkeit für jedes Ereignis $ P ( A ) $ , $ P ( B ) $ , ...
\end { itemize}
\subsection { Operatoren}
\begin { itemize}
\item $ A \cup B $ - ODER (inklusiv, "und/oder") \\
\item $ A \cap B $ - UND (Konjunktion) \\
\item $ A ^ c $ - NICHT (Negation) \\
\item $ A \backslash B = A \cap B ^ c $ - A UND NICHT B
\end { itemize}
\subsection { Axiome der Wahrscheinlichkeitsrechnug}
\begin { enumerate}
\item $ P ( A ) \geq 0 $ - Die Wahrscheinlichkeiten sind immer nicht-negativ
\item $ P ( \Omega ) = 1 $ - Das Ereignis $ \Omega $ hat Wahrscheinlichkeit eins
\item $ P ( A \cup B ) = P ( A ) + P ( B ) $ falls $ A \cap B = \emptyset $ (A und B sind disjunkt), d.h. für alle Ereignisse, die sich gegenseitig ausschliessen.
\end { enumerate}
Daraus folgen:
\begin { itemize}
\item $ P ( A ^ c ) = 1 - P ( A ) $
\item $ P ( A \cup B ) = P ( A ) + P ( B ) - P ( A \cap B ) $
\end { itemize}
\subsection { Wahrscheinlichkeiten berechnen}
Für diskrete Wahrscheinlichkeitsmodelle
\subsubsection { Summe der Elementarereinisse (verschiedene $ P ( \omega _ i ) $ )}
$$ P ( A ) = \sum _ { \omega \in A } P ( \{ \omega \} ) $$
\subsubsection { Laplace-Modell (gleiche $ P ( \omega _ i ) $ )}
\label { section:laplace}
2020-01-06 11:24:33 +01:00
$$ P ( A ) = \frac { |A| } { | \Omega | } = \frac { \mathrm { günstig } } { \mathrm { möglich } } $$
2020-01-03 15:21:09 +01:00
\subsection { Unabhängigkeit}
$ A $ und $ B $ sind stochastisch unabhängig, wenn gilt:
$$ P ( A \cap B ) = P ( A ) P ( B ) $$
somit können wir dies annehmen, falls wir wissen, dass $ A $ und $ B $ nicht kausal voneinander abhängig sind
\subsection { Bedingte Wahrscheinlichkeit (Abhängigkeit)}
\subsubsection { Satz von Bayes}
$$ P ( A|B ) P ( B ) = P ( B|A ) P ( A ) = P ( A \cap B ) $$
somit ist $ P ( A|B ) $ nicht unbedingt $ P ( B|A ) $ \footnote { $ P ( A|B ) $ : $ P ( A ) $ gegeben $ B $ }
\subsubsection { Gesetz der totalen Wahrscheinlichkeit}
$$ P ( B ) = \sum _ { i = 1 } ^ k P ( B|A _ k ) P ( A _ k ) $$
\subsubsection { Odds}
$$ \mathrm { odds } ( E ) = \frac { P ( E ) } { 1 - P ( E ) } = \frac { P ( E ) } { P ( E ^ c ) } $$
(vgl. Abschnitt \ref { section:laplace} )
$$ \mathrm { odds } ( E | A ) = \frac { P ( E | A ) } { 1 - P ( E|A ) } $$
\subsubsection { Odds-Ratio}
$$ \mathrm { OR } = \frac { \mathrm { odds } ( E|A ) } { \mathrm { odds } ( E|B ) } $$
\subsection { Zufallsvariable}
$$ X ( \omega ) = x $$
\begin { center}
\begin { tabular} { ll}
$ X $ : & $ \Omega \rightarrow \mathbb { R } $ \\
& $ \omega \rightarrow X ( \omega ) $
\end { tabular}
\end { center}
Grossbuchstabe: Funktion, Kleinbuchstabe: Realisierung
$$ P ( X = x ) = P ( \{ \omega ; X ( \omega ) = x \} ) = \sum _ { \omega ;X ( \omega ) = x } P ( \omega ) $$
So dass $ \omega = x $ , also einen gewünschten Wert (z.B. Jass: $ P ( \mathrm { Koenig } ) = P ( \mathrm { Schilten - Koenig } ) + P ( \mathrm { Schellen - Koenig } ) + $ ...
\subsection { Diskrete Verteilungen}
\subsubsection { Kennzahlen}
\textbf { Erwartungswert}
$$ \mathbb { E } ( X ) = \sum _ { x \in \mathbb { W } _ X } x P ( X = x ) $$
wobei $ \mathbb { W } _ x $ der Wertebereich von X ist.
\textbf { Varianz}
$$ \mathrm { Var } ( X ) = \sum _ { x \in \mathbb { W } _ X } ( x - \mathbb { E } ( X ) ) ^ 2 P ( X = x ) $$
\textbf { Standardabweichung}
$$ \sigma ( X ) = \sqrt { \mathrm { Var } ( X ) } $$
\subsubsection { Bernoulli-($ \pi $ )-Verteilung}
$$ P ( X = 1 ) = \pi , P ( X = 0 ) = 1 - \pi , 0 \leq \pi \leq 1 $$
Beschreibt das eintreffen bzw. nicht-eintreffen eines bestimmten Ereignisses.
\subsubsection { Binominalverteilung \footnote { Dabei ist $ \binom { n } { x } = \frac { n ! } { x ! ( n - x ) ! } $ } }
$$ P ( X = x ) = \binom { n } { x } \pi ^ x ( 1 - \pi ) ^ { n - x } , x \in \mathbb { N } _ 0 $$
Dabei ist $ 0 \leq \pi \leq 1 $ der Erfolgsparameter der Verteilung. \\
Notation: $ X \sim \mathrm { Bin } ( n, \pi ) $ ($ X $ folgt einer Binominalverteilung mit Parametern $ n $ und $ \pi $ )
Zusammenhänge:
\begin { itemize}
\item $ \mathrm { Bin } ( 1 , \pi ) = \mathrm { Bernoulli } ( \pi ) $
\item $ X _ 1 \sim \mathrm { Bin } ( n _ 1 , \pi ) ; X _ 2 \sim \mathrm { Bin } ( n _ 2 , \pi ) $ unabhängig $ \Rightarrow S : = X _ 1 + X _ 2 $ , dann $ S \sim \mathrm { Bin } ( n _ 1 + n _ 2 , \pi ) $
\end { itemize}
\subsubsection { Poisson-($ \lambda $ )-verteilung}
$$ P ( X = x ) = \mathrm { exp } ( - \lambda ) \frac { \lambda ^ x } { x ! } , x \in \mathbb { N } _ 0 $$
Dabei sind $ \mathbb { E } ( X ) = \lambda , \mathrm { Var } ( X ) = \lambda , \sigma ( X ) = \sqrt { \lambda } $ \\
2020-01-06 11:24:33 +01:00
Für zwei unabhängige Poisson-Verteilungen $ X \sim \mathrm { Poisson ( \lambda _ x ) } , Y \sim \mathrm { Poisson } ( \lambda _ y ) $ ist $ X + Y \sim \mathrm { Poisson } ( \lambda _ x + \lambda _ y ) $ \\
Es gilt auch
$$ P ( X > n ) = P ( X \leq n ) = 1 - ( P ( X = 0 ) + P ( X = 1 ) + ... + P ( X = n ) ) $$
\subsubsection { Geometrische Verteilung}
Sei $ X \sim \mathrm { Poisson } ( \pi ) $ , dann ist
$$ Y = P ( X = n ) = \pi ( 1 - \pi ) ^ { n - 1 } $$
die Anzahl Fehlversuche bis zu einem erfogreichen Versuch.
2020-01-03 15:21:09 +01:00
\subsubsection { Poisson-Approximation der Binomial-Verteilung}
$ X \sim \mathrm { Bin } ( n, \pi ) $ und $ Y \sim \mathrm { Poisson } ( \lambda ) $ , für kleine $ \pi $ und grosse $ n $ gilt:
$$ P ( X = x ) = \binom { n } { x } \pi ^ x ( 1 - \pi ^ { n - x } ) \approx P ( Y = x ) = \mathrm { exp } ( - \lambda ) \frac { \lambda ^ x } { x ! } , x \in \mathbb { N } _ 0 $$
2020-01-06 11:24:33 +01:00
wobei $ \lambda = n \pi $
\begin { figure} [H]
\centering
\includegraphics [width=.15\textwidth] { poisson-approx.png}
\caption { Poisson Approximation der Binominalverteilung}
\label { fig:poisson-approx}
\end { figure}
2020-01-03 15:21:09 +01:00
\subsubsection { Diskrete Uniformverteilung}
$$ P ( X = x _ i ) = \frac { 1 } { n } , i \in \mathbb { N } $$
$ X \sim \mathrm { Uniform } ( x _ i ) $ , alle $ n $ Ereignisse $ x $ sind gleich wahrscheinlich
\subsubsection { Hypergeometrische Verteilung}
Einfluss von entfernten Ereignissen auf Wahrscheinlichkeiten von neuen Ziehungen (ohne Zurücklegen).
$$ P ( X = x ) = \frac { \binom { m } { x } \binom { N - m } { n - x } } { \binom { N } { n } } $$
$ X \sim \mathrm { Hyper } ( N,n,m ) $ , dabei $ N $ die total möglichen Ereignisse, $ m $ die "Gewinne" und es wird $ n $ gezogen.
2020-01-06 11:24:33 +01:00
\subsection { Kennwerte}
\subsubsection { Bernoulli-Verteilung}
\begin { center}
\begin { tabular} { rl}
$ \mathbb { E } ( X ) = $ & $ \pi $ \\
Var$ ( X ) = $ & $ \pi ( 1 - \pi ) $ \\
$ \sigma _ X = $ & $ \sqrt { \pi ( 1 - \pi ) } $
\end { tabular}
\end { center}
\subsubsection { Binomialverteilung}
\begin { center}
\begin { tabular} { rl}
$ \mathbb { E } ( X ) = $ & $ n \pi $ \\
Var$ ( X ) = $ & $ n \pi ( 1 - \pi ) $ \\
$ \sigma _ X = $ & $ \sqrt { n \pi ( 1 - \pi ) } $
\end { tabular}
\end { center}
\subsubsection { Poisson-Verteilung}
\begin { center}
\begin { tabular} { rl}
$ \mathbb { E } ( X ) = $ & $ \lambda $ \\
Var$ ( X ) = $ & $ \lambda $ \\
$ \sigma _ X = $ & $ \sqrt { \lambda } $
\end { tabular}
\end { center}
\subsubsection { Geometrische Verteilung}
\begin { center}
\begin { tabular} { rl}
$ \mathbb { E } ( X ) = $ & $ \frac { 1 } { \pi } $ \\
Var$ ( X ) = $ & $ \frac { 1 - \pi } { \pi ^ 2 } $ \\
$ \sigma _ X = $ & $ \frac { \sqrt { 1 - \pi } } { \pi } $
\end { tabular}
\end { center}
\subsubsection { Hypergeometrische Verteilung}
\begin { center}
\begin { tabular} { rl}
$ \mathbb { E } ( X ) = $ & $ \frac { nm } { M } $ \\
Var$ ( X ) = $ & $ \frac { nm ( N - m ) ( N - n ) } { N ^ 2 ( N - 1 ) } $ \\
$ \sigma _ X = $ & $ \sqrt { \frac { nm ( N - m ) ( N - n ) } { N ^ 2 ( N - 1 ) } } $
\end { tabular}
\end { center}
2020-01-03 15:21:09 +01:00
\begin { center}
\rule { .5\linewidth } { 0.25pt}
\end { center}
\section { Statistik für Zähldaten}
\begin { enumerate}
\item \textbf { Grundfragestellung:} Welches ist der zu den Beobachtungen plausibelste Parameterwert? Die Antwort auf diese Frage heisst (Punkt-)Schätzung.
\item \textbf { Grundfragestellung:} Sind die Beobachtungen kompatibel (statistisch vereinbar) mit einem vorgegebenen Parameterwert? Die Antwort auf diese 2. Grundfrage heisst statistischer Test.
\item \textbf { Grundfragestellung:} Grundfragestellung: Welche Parameterwerte sind mit den Beobachtungen kompatibel (statistisch vereinbar)? Die Antwort auf diese 3. Grundfrage heisst Vertrauensintervall. Das Vertrauensintervall ist allgemeiner und informativer als ein statistischer Test.
\end { enumerate}
\subsection { Punktschätzung von Parametern}
$ \hat { X } $ bezeichnet den Schätzwert von $ X $
\\ \\
Bei \textbf { Binominalverteilung} :
\subsubsection { Momentenmehtode}
Aus $ \mathbb { E } ( X ) = n \pi \Leftrightarrow \pi = \frac { \mathbb { E } ( X ) } { x } $ , daraus $ \hat { \mathbb { E } ( X ) } = x $ und somit
$$ \hat { \pi } = \frac { x } { n } $$
\subsubsection { Maximum-Likelihood}
Vorgehen:
\begin { itemize}
\item Funktion $ P $ der Wahrscheinlichkeit aufstellen
\item $ \log ( P ) $
\item $ \frac { \mathrm { d } P } { \mathrm { d } \pi } = 0 $
\item auflösen nach $ \pi $
\end { itemize}
Dies ist für eine Binominalverteilung ebenfalls $ \hat { \pi } = \frac { x } { n } $
\subsection { Aufbau statistischer Test}
$ P ( X \geq c ) $ für verschiedene $ c $
\begin { enumerate}
\item Modell $ X $ erstellen
\item Nullhypothese \\
\begin { center}
\begin { tabular} { ll}
$ H _ 0 $ : & $ \pi = \pi _ 0 $
\end { tabular}
\end { center}
und Alternativhypothese
\begin { center}
\begin { tabular} { ll}
$ H _ A $ : & $ \pi \neq \pi _ 0 $ (zweiseitig) \\
& $ \pi > \pi _ 0 $ (einseitig nach oben) \\
& $ \pi < \pi _ 0 $ (einseitig nach unten)
\end { tabular}
\end { center}
oft ist $ H _ 0 : \pi = 1 / 2 $ (= reiner Zufall). Man testet also gegen Zufall.
\item Teststatistik $ T $ (Anzahl treffer bei $ n $ Versuchen), Verteilung unter $ H _ 0 : T \sim \mathrm { Bin } ( n, \pi _ 0 ) ^ 3 $
\item Festlegen von Signifikanzniveau $ \alpha $ (meist $ \alpha = 0 . 05 $ oder $ \alpha = 0 . 01 $ )
\item Bestimmung Verwerfungsbereich
$$ K = \begin { cases }
[0,c_ u] \cup [c_ 0,n] & H_ A: \pi \neq \pi _ 0 \\ [c,n] & H_ A: \pi > \pi _ 0 \\ [0,c] & H_ A: \pi < \pi _ 0
\end { cases} $$
\item Testentscheid: Ist $ t \in K $ ? Falls ja wird $ H _ 0 $ verworfen, falls nicht wird sie als korrekt angenommen\footnote { Achtung: Das heisst nicht, dass $ H _ 0 $ gültig ist! (Falsifizierbarkeit)}
\end { enumerate}
\subsubsection { Fehler 1. und 2. Art}
\label { sec:fehler12}
\begin { enumerate}
\item Art: Fälschliches Verwerfen von $ H _ 0 $ , obwohl $ H _ 0 $ richtig ist.
\item Art: Fälschliches Beibehalten von $ H _ 0 $ , obwohl $ H _ A $ zutrifft.
\end { enumerate}
$$ P ( \mathrm { Fehler \; 1 . \; Art } ) = P _ { H _ 0 } ( X \in K ) \leq \alpha $$
Fehler 1. Art soll möglichst vermieden werden!
\subsubsection { Macht (Power)}
\label { sec:macht}
$$ \mathrm { Macht } : = 1 - P ( \mathrm { Fehler \; 2 . \; Art } ) = P _ { H _ A } ( X \in K ) $$
Idee: Wie gross muss eine Stichprobe sein, damit mit einer bestimmten Macht $ \beta = x $ eine Hypothese bewiesen werden kann auf Signifikanzniveau $ \alpha $ ?
\subsubsection { P-Wert}
Der P-Wert ist ein Wert zwischen 0 und 1, der angibt, wie gut Nullhypothese und Daten zusammenpassen.
2020-01-06 11:24:33 +01:00
\subsubsection { Vertrauensintervall (VI)}
2020-01-03 15:21:09 +01:00
\label { sec:vertrauensintervall}
$$ I: = \{ \pi _ 0 ; \; \mathrm { Nullhypothese } \; H _ 0 : \pi = \pi _ 0 \mathrm { wird \; beibehalten } \} $$
2020-01-06 11:24:33 +01:00
Die Werte von $ \pi _ 0 $ bei denen $ H _ 0 : \pi = \pi _ 0 $ nicht verworfen wird, ist ein $ ( 1 - \alpha ) $ -VI.
2020-01-03 15:21:09 +01:00
$$ P _ \pi ( \pi \in I ( X ) \gtrapprox 1 - \alpha ) $$
2020-01-06 11:24:33 +01:00
Ein $ ( 1 - \alpha ) $ -VI, enthält den wahren Parameter $ \pi $ mit einer Wahrscheinlichkeit von $ ( 1 - \alpha ) $
2020-01-03 15:21:09 +01:00
\begin { center}
\rule { .5\linewidth } { 0.25pt}
\end { center}
\section { Modelle und Statistik für Zähldaten}
\subsection { Deskriptive Statistik}
\subsubsection { Kennzahlen}
\textbf { Arithmetisches Mittel}
$$ \bar { x } = \frac { 1 } { n } \sum _ { i = 1 } ^ nx _ i $$
\textbf { Empirische Standardabweichung}
$$ s _ x = \sqrt { \mathrm { Var } } = \sqrt { \frac { 1 } { n - 1 } \sum _ { i = 1 } ^ n ( x _ i - \bar { x } ) ^ 2 } $$
\textbf { Quantile} \\
$ \alpha $ -Quantil \\
"Wert $ x $ bei dem $ \alpha \cdot 100 \% $ -Werte kleiner als $ x $ sind"
\subsubsection { Kovarianz und Korrelation}
Gemeinsame Verteilung von zwei Zufallsvariablen $ X $ und $ Y $ \\
\textbf { Kovarianz}
$$ \mathrm { Cov } ( X,Y ) = \mathbb { E } [ ( X - \mu _ x ) ( Y - \mu _ y ) ] = \mathbb { E } ( XY ) - \mathbb { E } ( X ) \mathbb { E } ( Y ) $$
es gilt somit auch
$$ \mathrm { Cov } ( X,X ) = \mathrm { Var } ( X ) $$
\textbf { Korrelation}
$$ \mathrm { Cor } ( X,Y ) = \rho _ { XY } = \frac { \mathrm { Cov } ( X,Y ) } { \sigma _ X \sigma _ Y } $$
wobei $ \rho _ { XY } \in [ - 1 , 1 ] $ \\
Falls $ X, Y $ unabhängig $ \mathrm { Cor } ( X,Y ) = 0 $ .\footnote { Aber dies bedeutet nicht, dass falls $ \mathrm { Cor } ( X,Y ) = 0 $ , $ X $ und $ Y $ dann unabhängig sind!}
\textbf { Empirische Korrelation}
$$ r = \frac { s _ { xy } } { s _ xs _ y } $$
wobei $ s _ { xy } = \frac { \sum _ { i = 1 } ^ n ( x _ i - \bar { x } ) ( y _ i - \bar { y } ) } { n - 1 } $
\subsubsection { Grafische Methoden}
\textbf { Histogramme} \\
Einteilung in Klassen, auftragen der Beobachtugen je Klasse in Balkendiagramm
2020-01-06 11:24:33 +01:00
\begin { figure} [H]
\centering
\includegraphics [width=.2\textwidth] { histogram.png}
\caption { Histogramm}
\label { fig:histogram}
\end { figure}
2020-01-03 15:21:09 +01:00
\textbf { Boxplot} \\
Rechteck, vom 75\% - und 25\% -Quantil begrenzt
\begin { figure} [H]
\centering
\includegraphics [width=.2\textwidth] { boxplot.png}
\caption { Beispiel Boxplot (IQR = Interquartile-Range)}
\label { fig:boxplot}
\end { figure}
\textbf { Streudiagramm (Scatter-Plot)} \\
Auftragen der Daten $ ( x _ n,y _ n ) $
2020-01-06 11:24:33 +01:00
\begin { figure} [H]
\centering
\includegraphics [width=.15\textwidth] { scatter.png}
\caption { Streudigramm}
\label { fig:scatter}
\end { figure}
2020-01-03 15:21:09 +01:00
\subsection { Stetige Zufallsvariablen und Wahrscheinlichkeitsverteilungen}
Eine Zufallsvariable $ X $ heisst stetig, falls deren Wertebereich $ \mathbb { W } _ X $ stetig ist \\
Da Punktverteilung
$$ P ( X = x ) = 0 , \forall x \in \mathbb { W } _ X, \footnote { Da in jedem kontunuierlichen Intervall $ \infty $ Werte sind } $$
benötigen wir
$$ P ( X \in ( a,b ] ) = P ( a < X \leq b ) $$
\textbf { Kumulative Verteilungsfunktion}
$$ F ( x ) = P ( X \leq x ) $$
2020-01-06 11:24:33 +01:00
\begin { figure} [H]
\centering
\includegraphics [width=.2\textwidth] { kumulative.png}
\caption { Kumulative Verteilungsfunktion}
\label { fig:kumulative}
\end { figure}
2020-01-03 15:21:09 +01:00
\subsubsection { (Wahrscheinlichkeits-)Dichte)}
$$ f ( x ) = \dot { F } ( x ) \Longleftrightarrow F ( x ) = \int _ { - \infty } ^ xf ( y ) \mathrm { d } y $$
\subsection { Kennzahlen von stetigen Verteilungen}
\begin { center}
\begin { tabular} { rl}
$ \mathbb { E } ( X ) = $ & $ \int _ { - \infty } ^ { \infty } xf ( x ) \mathrm { d } x $ \\
Var$ ( X ) = $ & $ \mathbb { E } ( ( X - \mathbb { E } ( X ) ) ^ 2 ) = \int _ { - \infty } ^ { \infty } ( x - \mathbb { E } ( X ) ) ^ 2 f ( x ) \mathrm { d } x $ \\
$ \sigma ( X ) = $ & $ \sqrt { \mathrm { Var } ( X ) } $
\end { tabular}
\end { center}
2020-01-06 11:24:33 +01:00
\subsubsection { Quantile}
2020-01-03 15:21:09 +01:00
$$ P ( X \leq q ( \alpha ) ) = \alpha $$
$ q ( \alpha ) $ ist der Punkt, an dem die Fläche unter der Dichtefunktion $ f ( x ) $ von $ - \infty $ bis $ q ( \alpha ) $ gleich $ \alpha $ ist. (z.B. beim Median ($ \alpha = 50 \% $ ) sind die Flächen darunter und darüber gleich gross)
\subsection { Stetige Verteilungen}
\subsubsection { Uniforme Verteilung}
$ X \sim \mathrm { Uniform } ( [ a,b ] ) , \mathbb { W } _ X = [ a,b ] $
$$ f ( x ) = \begin { cases }
\frac { 1} { b-a} , \; \mathrm { falls} \; a \leq x \leq b \\
0, \; \; \; \; \; \; \, \mathrm { sonst} %uglyAF
\end { cases} $$
somit ist die kumulative Verteilung
$$ F ( x ) = \begin { cases }
0, \; \; \; \; \; \; \, \mathrm { falls} \; x < a \\
\frac { x-a} { b-a} , \; \mathrm { falls} \; a \leq x \leq b \\
1, \; \; \; \; \; \; \, \mathrm { falls} \; x > b
\end { cases} $$
\textbf { Kennzahlen}
\begin { center}
\begin { tabular} { rl}
$ \mathbb { E } ( X ) = $ & $ \frac { a + b } { 2 } x $ \\
Var$ ( X ) = $ & $ \frac { ( b - a ) ^ 2 } { 12 } $ \\
$ \sigma _ X = $ & $ \frac { b - a } { \sqrt { 12 } } $
\end { tabular}
\end { center}
\subsubsection { Exponential-Verteilung}
$ X \sim \mathrm { Exp } ( \lambda ) , \mathbb { W } _ X = [ 0 , \infty ) , \lambda \in \mathbb { R } ^ + $
$$ f ( x ) = \begin { cases }
\lambda e^ { -\lambda x} , \; \mathrm { falls} \; x \geq 0 \\
0, \; \; \; \; \; \; \; \; \; \; \mathrm { sonst} %uglyAF
\end { cases} $$
also
$$ F ( x ) = \begin { cases }
1 - e^ { -\lambda x} , \; \mathrm { falls} \; x \geq 0 \\
0, \; \; \; \; \; \; \; \; \; \; \; \; \; \, \mathrm { falls} \; x < 0
\end { cases} $$
\textbf { Kennzahlen}
\begin { center}
\begin { tabular} { rl}
$ \mathbb { E } ( X ) = $ & $ \frac { 1 } { \lambda } x $ \\
Var$ ( X ) = $ & $ \frac { 1 } { \lambda ^ 2 } $ \\
$ \sigma _ X = $ & $ \frac { 1 } { \lambda } $
\end { tabular}
\end { center}
\subsubsection { Normalverteilung (Gauss'sche-Verteilung)}
$ X \sim \mathcal { N } ( \mu , \sigma ^ 2 ) , \mathbb { W } _ X = \mathbb { R } , \mu \in \mathbb { R } \; \mathrm { und } \; \sigma \in \mathbb { R } ^ + $
$$ f ( x ) = \frac { 1 } { \sigma \sqrt { 2 \pi } } \mathrm { exp } \bigg ( - \frac { ( x - \mu ) ^ 2 } { 2 \sigma ^ 2 } \bigg ) $$
$$ F ( x ) \Rightarrow \mathrm { Tabelle ! } $$
\textbf { Kennzahlen}
\begin { center}
\begin { tabular} { rl}
$ \mathbb { E } ( X ) = $ & $ \mu $ \\
Var$ ( X ) = $ & $ \sigma ^ 2 $ \\
$ \sigma _ X = $ & $ \sigma $
\end { tabular}
\end { center}
\subsubsection { Standard-Normalverteilung}
$ X \sim \mathcal { N } ( 0 , 1 ) , \mathbb { W } _ X = \mathbb { R } , \mu = 0 \; \mathrm { und } \; \sigma = 1 $
$$ \varphi ( x ) = \frac { 1 } { \sqrt { 2 \pi } } \mathrm { exp } \bigg ( - \frac { x ^ 2 } { 2 } \bigg ) $$
$$ \Phi ( x ) = \int _ { - \infty } ^ x \varphi ( y ) \mathrm { d } y $$
$$ \Phi ( - c ) = P ( X \leq - c ) = P ( X \geq c ) = 1 - P ( X \leq c ) = 1 - \Phi ( c ) $$
\subsection { Funktionen einer Zufallsvariable}
Sei $ g: \mathbb { R } \rightarrow \mathbb { R } $ und $ X $ eine Zufallsvariable, so ist
$$ Y = g ( X ) $$
eine Transformation.
$$ \mathbb { E } ( Y ) = \mathbb { E } ( g ( X ) ) = \int _ { - \infty } ^ { \infty } g ( x ) f _ X ( x ) \mathrm { d } x $$
\subsubsection { Lineare Transformation}
Sei $ X \sim \mathcal { N } ( \sigma , \omega ^ 2 ) $ und $ Y = a + bX $ \\
dann sind
\begin { center}
\begin { tabular} { rl}
$ \mathbb { E } ( Y ) = $ & $ a + b \mathbb { E } ( X ) $ \\
Var$ ( Y ) = $ & $ b ^ 2 \cdot \mathrm { Var } ( X ) $ \\
$ \sigma _ Y = $ & $ b \cdot \sqrt { \mathrm { Var } ( X ) } $ \\
$ q _ Y ( \alpha ) = $ & $ a + b \cdot q _ X ( \alpha ) $
\end { tabular}
\end { center}
\subsubsection { Standardisieren einer Zufallsvariable}
Überführen von $ X $ in eine \textit { Standard-Normalverteilung} $ ( \mathbb { E } = 0 , \sigma = 1 ) $
$$ Z = g ( X ) = \frac { X - \mathbb { E } ( X ) } { \sigma _ X } = \frac { X - \mu } { \sigma } \sim \mathcal { N } ( 0 , 1 ) $$
\subsubsection { Lognormal-Verteilung}
Sei $ Y \sim \mathcal { N } ( \mu , \sigma ^ 2 ) $ dann soll $ X = \mathrm { exp } ( Y ) $ mit $ \mu \in \mathbb { R } $ und $ \sigma \in \mathbb { R } ^ + $
$$ \mathbb { E } ( X ) = \mathrm { exp } ( \mu + \frac { \sigma ^ 2 } { 2 } ) > \mathrm { exp } ( \mathbb { E } ( Y ) ) $$
\subsubsection { Berechnung von Momenten}
Das $ k $ -te Moment ist gegeben als
$$ m _ k = \mathbb { E } ( X ^ k ) $$
also z.B.
$$ m _ 2 = \mathbb { E } ( X ^ 2 ) = \int _ { - \infty } ^ \infty x ^ 2 f ( x ) \mathrm { d } x $$
Verschiebungssatz für die Varianz:
$$ \mathrm { Var } ( X ) = \mathbb { E } ( X ^ 2 ) - \mathbb { E } ( X ) ^ 2 $$
\subsection { Überprüfen der Normalverteilungs-Annahme}
\subsubsection { Q-Q Plot (Quantil-Quantil Plot)}
Man plottet die empirischen Quantile gegen die theoretischen Quantile der Modell-Verteilung. Die Punkte sollten ungefähr auf der Winkelhalbierenden $ y = f ( x ) = x $ liegen.
\subsubsection { Normal-Plot}
\label { sec:normalplot}
Für Klassen von Verteilungen, z.B. Klasse der Normalverteilungen mit verschiedenen $ \mu , \sigma $ . \\
Sei $ X \sim \mathcal { N } ( \mu , \sigma ^ 2 ) $ , dann sind die Quantile von X
$$ q ( \alpha ) = \mu + \sigma \Phi ^ { - 1 } ( \alpha ) $$
Ein \textit { Q-Q Plot} bei dem die Modell-Verteilung gleich $ \mathcal { N } ( 0 , 1 ) $ ist, heisst Normal-Plot.
\subsection { Funktionen von mehreren Zufallsvariablen}
Statt einer Zufallsvariale $ X $ und deren $ n $ unabhängigen Realisierungen $ x _ 1 , x _ 2 , ... , x _ n $ , nimmt man oft $ X _ 1 , X _ 2 , ... , X _ n $ . Somit wird $ y = g ( x _ 1 , x _ 2 , ... , x _ n ) $ zu einer Funktion von Zufallsvariablen
$$ Y = g ( X _ 1 , X _ 2 , ... , X _ n ) $$
\subsubsection { Unabhängigkeit und i.i.d. Annahme}
Unabhängig heisst, dass es keine gemeinsamen Prozesse gibt, die den Ausgang beeinflussen. \\
\textit { Notation} :
$$ X _ 1 ,X _ 2 ,...,X _ n \; \mathrm { i.i.d } $$
wobei \textit { i.i.d} für "independent, identically distributed" steht. \\
Es gilt dann immer
$$ \mathbb { E } ( X _ 1 + X _ 2 ) = \mathbb { E } ( X _ 1 ) + \mathbb { E } ( X _ 2 ) $$
wenn $ X _ 1 ,X _ 2 $ unabhängig, auch
$$ \mathrm { Var } ( X _ 1 + X _ 2 ) = \mathrm { Var } ( X _ 1 ) + \mathrm { Var } ( X _ 2 ) , $$
für nicht unabhängig
$$ \mathrm { Var } ( aX _ 1 + bX _ 2 ) = a ^ 2 \mathrm { Var } ( X _ 1 ) + b ^ 2 \mathrm { Var } ( X _ 2 ) + 2 ab \mathrm { Cov } ( X _ 1 ,X _ 2 ) . $$
\subsubsection { Gesetz der grossen Zahlen und $ \sqrt { n } $ -Gesetz}
Sei $ X _ 1 , X _ 2 , ..., X _ n \; \mathrm { i.i.d } \sim \mathrm { kumulative \; Verteilungsfunktion } \; F $ , dann sind
\begin { center}
\begin { tabular} { rcl}
$ \mathbb { E } ( \bar { X _ n } ) $ & $ = $ & $ \mu $ \\
Var$ ( \bar { X _ n } ) $ & $ = $ & $ \frac { \sigma _ X ^ 2 } { n } $ \\
$ \sigma ( \bar { X _ n } ) $ & $ = $ & $ \frac { \sigma _ X } { \sqrt { n } } $
\end { tabular}
\end { center}
Somit sind für eine doppelte Genauigkeit viermal soviele Messwerte nötig. \\
Standardabweichung von $ X _ n $ ist der \textit { Standardfehler} des Arithmetischen Mittels.
$$ \bar { X _ n } \rightarrow \mu ( n \rightarrow \infty ) $$
\subsubsection { Zentraler Grenzwertsatz}
Sei $ X _ 1 , X _ 2 , ..., X _ n \; \mathrm { i.i.d } $ , dann gilt
$$ \bar { X _ n } = \mathcal { N } ( \mu , \frac { \sigma ^ 2 _ X } { n } ) $$
und daraus folgt für die Summe $ \sum _ { i = 1 } ^ nX _ i $
$$ S _ X \approx \mathcal { N } ( n \mu ,n \sigma ^ 2 ) . $$
Aus
$$ Z _ n = \frac { \sqrt { n } ( \bar { X _ n } - \mu ) } { \sigma _ X } \sim \mathcal { N } ( 0 , 1 ) $$
folgt
$$ \forall x: \lim _ { n \rightarrow \infty } P ( Z _ n \leq x ) = \Phi ( x ) $$
\subsubsection { Verletzung der Unabhängigkeit}
Sei $ X _ 1 , X _ 2 , ..., X _ n \; \neg \; \mathrm { i.i.d } $
$$ \mathbb { E } ( \bar { X _ n } ) = \mu $$
$$ \mathrm { Var } ( \bar { X _ n } ) = \frac { \sigma _ X ^ 2 } { n } \bigg ( 1 + \frac { 1 } { n } \sum _ { 1 \leq i \leq j \leq n } \rho _ { X _ i X _ j } \bigg ) $$
mit $ \rho _ { X _ i X _ j } $ die Korrelation zwischen $ X _ i, X _ j $ \\
Die Unabhängigkeit führt dazu, dass die Genauigkeit des arithmetischen Mittels beeinflusst wird!
\subsection { Statisitk für eine Stichprobe}
% Wasn't able to fit it into the third-columns
2020-01-06 11:24:33 +01:00
Siehe \textit { Abb. \ref { fig:tests} } im \hyperref [sec:anhang] { Anhang} .
2020-01-03 15:21:09 +01:00
\subsubsection { Punktschätzung}
Betrachtung von Daten $ x _ 1 , x _ 2 , ...,x _ n $ als Realisierungen von $ X _ 1 , X _ 2 , ..., X _ n $ i.i.d. \\
Wenn $ \mathbb { E } ( X _ i ) = \mu $ und $ \mathrm { Var } ( X _ i ) = \sigma _ X ^ 2 $ gesucht:
\begin { center}
\begin { tabular} { rcl}
$ \hat { \mu } $ & $ = $ & $ \displaystyle \frac { 1 } { n } \sum _ { i = 1 } ^ n X _ i = X _ n $ \\
$ \hat { \sigma _ X } ^ 2 $ & $ = $ & $ \displaystyle \frac { 1 } { n - 1 } \sum _ { i = 1 } ^ n ( X _ i - \bar { X _ n } ) ^ 2 $
\end { tabular}
\end { center}
\subsubsection { z-Test ($ \sigma _ X $ bekannt)}
\begin { enumerate}
\item \textbf { Modell} : $ X _ i $ ist eine kontunuierliche Messgrösse und Annahme $ X _ 1 , X _ 2 , ..., X _ n \; \mathrm { i.i.d. } \; \mathcal { N } ( \mu , \sigma _ X ^ 2 ) $
\item \textbf { Nullhypothese} :
\begin { center}
\begin { tabular} { cll}
& $ H _ 0 : $ & $ \mu = \mu _ 0 $
\end { tabular}
\end { center}
\textbf { Alternativhypothese} :
\begin { center}
\begin { tabular} { clll}
& $ H _ A: $ & $ \mu \neq \mu _ 0 $ & zweiseitig \\
oder & $ H _ A: $ & $ \mu > \mu _ 0 $ & einseitig \\
oder & $ H _ A: $ & $ \mu < \mu _ 0 $ & einseitig \\
\end { tabular}
\end { center}
\item \textbf { Teststatistik} :
$$ Z = \frac { ( \bar { X _ n } - \mu _ 0 ) } { \sigma _ { X _ n } } = \frac { \sqrt { n } ( \bar { X _ n } - \mu _ 0 ) } { \sigma _ X } = \frac { \mathrm { beobachtet } - \mathrm { erwartet } } { \mathrm { Standardfehler } } $$
Verteilung der Teststatistik unter $ H _ 0 : Z \sim \mathcal { N } ( 0 , 1 ) $
\item \textbf { Signifikanzniveau} : $ \alpha $
\item \textbf { Verwerfungsbereich für die Teststatistik} :\\
$$ K = \begin { cases }
(-\infty ,-\Phi ^ { -1} (1-\frac { \alpha } { 2} ]\cup [\Phi ^ { -1} (1-\frac { \alpha } { 2} ),\infty ), \quad \, \mathrm { bei} \; H_ A: \mu \neq \mu _ 0 \\
(-\infty ,-\Phi ^ { -1} (1-\frac { \alpha } { 2} ], \qquad \qquad \qquad \qquad \qquad \kern .025em \mathrm { bei} \; H_ A: \mu < \mu _ 0 \\
[\Phi ^ { -1} (1-\frac { \alpha } { 2} ),\infty ), \qquad \qquad \qquad \qquad \qquad \quad \kern 0.25em \mathrm { bei} \; H_ A: \mu > \mu _ 0
\end { cases} $$
\item \textbf { Testentscheid} :\\
Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $ K $ liegt.
\end { enumerate}
\subsubsection { Fehler 1./2. Art und Macht}
Es gilt wie in \textit { Kapitel \ref { sec:fehler12} } und \textit { \ref { sec:macht} } . \\
$$ P _ { \mu _ 0 } ( T \in K ) = \alpha $$
$$ P _ \mu ( T \in K ) = \mathrm { Macht } ( \mu ) $$
\subsubsection { t-Test ($ \sigma _ X $ unbekannt)}
2020-01-06 11:24:33 +01:00
\label { sec:ttest}
2020-01-03 15:21:09 +01:00
\begin { enumerate}
\item \textbf { Modell} : $ X _ i $ ist eine kontinuierliche Messgrösse und Annahme $ X _ 1 , X _ 2 , ..., X _ n \; \mathrm { i.i.d. } \; \mathcal { N } ( \mu , \sigma _ X ^ 2 ) $
\item \textbf { Nullhypothese} :
\begin { center}
\begin { tabular} { cll}
& $ H _ 0 : $ & $ \mu = \mu _ 0 $
\end { tabular}
\end { center}
\textbf { Alternativhypothese} :
\begin { center}
\begin { tabular} { clll}
& $ H _ A: $ & $ \mu \neq \mu _ 0 $ & zweiseitig \\
oder & $ H _ A: $ & $ \mu > \mu _ 0 $ & einseitig \\
oder & $ H _ A: $ & $ \mu < \mu _ 0 $ & einseitig \\
\end { tabular}
\end { center}
\item \textbf { Teststatistik} :
$$ \hat { \sigma _ X } = \sqrt { \frac { 1 } { n - 1 } \sum _ { i = 1 } ^ n ( X _ i - \bar { X _ n } ) ^ 2 } $$
$$ T = \frac { \sqrt { n } ( \bar { X _ n } - \mu _ 0 ) } { \hat { \sigma _ X } } = \frac { \mathrm { beobachtet } - \mathrm { erwartet } } { \mathrm { geschätzter \; Standardfehler } } $$
Verteilung der Teststatistik unter $ H _ 0 : T \sim t _ { n - 1 } $
\item \textbf { Signifikanzniveau} : $ \alpha $
\item \textbf { Verwerfungsbereich für die Teststatistik} :\\
$$ K = \begin { cases }
(-\infty ,-t_ { n-1;1-\frac { \alpha } { 2} } ] \cup [t_ { n-1;1-\frac { \alpha } { 2} } ,\infty ), \quad \; \; \mathrm { bei} \; H_ A: \mu \neq \mu _ 0 \\
(-\infty ,-t_ { n-1;1-\frac { \alpha } { 2} } ], \qquad \qquad \qquad \qquad \kern 1.6em \mathrm { bei} \; H_ A: \mu < \mu _ 0 \\
[t_ { n-1;1-\frac { \alpha } { 2} } ,\infty ), \qquad \qquad \qquad \qquad \qquad \quad \kern 0.25em \mathrm { bei} \; H_ A: \mu > \mu _ 0
\end { cases} $$
\item \textbf { Testentscheid} :\\
Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $ K $ liegt.
\end { enumerate}
\subsubsection { P-Wert des \textit { t-Tests} }
\label { sec:pval}
$$ \mathrm { P - Wert } = P ( |T| > |t| ) = 2 \bigg ( 1 - F _ { t _ { n - 1 } } \bigg ( \frac { \sqrt { n } | \bar { x _ n } - \mu _ 0 | } { \hat { \sigma _ X } } \bigg ) \bigg ) $$
wobei $ F _ { t _ { n - a } } $ die kumulative Verteilungsfunktion der t-Verteilung mit $ n - 1 $ Freiheitsgraden ist ($ F _ { t _ { n - 1 } } ( t ) = P ( T \leq t ) ,T \sim t _ { n - 1 } $ )
\subsubsection { Vertrauensintervall für $ \mu $ }
Vgl. auch \ref { sec:vertrauensintervall} \\
Aus
$$ \mu _ 0 \leq \bar { x _ n } + \frac { \hat { \sigma _ X } \cdot t _ { n - 1 ; 1 - \frac { \alpha } { 2 } } } { \sqrt { n } } \mathrm { \; und \; } \mu _ 0 \geq \bar { x _ n } - \frac { \hat { \sigma _ X } \cdot t _ { n - 1 ; 1 - \frac { \alpha } { 2 } } } { \sqrt { n } } $$
folgt das Intervall
$$ I = \bigg [ \bar { x _ n } - t _ { n - 1 ; 1 - \frac { \alpha } { 2 } } \frac { \hat { \sigma _ X } } { \sqrt { n } } , \bar { x _ n } + t _ { n - 1 ; 1 - \frac { \alpha } { 2 } } \frac { \hat { \sigma _ X } } { \sqrt { n } } \bigg ] $$
\subsubsection { Vorzeichentest}
\begin { enumerate}
\item \textbf { Modell} : $ X _ 1 , X _ 2 , ..., X _ n \; \mathrm { i.i.d. } $ wobei $ X _ i $ eine beliebige Verteilung hat \\
\item \textbf { Nullhypothese} :
$$ H _ 0 : \mu = \mu _ 0 \mathrm { \; ( \mu \; ist \; der \; Median ) } $$
\textbf { Alternativhypothese} :
\begin { center}
\begin { tabular} { clll}
& $ H _ A: $ & $ \mu \neq \mu _ 0 $ & zweiseitig \\
oder & $ H _ A: $ & $ \mu > \mu _ 0 $ & einseitig \\
oder & $ H _ A: $ & $ \mu < \mu _ 0 $ & einseitig \\
\end { tabular}
\end { center}
\item \textbf { Teststatistik} : \\
$ V $ : Anzahl $ X _ i $ mit $ X _ i > \mu _ 0 $ \\
Verteilung der Teststatistik unter $ H _ 0 : V \sim \mathrm { Bin } ( n, \pi _ 0 ) $ , mit $ \pi _ 0 = 0 . 5 $
\item \textbf { Signifikanzniveau} : $ \alpha $ \\
\item \textbf { Verwerfungsbereich für die Teststatistik} : \\
$$ K = \begin { cases }
[0,c_ u] \cup [c_ 0,n], \quad \; \; \mathrm { bei} \; H_ A: \mu \neq \mu _ 0 \\
[0,c_ u], \qquad \qquad \kern 1.44em \mathrm { bei} \; H_ A: \mu < \mu _ 0 \\
[c_ 0,n], \qquad \qquad \quad \kern 0.46em \mathrm { bei} \; H_ A: \mu > \mu _ 0
\end { cases} $$
\item \textbf { Testentscheid} : \\
Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $ K $ liegt.
\end { enumerate}
\subsubsection { Wilcoxon-Test}
Voraussetzung: Realisierungen von $ X _ 1 , X _ 2 , ..., X _ n \; \mathrm { i.i.d. } $ , stetig und symetrisch bezgl. $ \mu = \mathbb { E } ( X _ i ) $ \\
Für Berechnung benutze R (\ref { sec:wilcoxon} )
\subsection { Statisitk für zwei Stichproben}
\subsubsection { Gepaarte Stichprobe}
2020-01-06 11:24:33 +01:00
\label { sec:paired}
Ligt vor falls:
\begin { itemize}
\item beide Versuchsbedingungen an derselben Versuchseinheit eingesetzt werden
\item oder jeder Versuchseinheit aus der einen Gruppe genau eine Versuchseinheit aus der anderen Gruppe zugeordnet werden kann.
\end { itemize}
Die Daten entsprechen
$$ x _ 1 ,...x _ n \mathrm { unter \; Versuchsbedingung \; 1 } $$
$$ y _ 1 ,...y _ n \mathrm { unter \; Versuchsbedingung \; 2 } $$
wobei dasselbe $ n $ für beide nötig ist.
\subsubsection { t-Test für gepaarte Stichproben}
$$ d _ i = x _ i - y _ i, i \in \mathbb { N } \leq n $$
$ d _ i $ seinen Realisierungen von $ D _ 1 ,...D _ n $ i.i.d. Somit vereinfacht sich die Betrachtung zu einer Variable auf welche wir den \textit { t-Test} aus \ref { sec:ttest} anwenden können.
\subsubsection { Ungepaarte Stichproben}
Falls eine Paarung wie in \ref { sec:paired} nicht möglich ist und die Daten
$$ X _ 1 ,...X _ n \mathrm { i.i.d } $$
$$ Y _ 1 ,...Y _ m \mathrm { i.i.d } $$
entsprechen, wobei $ m \neq n $ nicht zwingend notwendig ist. Entscheidend ist, dass $ x _ i $ und $ yi $ zu verschiedenen Versuchseinheiten geören und als unabhängig angenommen werden können.
\subsubsection { t-Test für ungepaarte Stichproben}
\begin { enumerate}
\item \textbf { Modell} :
$$ X _ 1 ,...X _ n \mathrm { i.i.d } \sim \mathcal { N } ( \mu _ X, \sigma ^ 2 ) $$
$$ Y _ 1 ,...Y _ m \mathrm { i.i.d } \sim \mathcal { N } ( \mu _ Y, \sigma ^ 2 ) $$
\item \textbf { Nullhypothese} :
\begin { center}
\begin { tabular} { cll}
& $ H _ 0 : $ & $ \mu _ X = \mu _ Y $
\end { tabular}
\end { center}
\textbf { Alternativhypothese} :
\begin { center}
\begin { tabular} { clll}
& $ H _ A: $ & $ \mu _ X \neq \mu _ Y $ & zweiseitig \\
oder & $ H _ A: $ & $ \mu _ X > \mu _ Y $ & einseitig \\
oder & $ H _ A: $ & $ \mu _ X < \mu _ Y $ & einseitig \\
\end { tabular}
\end { center}
\item \textbf { Teststatistik} :
$$ T = \frac { \bar { X _ n } - \bar { Y _ m } } { S _ { pool } \sqrt { \frac { 1 } { n } + \frac { 1 } { m } } } $$
wobei
\begin { center}
\begin { tabular} { rl}
$ \displaystyle S _ { pool } $ & $ \displaystyle = \sqrt { \frac { 1 } { n + m - 2 } \bigg ( \sum _ { i = 1 } ^ n ( X _ i - \bar { X _ n } ) ^ 2 + \sum _ { i = 1 } ^ m ( Y _ i - \bar { Y _ m } ) ^ 2 \bigg ) } $ \\
& $ \displaystyle = \sqrt { \frac { 1 } { n + m - 2 } \bigg ( ( n - 1 ) \hat { \sigma _ X } ^ 2 + ( m - 1 ) \hat { \sigma _ Y } ^ 2 \bigg ) } $
\end { tabular}
\end { center}
Verteilung der Teststatistik unter $ H _ 0 : T \sim t _ { n + m - 2 } $
\item \textbf { Signifikanzniveau} : $ \alpha $
\item \textbf { Verwerfungsbereich für die Teststatistik} :\\
$$ K = \begin { cases }
(-\infty ,-t_ { n+m-2;1-\frac { \alpha } { 2} } ] \cup [t_ { n+m-2;1-\frac { \alpha } { 2} } ,\infty ), \quad \; \; \mathrm { bei} \; H_ A: \mu _ X \neq \mu _ Y \\
(-\infty ,-t_ { n+m-2;1-\frac { \alpha } { 2} } ], \qquad \qquad \qquad \qquad \kern 3.2em \mathrm { bei} \; H_ A: \mu _ X < \mu _ Y \\
[t_ { n+m-2;1-\frac { \alpha } { 2} } ,\infty ), \qquad \qquad \qquad \qquad \qquad \quad \kern 2em \mathrm { bei} \; H_ A: \mu _ X > \mu _ Y
\end { cases} $$
\item \textbf { Testentscheid} :\\
Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $ K $ liegt.
\end { enumerate}
\subsubsection { Zwei-Stichproben Wilcoxon-Test (Mann-Whitney Test)}
Seien zwei Stichproben
$$ X _ 1 ,...X _ n \mathrm { i.i.d } \sim \mathcal { N } ( \mu _ X, \sigma ^ 2 ) $$
$$ Y _ 1 ,...Y _ m \mathrm { i.i.d } \sim \mathcal { N } ( \mu _ Y, \sigma ^ 2 ) $$
und $ F _ X $ eine beliebige Verteilungsfunktion.
Wir definieren nun
$$ F _ Y ( x ) : = F _ X ( x - \delta ) $$
was einer verschobenen Funktion von $ F _ X $ entspricht.
2020-01-03 15:21:09 +01:00
\begin { center}
\rule { .5\linewidth } { 0.25pt}
\end { center}
\section { Regression}
\subsection { Einfache Lineare Regression}
\subsubsection { Modell}
\label { sec:regmod}
$$ y _ i = \beta _ 0 + \beta _ 1 x _ i + E _ i, $$
wobei $ i \in \mathbb { N } \leq n $ , $ E _ i \sim \mathcal { N } ( 0 , \sigma ^ 2 ) $ , $ E _ 1 ,...E _ n $ i.i.d., $ \mathbb { E } ( E _ i ) = 0 $ und $ \mathrm { Var } ( E _ i ) = \sigma ^ 2 $ \\
$ Y $ bezeichnen wir als \textbf { Zielvariable (response variable)} , $ x $ als \textbf { erklärende Variable (explanatory/predictor variable)} oder \textbf { Co-Variable (covariate)} und $ E _ i $ als Störfaktor (zufällig)
2020-01-06 11:24:33 +01:00
\begin { figure} [H]
\centering
\includegraphics [width=.12\textwidth] { sreg.png}
\caption { Einfache lineare Regression mit Residuen}
\label { fig:sreg}
\end { figure}
2020-01-03 15:21:09 +01:00
\subsubsection { Parameterschätzung}
Das Modell aus \ref { sec:regmod} mit der \textit { Methode der kleinsten Quadrate} liefert
$$ \hat { \beta _ 0 } , \hat { \beta _ 1 } \mathrm { \; Minimierung \; von \; } \sum _ { i = 1 } ^ n ( Y _ i - ( \beta _ 0 + \beta _ 1 x _ i ) ) ^ 2 , $$
daraus ergibt sich
$$ \hat { \beta _ 1 } = \frac { \sum _ { i = 1 } ^ n ( Y _ i - \bar { Y _ n } ) ( x _ i - \bar { x _ n } ) } { \sum _ { i = 1 } ^ n ( x _ i - \bar { x _ n } ) ^ 2 } $$
und
$$ \hat { \beta _ 0 } = \bar { Y _ n } - \hat { \beta _ 1 } \bar { x _ n } $$
dabei gilt
$$ \mathbb { E } ( \hat { \beta _ 0 } ) = \beta _ 0 , \mathbb { E } ( \hat { \beta _ 1 } ) = \beta _ 1 $$
Für den \textbf { Standardfehler} gilt
$$ s ( \hat { \beta _ 1 } ) = \frac { \sigma } { \sqrt { \sum _ { i = 1 } ^ n ( x _ i - \bar { x _ n } ) ^ 2 } } . $$
Die \textbf { Residuen}
$$ R _ i = Y _ i - ( \hat { \beta _ 0 } + \hat { \beta _ 1 ) x _ i } , i \in \{ 1 , 2 ,...,n \} $$
somit approximieren wir $ E _ i \approx R _ i $ und daraus
$$ \hat { \sigma } ^ 2 = \frac { 1 } { n - 2 } \sum _ { i = 1 } ^ nR _ i ^ 2 $$
\subsection { Tests und Vertrauensintervalle der einfachen linearen Regression}
\subsubsection { t-Test in der Regression}
\begin { enumerate}
\item \textbf { Modell} : \\
$$ Y _ i = \beta _ 0 + \beta _ 1 x _ i + E _ i $$ \\
$$ E _ 1 , E _ 2 , ..., E _ n \; \mathrm { i.i.d. } \; \mathcal { N } ( 0 , \sigma _ X ^ 2 ) $$
\item \textbf { Nullhypothese} :
$$ H _ 0 : \beta = 0 $$
\textbf { Alternativhypothese} :
$$ H _ A: \beta _ 1 \neq 0 $$
\item \textbf { Teststatistik} :
$$ T = \frac { \hat { \beta _ 1 } - 0 } { \hat { s } ( \hat { \beta _ 1 } ) } = \frac { \mathrm { beobachtet } - \mathrm { erwartet } } { \mathrm { geschätzter \; Standardfehler } } $$
Dabei ist $ \hat { s } $ der geschätzte Standardfehler $ \sqrt { \widehat { \mathrm { Var } } ( \hat { \beta _ 1 } ) } = \frac { \hat { \sigma } } { \sqrt { \sum _ { i = 1 } ^ n ( x _ i - \bar { x _ n } ) ^ 2 } } $
Verteilung der Teststatistik unter $ H _ 0 : T \sim t _ { n - 2 } $
\item \textbf { Signifikanzniveau} : $ \alpha $
\item \textbf { Verwerfungsbereich für die Teststatistik} :\\
$$ K = ( - \infty , - t _ { n - 2 ; 1 - \frac { \alpha } { 2 } } ] \cup [ t _ { n - 2 ; 1 - \frac { \alpha } { 2 } } , \infty ) $$
\item \textbf { Testentscheid} :\\
Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $ K $ liegt.
\end { enumerate}
Analog funktioniert auch ein \textit { t-Test} für $ H _ 0 : \beta _ 0 = 0 , H _ A: \beta _ 0 \neq 0 $
\subsubsection { P-Wert}
Vgl. dazu \ref { sec:pval} , jedoch anstatt $ n - 1 $ sind es hier $ n - 2 $ Freiheitsgrade. Der P-Wert der Regression wird meist nicht von Hand berechnet (vgl. \ref { sec:rreg} ).
\subsubsection { Vertrauensintervalle}
Die zweiseitigen Vertrauensintervalle für $ \beta _ i ( i = 0 , 1 ) $ zum Niveau $ 1 - \alpha $ sind gegeben durch
$$ [ \hat { \beta _ i } - \hat { s } ( \hat { \beta _ i } ) t _ { n - 2 ; 1 - \frac { \alpha } { 2 } } , \hat { \beta _ i } + \hat { s } ( \hat { \beta _ i } ) t _ { n - 2 ; 1 - \frac { \alpha } { 2 } } ] $$
Für grosse $ n $ approximieren wir $ t _ { n - 2 ; 1 - \frac { \alpha } { 2 } } $ mit $ \Phi ^ { - 1 } ( 1 - \frac { \alpha } { 2 } ) $ , somit für 95\% -Vertruaensintervalle
$$ [ \hat { \beta _ i } - 2 \hat { s } ( \hat { \beta _ i } ) , \hat { \beta _ i } + 2 \hat { s } ( \hat { \beta _ i } ) ] $$
\subsubsection { Bestimmtheitsmass $ R ^ 2 $ }
\label { sec:r2}
Sei $ \hat { y _ i } = \hat { \beta _ 0 } + \hat { \beta _ 1 } x _ i $ der Wert auf der Regressionsgerade am Punkt $ x _ i $ , dann gilt
$$ \underbrace { \sum _ { i = 1 } ^ n ( y _ i - \bar { y } ) ^ 2 } _ { SS _ Y } = \underbrace { \sum _ { i = 1 } ^ n ( y _ i - \hat { y _ i } ) ^ 2 } _ { SS _ E } + \underbrace { \sum _ { i = 1 } ^ n ( \hat { y _ i } - \bar { y } ) ^ 2 } _ { SS _ R } $$
wobei
\begin { itemize}
\item $ SS _ Y $ : die totale Variation der Zielvariablen (ohne Einfluss der erklärenden Variablen $ x $ )
\item $ SS _ E $ : die Variation des Fehlers (Residuen-Quadratsumme)
\item $ SS _ R $ : die Variation, welche durch die Regression erklärt wird (Einfluss der erklärenden Variablen $ x $ ).
\end { itemize}
Wir definieren
$$ R ^ 2 : = \frac { SS _ R } { SS _ Y } , R ^ 2 \in [ 0 , 1 ] $$
als Mass für den Antwil der totalen Variation, welche durch die Regression erklärt wird. \\
Wenn $ R ^ 2 $ gegen $ 1 $ geht ist es eine "gute" Regression.
$$ R ^ 2 = \hat { \rho } _ { Y \hat { Y } } ^ 2 $$
\subsubsection { Vorgehen bei einfacher linearer Regression}
\begin { enumerate}
\item Plotten von $ Y $ und $ x $ in einem Streudiagramm. Überprüfen, ob eine lineare Regression überhaupt sinnvoll ist.
\item Anpassen der Regressionsgeraden; d.h. Berechnung der Punktschätzer $ \beta _ 0 , \beta _ 1 $
\item Testen ob erklärende Variable $ x $ einen Einfluss auf die Zielvariable $ Y $ hat mittels \textit { t-Test} für $ H _ 0 : \beta _ 1 = 0 $ und $ H _ A : \beta _ 1 \neq 0 $ . Falls dieser Test ein nicht-signifikantes Ergebnis liefert, so hat die erklärende Variable keinen signifikanten Einfluss auf die Zielvariable.
\item Testen ob Regression durch Nullpunkt geht mit \textit { t-Test} für $ H _ 0 : \beta _ 1 = 0 $ und $ H _ A : \beta _ 1 \neq 0 $ . Falls dieser Test ein nicht-signifikantes Ergebnis liefert, so kann man das kleinere Modell mit Regression durch Nullpunkt benutzen (ohne Achsenabschnitt $ \beta _ 0 $ ).
\item Bei Interesse: Angabe von Vertrauensintervallen für $ \beta _ 0 $ und $ \beta _ 1 $ .
\item Angabe des Bestimmtheitsmass $ R ^ 2 $ . Dies ist in gewissem Sinne eine informellere (und zusätzliche) Quantifizierung als der statistische Test in Punkt 3.
\item Überprüfen der Modell-Voraussetzungen mittels Residuenanalyse (vgl. \ref { sec:resid} ).
\end { enumerate}
\subsection { Residuenanalyse}
\label { sec:resid}
\textbf { Annahmen und deren Überprüfung} :
\begin { enumerate}
\item $ \mathbb { E } ( E _ i ) = 0 $ (\textit { Tukey-Anscombe Plot} , vgl. \ref { sec:tukey} ) \\
Es gilt $ \mathbb { E } ( Y _ i ) = \beta _ 0 + \beta _ 1 x _ i + \mathbb { E } ( E _ i ) = \beta _ 0 + \beta _ 1 x _ i $ , sodass keine systematischen Fehler auftreten können. Dennoch können Abweichungen auftreten (z.B. komplizierte quadr. Verteilung)
\item $ E _ 1 ,E _ 2 ,...,E _ n $ i.i.d. (Plot bzgl. \textit { serieller Korrelation} , \textit { Tukey-Anscombe} ) \\
Die Fehler müssen unabhängig voneinander sein, insbesondere sind $ \mathrm { Cor } ( E _ i,E _ j ) = 0 $ für $ i \neq j $ , was bedeutet, dass keine \textit { serielle Korrelation} auftritt. Da die Fehler gleich verteilt sein müssen, ist die Varianz der Fehler auch gleich.
\item $ E _ 1 ,E _ 2 ,...,E _ n $ i.i.d. $ \mathcal { N } ( 0 , \sigma ^ 2 ) $ \\
Es wird angenommen, dass die Fehler normalverteilt sind. Überprüfung mit Normalplot der Residuen.
\end { enumerate}
\subsubsection { Tukey-Anscombe Plot}
\label { sec:tukey}
Plotten der Residuen $ R _ i $ gegen die angepassten Werte $ \hat { y _ i } $ . \\
Idealerweise sind die Punkte gleichmässig um $ 0 $ gestreut.
Bei verletzen Modellannehmen können auftreten:
\begin { itemize}
\item Kegelförmiges anwachsen von $ \hat { y _ i } $ . Falls $ \hat { y _ i } > 0 $ versuche
$$ \log ( Y _ i ) = \beta _ 0 + \beta _ 1 x _ i + E _ i $$
\item Ausreisser (Versuche robuste Regression)
\item Unregelmässige Struktur (möglicherweise kein linearer Zusammenhang)
\end { itemize}
\subsubsection { Serielle Korrelation}
Überprüfung der Unabhängigkeitsannahme der $ E _ 1 , E _ 2 , ..., E _ n $ : Plotten von $ r _ i $ gegen $ i $ . \\
Dabei sollte eine gleichmässige Verteilung um $ 0 $ entstehen.
\subsubsection { Normaleplot}
Wie in \ref { sec:normalplot} erwarten wir möglichst eine Gerade, falls die Fehler normalverteilt sind.
\subsection { Multiple lineare Regression}
Oft sind erklärende Variablen $ x _ { i, 1 } ,...,x _ { i,p - 1 } ; ( p> 2 ) $
\subsubsection { Modell}
$$ Y _ i = \beta _ 0 + \sum _ { j = 1 } ^ { p - 1 } \beta _ jx _ { i,j } + E _ i, i \in \mathbb { N } \leq n $$
$$ E _ 1 , E _ 2 , ..., E _ i \mathrm { \; i.i.d. } , \mathbb { E } ( E _ i ) = 0 , \mathrm { Var } ( E _ i ) = \sigma ^ 2 $$
In Matrixschreibweise:
$$ \underbrace { Y } _ { n \times 1 } = \underbrace { X } _ { n \times p } \times \underbrace { \beta } _ { p \times 1 } + \underbrace { E } _ { n \times 1 } $$
wobei:
\begin { itemize}
\item $ Y = ( Y _ 1 ,...,Y _ n ) ^ T $ \\
\item $ X: ( n \times p ) $ -Matrix mit Spaltenvektoren $ ( 1 , 1 ,... 1 ) ^ T, ( x _ { 1 , 1 } ,x _ { 2 , 1 } ,...,x _ { n, 1 } ) ^ T,..., ( x _ { 1 ,p - 1 } ,x _ { 2 ,p - 1 } ,...,x _ { n,p - 1 } ) ^ T $ \\
\item $ \beta = ( \beta _ 0 ,..., \beta _ { p - 1 } ) $ , der Parametervektor \\
\item $ E = ( E _ 1 , ..., E _ n ) ^ T $ , der Fehlervektor
\end { itemize}
Somit ist eine \textbf { einfache lineare Regression} \\
\begin { center}
\begin { tabular} { ccc}
$$ p = 2 , $$ & $$ X = \begin { pmatrix }
1 & x_ 1 \\
1 & x_ 2 \\
\vdots & \vdots \\
1 & x_ n
\end { pmatrix} ,$$ & $$ \beta = \begin { pmatrix}
\beta _ 0 \\
\beta _ 1
\end { pmatrix} ^ T$$
\end { tabular}
\end { center}
Analog dazu für \textbf { lineare Regression mit mehreren erklärenden Varablen}
$ Y _ i = \beta _ 0 + \beta _ 1 x _ { i, 1 } + \beta _ 2 x _ { i, 2 } + E _ i, i \in \mathbb { N } \leq n $
\begin { center}
\begin { tabular} { ccc}
$$ p = 3 , $$ & $$ X = \begin { pmatrix }
1 & x_ { 1,1} & x_ { 1,2} \\
1 & x_ { 2,1} & x_ { 2,2} \\
\vdots & \vdots & \vdots \\
1 & x_ { n,1} & x_ { n,2}
\end { pmatrix} ,$$ & $$ \beta = \begin { pmatrix}
\beta _ 0 \\
\beta _ 1 \\
\beta _ 2
\end { pmatrix} ^ T$$
\end { tabular}
\end { center}
ebenfalls für \textbf { lineare Regression mit quadratisch erklärenden Varablen}
$ Y _ i = \beta _ 0 + \beta _ 1 x _ { i } + \beta _ 2 x _ { i } ^ 2 + E _ i, i \in \mathbb { N } \leq n $
\begin { center}
\begin { tabular} { ccc}
$$ p = 3 , $$ & $$ X = \begin { pmatrix }
1 & x_ { 1} & x_ { 1} ^ 2 \\
1 & x_ { 2} & x_ { 2} ^ 2 \\
\vdots & \vdots & \vdots \\
1 & x_ { n} & x_ { n} ^ 2
\end { pmatrix} ,$$ & $$ \beta = \begin { pmatrix}
\beta _ 0 \\
\beta _ 1 \\
\beta _ 2
\end { pmatrix} ^ T$$
\end { tabular}
\end { center}
und schlussendlich für eine \textbf { Regression mit transformierten erklärenden Varablen} \\
$ Y _ i = \beta _ 0 + \beta _ 1 \log ( x _ { i, 2 } ) + \beta _ 2 \sin ( \pi x _ { i, 3 } ) + E _ i, i \in \mathbb { N } \leq n $
\begin { center}
\begin { tabular} { ccc}
$$ p = 3 , $$ & $$ X = \begin { pmatrix }
1 & \log (x_ { 1,2} ) & \sin (\pi x_ { 1,3} ) \\
1 & \log (x_ { 2,2} ) & \sin (\pi x_ { 2,3} ) \\
\vdots & \vdots & \vdots \\
1 & \log (x_ { n,2} ) & \sin (\pi x_ { n,3} )
\end { pmatrix} ,$$ & $$ \beta = \begin { pmatrix}
\beta _ 0 \\
\beta _ 1 \\
\beta _ 2
\end { pmatrix} ^ T$$
\end { tabular}
\end { center}
\subsubsection { Interpretation}
\begin { itemize}
\item Bei \textbf { einfacher linearer Regression} ist $ \beta _ 1 $ die erwartete Zunahme der Zielgrösse bei Erhöhung von $ x _ 1 $ um eine Einheit.
\item Bei \textbf { multipler linearer Regression} ist $ \beta _ i $ die erwartete Zunahme der Zielgrösse bei Erhöhung von $ x _ i $ um eine Einheit - bei \textbf { Fixierung der anderen Variablen} .
\end { itemize}
2020-01-06 11:24:33 +01:00
\subsubsection { Parameterschätzung und t-Test}
2020-01-03 15:21:09 +01:00
Auch hier benutzen wir die \textit { Methode der kleinsten Quadrate} . \\
$$ \hat { \beta _ 0 } , \hat { \beta _ 1 } ,..., \hat { \beta } _ { p - 1 } \mathrm { \; Minimierung \; von \; } \sum _ { i = 1 } ^ n ( Y _ i - ( \beta _ 0 + \beta _ 1 x _ { i, 1 } + ... + \beta _ { p - 1 } x _ { i,p - 1 } ) ) ^ 2 , $$
falls $ p < n $
$$ \hat { \beta } = ( X ^ TX ) ^ { - 1 } X ^ TY. $$
Für die Fehlervarianz
$$ \hat { \sigma } = \frac { 1 } { n - p } \sum _ { i = 1 } ^ nR ^ 2 _ i,R _ i = Y _ i - \bigg ( \hat { \beta } _ 0 + \sum _ { j = 1 } ^ { p - 1 } \hat { \beta } _ jx _ { i,j } \bigg ) $$
2020-01-06 11:24:33 +01:00
Den \textit { t-Test} können wir analog zur \textit { einfachen Regression} mit
\begin { center}
\begin { tabular} { ll}
$ H _ 0 : \beta _ j = 0 $ & \multirow { 2} { *} { $ , j \in \mathbb { N } \leq p - 1 $ } \\
$ H _ A: \beta _ i \neq 0 $ &
\end { tabular}
\end { center}
durchführen. Dabei misst $ \beta _ i $ den linearen Effekt der $ i $ -ten erklärenden Variable auf Zielvariable $ Y $ \textbf { nach Elimination} der linearen Effekte auf $ Y $ aller anderen Variablen. Es ist nicht möglich, durch direkte einfach lineare Regression von $ Y $ zur $ j $ -ten erklärenden Variable $ \beta _ j $ zu erhalten!
2020-01-03 15:21:09 +01:00
\subsubsection { F-Test}
Prüft, ob es mindestens eine erklärende Variable gibt, die einen signifikanten Effekt auf die Zielvariable hat.
\begin { center}
\begin { tabular} { lll}
$ H _ 0 : $ & $ \beta _ 1 = ... = \beta _ { p - 1 } = 0 $ \\
$ H _ A: $ & mindestens ein $ \beta _ j \neq 0 $ , & $ j \in \mathbb { N } \leq p - 1 $
\end { tabular}
\end { center}
Hier können einzelne Variablen signifikant sein und andere nicht. Bei starker Korrelation zwischen zwei kann man eine weglassen, da keine neue Information.
\subsubsection { Bestimmtheitsmass $ R ^ 2 $ }
Es gilt wie in \ref { sec:r2}
$$ R ^ 2 = \hat { \rho } _ { Y \hat { Y } } ^ 2 $$
\begin { center}
\rule { .5\linewidth } { 0.25pt}
\end { center}
2020-01-06 11:24:33 +01:00
\begin { center}
\rule { \linewidth } { 0.25pt}
\end { center}
\scriptsize
2020-01-03 15:21:09 +01:00
2020-01-06 11:24:33 +01:00
\end { multicols*}
\newpage
\begin { multicols*} { 2}
\section { R}
\subsection { diskrete Verteilungen}
\begin { lstlisting}
# d... berechnet P(X = x)
# p... berechnet P(X <= x)
# q... berechnet Quantile der Verteilung
# r... zieht eine bestimmte Anzahl Realisierungen der gewaehlten Verteilung
\end { lstlisting}
\subsubsection { Binomialverteilung}
\begin { lstlisting}
dbinom(x = 5, size = 10, prob = 0.5) # Berechnet P(X = 5) fuer X ~ Binomial(10, 0.5)
pbinom(q = 5, size = 10, prob = 0.5) # Berechnet P(X <= 5) fuer X ~ Binomial(10, 0.5)
qbinom(p = 0.2, size = 10, prob = 0.5) # Berechnet das 20%-Quantil fuer X ~ Binomial(10, 0.5)
rbinom(n = 100, size = 10, prob = 0.5) # Zieht zufaellig n=100 Realisierungen von X ~ Binomial(10, 0.5)
# (fuehren Sie den oberen Befehl rbinom 2x aus, Sie erhalten andere Werte)
\end { lstlisting}
\subsubsection { Poissonverteilung}
\begin { lstlisting}
dpois(x = 5, lambda = 2) # Berechnet P(X = 5) fuer X ~ Poisson(2)
ppois(q = 5, lambda = 2) # Berechnet P(X <= 5) fuer X ~ Poisson(2)
qpois(p = 0.2, lambda = 2) # Berechnet das 20%-Quantil fuer X ~ Poisson(2)
rpois(n = 100, lambda = 2) # Zieht n=100 Realisierungen von X ~ Poisson(2)
\end { lstlisting}
\subsubsection { Binomialtest}
\begin { lstlisting}
## Der Binomialtest kann in R mit dem Befehl binom.test(...) durchgefuehrt werden.
## Die Argumente der Funktion sind:
## - x: Der beobachtete Wert der Teststatistik
## - n, p: Die Parameter der Verteilung der Teststatistik (Binomial(n,p)) unter der Nullhypothese
## - alternative:
## Die Wahl der Alternativhypothese. Moegliche Optionen sind:
## - "less" fuer H_ A: pi < pi_ 0
## - "greater" fuer H_ A: pi > pi_ 0
## - "two.sided" fuer H_ A: pi ungleich pi_ 0
## - conf.level:
## Das Konfidenzniveau fuer das Vertrauensintervall. Entspricht (1 - Signifikanzniveau).
## Beispiel:
## Wir vermuten, dass ein Wuerfel zu viele 6er wuerfelt.
## Wir haben in 50 Wuerfen 13 mal eine sechs gewuerfelt.
## Wir moechten auf dem 1%-Signifikanzniveau testen, ob der Wuerfel zu viele 6er wuerfelt.
binom.test(x = 13, n = 50, p = 1/6, alternative = "greater", conf.level = 0.99)
\end { lstlisting}
\subsection { Kennzahlen}
\begin { lstlisting}
## Wir haben folgende Daten beobachtet / gemessen
x <- c(1.1, 2.3, -2.4, 3.9, 5.1, -1.7, 2.0, -1.1, 3.4, 0.7)
y <- c(0.8, 2.1, -1.3, 1.0, 0.4, -3.2, 3.1, -0.1, 5.1, 4.3)
mean(x) # arithmetisches Mittel
var(x) # Varianz
sd(x) # Standardabweichung
max(x) # Maximum
min(x) # Minimum
median(x) # Median
quantile(x, probs = 0.25) # empirisches 25%-Quantil
summary(x) # Gibt Ueberblick ueber einige Kennzahlen
cor(x,y) # Empirische Korrelatin von x und y
\end { lstlisting}
\subsection { Grafische Methoden}
\begin { lstlisting}
plot(x, y) # Streudiagramm von x und y
hist(x) # Histogramm Typ "Frequency" (siehe VL 8)
hist(x, freq = FALSE) # Histogramm Typ "Density" (siehe VL 8)
hist(x, breaks = 10) # mit breaks = ... kann die Anzahl Balken gesteuert werden, siehe Serie 8)
plot(ecdf(x)) # Empirische kumulative Verteilungsfunktion
boxplot(x) # Boxplot
z <- rnorm(n = 100, mean = 2, sd = 1)
qqnorm(z) # QQ-Plot, welcher mit den theoretischen Quantilen der N(0,1)-Verteilung vergleicht.
\end { lstlisting}
\subsection { Stetige Verteilungen}
\subsubsection { Uniformverteilung}
\begin { lstlisting}
dunif(x = 2.5, min = 1, max = 3) # Wert der Dichte f(x) von X ~ Uniform([1,3]) an der Stelle x=2.5
punif(q = 2.5, min = 1, max = 3) # Wert der kum. Verteilungsfkt. F(x) von X ~ Uniform([1,3]) an der Stelle x=2.5
qunif(p = 0.2, min = 1, max = 3) # 20%-Quantil von X ~ Uniform([1,3])
runif(n = 100, min = 1, max = 3) # Zieht zufaellig 100 Realisierungen von X ~ Uniform([1,3])
\end { lstlisting}
\subsubsection { Exponentialverteilung}
\begin { lstlisting}
dexp(x = 2, rate = 1) # Wert der Dichte f(x) von X ~ Exp(1) an der Stelle x = 2
pexp(q = 2, rate = 1) # Wert der kum. Verteilungsfunktion F(x) von X ~ Exp(1) an der Stelle x = 2
qexp(p = 0.2, rate = 1) # 20%-Quantil von X ~ Exp(1)
rexp(n = 100, rate = 1) # Zieht zufaellig 100 Realisierungen von X ~ Exp(1)
\end { lstlisting}
\subsubsection { Normalverteilung}
\begin { lstlisting}
dnorm(x = 3, mean = 1, sd = sqrt(2)) # Wert der Dichte f(x) von X ~ N(1,2) an der Stelle x = 3
pnorm(q = 3, mean = 1, sd = sqrt(2)) # Wert der kum. VF F(x) von X ~ N(1,2) an der Stelle x = 3
qnorm(p = 0.2, mean = 1, sd = sqrt(2)) # 20%-Quantil von X ~ N(1,2)
rnorm(n = 100, mean = 1, sd = sqrt(2)) # Zieht zufaellig 100 Realisierungen von X ~ N(1,2)
\end { lstlisting}
\subsubsection { Standardnormalverteilung}
\begin { lstlisting}
dnorm(x = 3) # Wenn man meam = ..., sd = ... nicht angibt, wird eine N(0,1)-Verteilung angenommen.
pnorm(q = 3)
qnorm(p = 0.2) # entspricht Phi^ { -1} (0.2)
rnorm(n = 100)
\end { lstlisting}
\subsection { Ein-Stichproben t-Test (gepaart)}
\begin { lstlisting}
## Der Ein-Stichproben t-Test kann in R mit dem Befehl t.test(...) durchgefuehrt werden.
## Die benoetigten Argumente der Funktion sind:
## - x: Der Vektor mit den beobachteten Werten
## - mu: Der Wert mu_ 0 der Nullhypothese
## - alternative:
## Die Wahl der Alternativhypothese. Moegliche Optionen sind:
## - "less" fuer H_ A: mu < mu_ 0
## - "greater" fuer H_ A: mu > mu_ 0
## - "two.sided" fuer H_ A: mu ungleich mu_ 0
## - conf.level:
## Das Konfidenzniveau fuer das Vertrauensintervall. Entspricht (1 - Signifikanzniveau).
t.test(x = x, y = y, alternative = "greater", mu = 0, paired = TRUE, conf.level = 0.95)
\end { lstlisting}
\subsection { Zwei-Stichproben t-Test (ungepaart)}
\begin { lstlisting}
## Um in R einen ungepaarten Zwei-Stichproben t-Test durchzufuehren, verwenden
## Sie ebenfalls die Funktion t.test(...) mit den Argumenten
## - x: Der Vektor mit den beobachteten Werten der ersten Stichprobe
## - y: Der Vektor mit den beobachteten Werten der zweiten Stichprobe
## - mu: Der Wert mu_ 0 der Nullhypothese (typischerweise = 0, da Nullhypothese: "Es gibt keinen Unterschied")
## - alternative:
## Die Wahl der Alternativhypothese. Moegliche Optionen sind:
## - "less" fuer H_ A: mu_ X - mu_ Y < mu_ 0
## - "greater" fuer H_ A: mu_ X - mu_ Y > mu_ 0
## - "two.sided" fuer H_ A: mu_ X - mu_ Y ungleich mu_ 0
## - paired = FALSE (ungepaarter Test)
## - var.equal = TRUE (standardmaessig ist var.equal = FALSE, dann wird ein Welch-Test durchgefuehrt)
## - conf.level:
## Das Konfidenzniveau fuer das Vertrauensintervall. Entspricht (1 - Signifikanzniveau).
t.test(x = x, y = y, alternative = "two.sided", mu = 80.00, paired = FALSE, conf.level = 0.95)
\end { lstlisting}
\newpage
2020-01-03 15:21:09 +01:00
\subsection { Wilcoxon-Test}
\label { sec:wilcoxon}
\begin { lstlisting}
2020-01-06 11:24:33 +01:00
## Ein- und Zwei-Stichproben Wilcoxon Tests stehen in R unter dem Befehl wilcox.test(...) zur Verfuegung.
## Die Argumente der Funktion sind analog zu denjenigen der t-Tests.
2020-01-03 15:21:09 +01:00
wilcox.test(x = x, alternative = "greater", mu = 80)
\end { lstlisting}
2020-01-06 11:24:33 +01:00
\subsection { Verteilungen}
\lstinline { pt} für kumulative Verteilungsfunktion \\
\lstinline { qt} für Quantile
\subsection { Regression}
\label { sec:rreg}
\subsubsection { Einfache Lineare Regression}
\begin { lstlisting}
## Um in R ein einfaches lineares Regressionsmodell anzupassen, verwendet man den R-Befehl lm(...).
## Wir betrachten das Beispiel mit Buchpreis und Seitenzahl aus dem Vorlesungsskript.
x <- c(50, 100, 150, 200, 250, 300, 350, 400, 450, 500) ## Seitenzahl, erklaerende Variable.
y <- c(9.9, 10.7, 13.3, 15.2, 16.4, 23.6, 23.5, 21.1, 28.9, 29.1) ## Buchpreis, Zielvariable.
\end { lstlisting}
Eigentliche Regression:
2020-01-03 15:21:09 +01:00
\begin { lstlisting}
2020-01-06 11:24:33 +01:00
## Um das lineare Regressionsmodell Y_ i = beta_ 0 + beta_ 1 x_ i + E_ i zu fitten, benutzt man
fit <- lm(y ~ x)
## Man kann Achsenabschnitt und Steigung sehen, wenn man sich das Objekt 'fit' anschaut:
fit
\end { lstlisting}
oder
\begin { lstlisting}
fit <- lm(y ~ x)
summary(fit)
2020-01-03 15:21:09 +01:00
\end { lstlisting}
2020-01-06 11:24:33 +01:00
liefert den Output
\begin { lstlisting}
Residuals:
Min 1Q Median 3Q Max
-3.6958 -0.5944 -0.2203 0.9300 3.3048
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.793333 1.391060 4.884 0.00122 **
x 0.045006 0.004484 10.037 8.25e-06 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.036 on 8 degrees of freedom
Multiple R-squared: 0.9264, Adjusted R-squared: 0.9172
F-statistic: 100.8 on 1 and 8 DF, p-value: 8.254e-06
\end { lstlisting}
somit $ Y _ i = 6 . 793333 + 0 . 045006 x _ i $
2020-01-03 15:21:09 +01:00
2020-01-06 11:24:33 +01:00
\textbf { Weitere Plots}
\begin { lstlisting}
## Residuenplots erhaelt man einfach mittels
plot(fit) # man muss in der "Console" mehrmals die Eingabetaste dr¸ cken, um die Plots zu sehen.
2020-01-03 15:21:09 +01:00
2020-01-06 11:24:33 +01:00
## oder:
plot(fit$ fitted, fit $ resid) ## Tukey-Anscombe plot
qqnorm(fit$ residuals ) ## qq - Plot der Residuen
2020-01-03 15:21:09 +01:00
2020-01-06 11:24:33 +01:00
## 95%-Vertrauensintervalle f¸ r Koeffizienten (siehe VL 14, Slide 8)
confint(fit)
2020-01-03 15:21:09 +01:00
2020-01-06 11:24:33 +01:00
## 95%-Vertrauens-/Vorhersageintervalle (siehe VL 14, Slides 9 und 10)
nd <- data.frame(x=1, y=NA)
predict(fit, newdata = nd, interval = "confidence") ## Vertrauensintervall
predict(fit, newdata = nd, interval = "prediction") ## Vorhersageintervall
2020-01-03 15:21:09 +01:00
2020-01-06 11:24:33 +01:00
## Nehmen wir an, die Daten befinden sich in einem data.frame (anstelle von zwei Vektoren).
Daten_ Buch <- data.frame(Seitenzahl = x, Buchpreis = y)
Daten_ Buch
## Dieselbe Regression wie oben kann man nun berechnen, indem man entweder schreibt:
fit2 <- lm(Daten_ Buch$ Buchpreis ~ Daten _ Buch $ Seitenzahl)
summary(fit2)
## oder alternativ:
fit3 <- lm(Buchpreis ~ Seitenzahl, data = Daten_ Buch)
summary(fit3)
## Alle 3 Varianten (fit, fit2, fit3) liefern exakt dasselbe Resultat.
\end { lstlisting}
\subsubsection { Multiple lineare Regression}
\begin { lstlisting}
## Um in R ein multiples lineares Regressionsmodell anzupassen, verwendet man ebenfalls den R-Befehl lm(...).
## Wir betrachten das Beispiel mit Buchpreis und Seitenzahl aus dem Vorlesungsskript, moechten nun jedoch
## als zweite erklaerende Variable noch das Erscheinungsjahr des Buches ins Modell aufnehmen.
x1 <- c(50, 100, 150, 200, 250, 300, 350, 400, 450, 500) ## Seitenzahl, erklaerende Variable 1.
x2 <- c(2017, 1999, 2013, 2004, 2001, 1979, 2018, 2008, 2015, 2002) ## Erscheinungsjahr, erklaerende Variable 2.
y <- c(9.9, 10.7, 13.3, 15.2, 16.4, 23.6, 23.5, 21.1, 28.9, 29.1) ## Buchpreis, Zielvariable.
## Das multiple lineare Regressionsmodell Y_ i = beta_ 0 + beta_ 1 x_ 1 + beta_ 2 x_ 2 + E_ i berechnet man
## mit dem Befehl:
fit <- lm(y ~ x1 + x2)
## Die restlichen Befehle sind analog zur einfachen linearen Regression.
\end { lstlisting}
\section { Anhang}
2020-01-03 15:21:09 +01:00
\label { sec:anhang}
\begin { figure} [H]
\begin { tabular} { l|llll|c|c}
\hline
\multirow { 2} { *} { } & \multicolumn { 4} { c} { Annahmen} & \multicolumn { 1} { |c} { \multirow { 2} { *} { \begin { tabular} { l} $ n _ \mathrm { min } $ bei \\ $ \alpha = 0 . 05 $ \end { tabular} } } & \multicolumn { 1} { |c} { \multirow { 2} { *} { \begin { tabular} { c} Macht \\ für Bsp.\end { tabular} } } \\
& \multicolumn { 1} { c} { \begin { tabular} { c} $ \sigma _ X $ \\ bekannt\end { tabular} } & \multicolumn { 1} { c} { $ X _ i \sim \mathcal { N } $ } & \multicolumn { 1} { c} { \begin { tabular} { c} sym. \\ Verteilung\end { tabular} } & \multicolumn { 1} { c} { i.i.d.} & \multicolumn { 1} { |c|} { } & \multicolumn { 1} { c} { } \\
\hline \hline
z-Test & \multicolumn { 1} { c} { $ \sbullet $ } & \multicolumn { 1} { c} { $ \sbullet $ } & \multicolumn { 1} { c} { $ \sbullet $ } & \multicolumn { 1} { c|} { $ \sbullet $ } & 1 & 89\% \\
t-Test & & \multicolumn { 1} { c} { $ \sbullet $ } & \multicolumn { 1} { c} { $ \sbullet $ } & \multicolumn { 1} { c|} { $ \sbullet $ } & 2 & 79\% \\
Wilcoxon & & & \multicolumn { 1} { c} { $ \sbullet $ } & \multicolumn { 1} { c|} { $ \sbullet $ } & 6 & 79\% \\
Vorzeichen & & & & \multicolumn { 1} { c|} { $ \sbullet $ } & 5 & 48\% \\
\hline
\end { tabular}
\caption { Übersicht der verschiedenen Tests für $ \mu $ }
\label { fig:tests}
\end { figure}
\section * { Referenzen}
\begin { enumerate}
2020-01-06 11:24:33 +01:00
\item Skript "Vorlesungsskript Mathematik IV für Agrarwissenschaften, Erdwissenschaften, Lebensmittelwissenschaften und Umweltnaturwissenschaften", Dr. Jan Ernest, HS19 \\
2020-01-03 15:21:09 +01:00
\item Statistik\_ MatheIV.pdf, scmelina, HS18
2020-01-06 11:24:33 +01:00
\item ZF\_ Statistik\_ ClemenceBoutry.pdf ,clboutry, FS16
2020-01-03 15:21:09 +01:00
\end { enumerate}
2020-01-06 11:24:33 +01:00
\section * { Bildquellen}
\begin { itemize}
\item Abb. \ref { fig:poisson-approx} : Skbkekas, \url { https://upload.wikimedia.org/wikipedia/commons/1/16/Poisson_ pmf.svg}
\item Abb. \ref { fig:histogram} : DanielPenfield, \url { https://upload.wikimedia.org/wikipedia/commons/c/c3/Histogram_ of_ arrivals_ per_ minute.svg}
\item Abb. \ref { fig:boxplot} : towardsdatascience.com, \url { https://towardsdatascience.com/understanding-boxplots-5e2df7bcbd5}
\item Abb. \ref { fig:scatter} : DanielPenfield, \url { https://upload.wikimedia.org/wikipedia/commons/a/af/Scatter_ diagram_ for_ quality_ characteristic_ XXX.svg}
\item Abb. \ref { fig:kumulative} : Skript
\item Abb. \ref { fig:sreg} : Skript
\end { itemize}
\doclicenseImage \\
\faGlobe \kern 1em \url { https://n.ethz.ch/~jannisp} \\
\faGit \kern 0.88em \url { https://git.thisfro.ch/thisfro/statistik-zf} \\
Jannis Portmann, HS19
2020-01-03 15:21:09 +01:00
\end { multicols*}
\end { document}