diff --git a/README.md b/README.md index 9f9b6d0..9fd3e83 100644 --- a/README.md +++ b/README.md @@ -1,3 +1,6 @@ # Statistik-ZF +Zusammenfassung für Mathematik IV: Statistik -Zusammenfassung für Mathematik IV: Statistik \ No newline at end of file +## Compiled `.pdf` +Find it here: [https://n.ethz.ch/~jannisp/download/Mathematik%20IV%20-%20Statistik/] +`pdfTeX 3.14159265-2.6-1.40.20` was used to compile it diff --git a/img/boxplot.png b/img/boxplot.png new file mode 100644 index 0000000..aa08590 Binary files /dev/null and b/img/boxplot.png differ diff --git a/zf-statistik.tex b/zf-statistik.tex new file mode 100644 index 0000000..330eaab --- /dev/null +++ b/zf-statistik.tex @@ -0,0 +1,1014 @@ +\documentclass[8pt,landscape]{extarticle} +\usepackage{multicol} +\usepackage{calc} +\usepackage{ifthen} +\usepackage[a4paper, landscape]{geometry} +\usepackage{hyperref} +\usepackage{ccicons} +\usepackage{amsmath, amsfonts, amssymb, amsthm} +\usepackage{listings} +\usepackage{xcolor} +\usepackage{graphicx} +\usepackage{multirow} +\usepackage{float} +\usepackage[ + type={CC}, + modifier={by-nc-sa}, + version={3.0}, +]{doclicense} + +\graphicspath{ {./img/} } + +\definecolor{codegreen}{rgb}{0,0.6,0} +\definecolor{codegray}{rgb}{0.5,0.5,0.5} +\definecolor{codepurple}{rgb}{0.58,0,0.82} +\definecolor{backcolour}{rgb}{0.9,0.9,0.9} + +\lstdefinestyle{mystyle}{ + backgroundcolor=\color{backcolour}, + commentstyle=\color{codegreen}, + keywordstyle=\color{magenta}, + numberstyle=\tiny\color{codegray}, + stringstyle=\color{codepurple}, + basicstyle=\ttfamily\footnotesize, + breakatwhitespace=false, + breaklines=true, + captionpos=b, + keepspaces=true, + numbers=left, + numbersep=5pt, + showspaces=false, + showstringspaces=false, + showtabs=false, + tabsize=2 +} + +\lstset{style=mystyle} + +% To make this come out properly in landscape mode, do one of the following +% 1. +% pdflatex latexsheet.tex +% +% 2. +% latex latexsheet.tex +% dvips -P pdf -t landscape latexsheet.dvi +% ps2pdf latexsheet.ps + + +% If you're reading this, be prepared for confusion. Making this was +% a learning experience for me, and it shows. Much of the placement +% was hacked in; if you make it better, let me know... + + +% 2008-04 +% Changed page margin code to use the geometry package. Also added code for +% conditional page margins, depending on paper size. Thanks to Uwe Ziegenhagen +% for the suggestions. + +% 2006-08 +% Made changes based on suggestions from Gene Cooperman. + + +% To Do: +% \listoffigures \listoftables +% \setcounter{secnumdepth}{0} + + +% This sets page margins to .5 inch if using letter paper, and to 1cm +% if using A4 paper. (This probably isn't strictly necessary.) +% If using another size paper, use default 1cm margins. +\ifthenelse{\lengthtest { \paperwidth = 11in}} + { \geometry{top=.5in,left=.5in,right=.5in,bottom=.5in} } + {\ifthenelse{ \lengthtest{ \paperwidth = 297mm}} + {\geometry{top=1cm,left=1cm,right=1cm,bottom=1cm} } + {\geometry{top=1cm,left=1cm,right=1cm,bottom=1cm} } + } + +% Turn off header and footer +\pagestyle{empty} + + +% Redefine section commands to use less space +\makeatletter +\newcommand\sbullet[1][.5]{\mathbin{\vcenter{\hbox{\scalebox{#1}{$\bullet$}}}}} +\renewcommand{\section}{\@startsection{section}{1}{0mm}% + {-1ex plus -.5ex minus -.2ex}% + {0.5ex plus .2ex}%x + {\normalfont\large\bfseries}} +\renewcommand{\subsection}{\@startsection{subsection}{2}{0mm}% + {-1explus -.5ex minus -.2ex}% + {0.5ex plus .2ex}% + {\normalfont\normalsize\bfseries}} +\renewcommand{\subsubsection}{\@startsection{subsubsection}{3}{0mm}% + {-1ex plus -.5ex minus -.2ex}% + {1ex plus .2ex}% + {\normalfont\small\bfseries}} +\makeatother + +% Define BibTeX command +\def\BibTeX{{\rm B\kern-.05em{\sc i\kern-.025em b}\kern-.08em + T\kern-.1667em\lower.7ex\hbox{E}\kern-.125emX}} + +% Don't print section numbers +% \setcounter{secnumdepth}{0} + + +\setlength{\parindent}{0pt} +\setlength{\parskip}{0pt plus 0.5ex} + +\lstset{language=R} + +% ----------------------------------------------------------------------- + +\begin{document} + +\raggedright +\footnotesize +\begin{multicols*}{3} + + +% multicol parameters +% These lengths are set only within the two main columns +%\setlength{\columnseprule}{0.25pt} +\setlength{\premulticols}{1pt} +\setlength{\postmulticols}{1pt} +\setlength{\multicolsep}{1pt} +\setlength{\columnsep}{2pt} + +\begin{center} + \Large{Statistik ZF} \\ + \small{Mathematik IV, zu VL von Jan Ernest} \\ + \small{Jannis Portmann 2020} \\ + {\ccbyncsa} +\end{center} + +\begin{center} + \rule{\linewidth}{0.25pt} +\end{center} + +\section{Modelle für Zähldaten} +\subsection{Wahrscheinlichkeitsmodelle} +\begin{itemize} + \item Grundraum $\Omega$ mit Elementarereignissen $\omega_i$ (z.B. Augenzahl eines Würfels) + \item Ereignisse $A$, $B$, $C$, ... (Teilmenge von $\Omega$) (z.B. Kombinationen von Augenzahlen) + \item Wahrscheinlichkeit für jedes Ereignis $P(A)$, $P(B)$, ... +\end{itemize} + +\subsection{Operatoren} +\begin{itemize} + \item $A \cup B$ - ODER (inklusiv, "und/oder") \\ + \item $A \cap B$ - UND (Konjunktion) \\ + \item $A^c$ - NICHT (Negation) \\ + \item $A \backslash B = A \cap B^c$ - A UND NICHT B +\end{itemize} + +\subsection{Axiome der Wahrscheinlichkeitsrechnug} +\begin{enumerate} + \item $P(A) \geq 0$ - Die Wahrscheinlichkeiten sind immer nicht-negativ + \item $P(\Omega) = 1$ - Das Ereignis $\Omega$ hat Wahrscheinlichkeit eins + \item $P(A \cup B) = P(A) + P(B)$ falls $A \cap B = \emptyset$ (A und B sind disjunkt), d.h. für alle Ereignisse, die sich gegenseitig ausschliessen. +\end{enumerate} +Daraus folgen: +\begin{itemize} + \item $P(A^c) = 1 - P(A)$ + \item $P(A \cup B) = P(A) + P(B) - P(A \cap B)$ +\end{itemize} + +\subsection{Wahrscheinlichkeiten berechnen} +Für diskrete Wahrscheinlichkeitsmodelle +\subsubsection{Summe der Elementarereinisse (verschiedene $P(\omega_i)$)} +$$P(A) = \sum_{\omega \in A} P(\{ \omega \})$$ + +\subsubsection{Laplace-Modell (gleiche $P(\omega_i)$)} +\label{section:laplace} +$$P(E)=\frac{g}{m}$$ +günstig/möglich + +\subsection{Unabhängigkeit} +$A$ und $B$ sind stochastisch unabhängig, wenn gilt: +$$P(A \cap B) = P(A)P(B)$$ +somit können wir dies annehmen, falls wir wissen, dass $A$ und $B$ nicht kausal voneinander abhängig sind + +\subsection{Bedingte Wahrscheinlichkeit (Abhängigkeit)} +\subsubsection{Satz von Bayes} +$$P(A|B)P(B)=P(B|A)P(A)=P(A \cap B)$$ +somit ist $P(A|B)$ nicht unbedingt $P(B|A)$\footnote{$P(A|B)$: $P(A)$ gegeben $B$} + +\subsubsection{Gesetz der totalen Wahrscheinlichkeit} +$$P(B) = \sum_{i=1}^k P(B|A_k)P(A_k)$$ + +\subsubsection{Odds} +$$\mathrm{odds}(E) = \frac{P(E)}{1-P(E)} = \frac{P(E)}{P(E^c)}$$ +(vgl. Abschnitt \ref{section:laplace}) +$$\mathrm{odds}(E | A) = \frac{P(E | A)}{1-P(E|A)}$$ + +\subsubsection{Odds-Ratio} +$$\mathrm{OR} = \frac{\mathrm{odds}(E|A)}{\mathrm{odds}(E|B)}$$ + +\subsection{Zufallsvariable} +$$X(\omega) = x$$ + +\begin{center} +\begin{tabular}{ll} + $X$: & $\Omega \rightarrow \mathbb{R}$ \\ + & $\omega \rightarrow X(\omega)$ +\end{tabular} +\end{center} +Grossbuchstabe: Funktion, Kleinbuchstabe: Realisierung + +$$ P(X=x)=P(\{\omega; X(\omega)=x\})= \sum_{\omega;X(\omega)=x} P(\omega)$$ + +So dass $\omega = x$, also einen gewünschten Wert (z.B. Jass: $P(\mathrm{Koenig}) = P(\mathrm{Schilten-Koenig})+P(\mathrm{Schellen-Koenig})+$... + +\subsection{Diskrete Verteilungen} +\subsubsection{Kennzahlen} +\textbf{Erwartungswert} +$$\mathbb{E}(X) = \sum_{x \in \mathbb{W}_X} x P(X = x)$$ +wobei $\mathbb{W}_x$ der Wertebereich von X ist. + +\textbf{Varianz} +$$\mathrm{Var}(X) = \sum_{x \in \mathbb{W}_X}(x-\mathbb{E}(X))^2P(X=x)$$ + +\textbf{Standardabweichung} +$$\sigma(X) = \sqrt{\mathrm{Var}(X)}$$ + +\subsubsection{Bernoulli-($\pi$)-Verteilung} +$$P(X = 1) = \pi, P(X = 0) = 1 - \pi, 0 \leq \pi \leq 1$$ +Beschreibt das eintreffen bzw. nicht-eintreffen eines bestimmten Ereignisses. + +\subsubsection{Binominalverteilung \footnote{Dabei ist $\binom{n}{x} = \frac{n!}{x!(n-x)!}$}} +$$P(X = x) = \binom{n}{x} \pi^x(1 - \pi)^{n-x}, x \in \mathbb{N}_0$$ +Dabei ist $0 \leq \pi \leq 1$ der Erfolgsparameter der Verteilung. \\ +Notation: $X \sim \mathrm{Bin}(n,\pi)$ ($X$ folgt einer Binominalverteilung mit Parametern $n$ und $\pi$) + +Zusammenhänge: +\begin{itemize} + \item $\mathrm{Bin}(1,\pi) = \mathrm{Bernoulli}(\pi)$ + \item $X_1 \sim \mathrm{Bin}(n_1,\pi); X_2 \sim \mathrm{Bin}(n_2,\pi)$ unabhängig $\Rightarrow S := X_1 + X_2$, dann $S \sim \mathrm{Bin}(n_1+n_2,\pi)$ +\end{itemize} + +% TODO: Skript S. 22, E, Var, σ von Bernoulli und Binominal + +\subsubsection{Poisson-($\lambda$)-verteilung} +$$P(X = x) = \mathrm{exp}(-\lambda)\frac{\lambda^x}{x!}, x \in \mathbb{N}_0$$ +Dabei sind $\mathbb{E}(X) = \lambda, \mathrm{Var}(X) = \lambda, \sigma(X) = \sqrt{\lambda}$ \\ +Für zwei unabhängige Poisson-Verteilungen $X \sim \mathrm{Poisson(\lambda_x)}, Y \sim \mathrm{Poisson}(\lambda_y)$ ist $X + Y \sim \mathrm{Poisson}(\lambda_x + \lambda_y)$ + +\subsubsection{Poisson-Approximation der Binomial-Verteilung} +$X \sim \mathrm{Bin}(n, \pi)$ und $Y \sim \mathrm{Poisson}(\lambda)$, für kleine $\pi$ und grosse $n$ gilt: +$$P(X=x)=\binom{n}{x}\pi^x(1-\pi^{n-x}) \approx P(Y = x)=\mathrm{exp}(-\lambda)\frac{\lambda^x}{x!}, x \in \mathbb{N}_0$$ + +\subsubsection{Diskrete Uniformverteilung} +$$P(X = x_i) = \frac{1}{n}, i \in \mathbb{N}$$ +$X \sim \mathrm{Uniform}(x_i)$, alle $n$ Ereignisse $x$ sind gleich wahrscheinlich + +\subsubsection{Hypergeometrische Verteilung} +Einfluss von entfernten Ereignissen auf Wahrscheinlichkeiten von neuen Ziehungen (ohne Zurücklegen). + +$$P(X = x)=\frac{\binom{m}{x}\binom{N-m}{n-x}}{\binom{N}{n}}$$ + +Hier sind $\mathbb{E}(X) = \frac{nm}{N}$ und $\mathrm{Var}(X)=\frac{nm(N-m)(N-n)}{N^2(N-1)}$ + +$X \sim \mathrm{Hyper}(N,n,m)$, dabei $N$ die total möglichen Ereignisse, $m$ die "Gewinne" und es wird $n$ gezogen. + +\begin{center} + \rule{.5\linewidth}{0.25pt} +\end{center} + +\section{Statistik für Zähldaten} +\begin{enumerate} + \item \textbf{Grundfragestellung:} Welches ist der zu den Beobachtungen plausibelste Parameterwert? Die Antwort auf diese Frage heisst (Punkt-)Schätzung. + \item \textbf{Grundfragestellung:} Sind die Beobachtungen kompatibel (statistisch vereinbar) mit einem vorgegebenen Parameterwert? Die Antwort auf diese 2. Grundfrage heisst statistischer Test. + \item \textbf{Grundfragestellung:} Grundfragestellung: Welche Parameterwerte sind mit den Beobachtungen kompatibel (statistisch vereinbar)? Die Antwort auf diese 3. Grundfrage heisst Vertrauensintervall. Das Vertrauensintervall ist allgemeiner und informativer als ein statistischer Test. +\end{enumerate} + +\subsection{Punktschätzung von Parametern} +$\hat{X}$ bezeichnet den Schätzwert von $X$ +\\ \\ +Bei \textbf{Binominalverteilung}: +\subsubsection{Momentenmehtode} +Aus $\mathbb{E}(X) = n\pi \Leftrightarrow \pi = \frac{\mathbb{E}(X)}{x}$, daraus $\hat{\mathbb{E}(X)}=x$ und somit +$$\hat{\pi} = \frac{x}{n}$$ +\subsubsection{Maximum-Likelihood} +Vorgehen: +\begin{itemize} + \item Funktion $P$ der Wahrscheinlichkeit aufstellen + \item $\log(P)$ + \item $\frac{\mathrm{d}P}{\mathrm{d}\pi} = 0$ + \item auflösen nach $\pi$ +\end{itemize} +Dies ist für eine Binominalverteilung ebenfalls $\hat{\pi} = \frac{x}{n}$ + +\subsection{Aufbau statistischer Test} +$P(X \geq c)$ für verschiedene $c$ +\begin{enumerate} + \item Modell $X$ erstellen + \item Nullhypothese \\ + \begin{center} + \begin{tabular}{ll} + $H_0$: & $\pi = \pi_0$ + \end{tabular} + \end{center} + und Alternativhypothese + \begin{center} + \begin{tabular}{ll} + $H_A$: & $\pi \neq \pi_0$ (zweiseitig) \\ + & $\pi > \pi_0$ (einseitig nach oben) \\ + & $\pi < \pi_0$ (einseitig nach unten) + \end{tabular} + \end{center} + oft ist $H_0: \pi = 1/2$ (= reiner Zufall). Man testet also gegen Zufall. + \item Teststatistik $T$ (Anzahl treffer bei $n$ Versuchen), Verteilung unter $H_0: T \sim \mathrm{Bin}(n,\pi_0)^3$ + \item Festlegen von Signifikanzniveau $\alpha$ (meist $\alpha = 0.05$ oder $\alpha = 0.01$) + \item Bestimmung Verwerfungsbereich + $$K = \begin{cases} + [0,c_u] \cup [c_0,n] & H_A: \pi \neq \pi_0 \\ [c,n] & H_A: \pi > \pi_0 \\ [0,c] & H_A: \pi < \pi_0 + \end{cases}$$ + \item Testentscheid: Ist $t \in K$? Falls ja wird $H_0$ verworfen, falls nicht wird sie als korrekt angenommen\footnote{Achtung: Das heisst nicht, dass $H_0$ gültig ist! (Falsifizierbarkeit)} +\end{enumerate} + +\subsubsection{Fehler 1. und 2. Art} +\label{sec:fehler12} +\begin{enumerate} + \item Art: Fälschliches Verwerfen von $H_0$, obwohl $H_0$ richtig ist. + \item Art: Fälschliches Beibehalten von $H_0$, obwohl $H_A$ zutrifft. +\end{enumerate} + +$$P(\mathrm{Fehler \; 1. \; Art}) = P_{H_0}(X \in K)\leq \alpha$$ +Fehler 1. Art soll möglichst vermieden werden! + +\subsubsection{Macht (Power)} +\label{sec:macht} +$$\mathrm{Macht}:=1-P(\mathrm{Fehler \; 2. \; Art}) = P_{H_A} (X \in K)$$ +Idee: Wie gross muss eine Stichprobe sein, damit mit einer bestimmten Macht $\beta=x$ eine Hypothese bewiesen werden kann auf Signifikanzniveau $\alpha$? + +\subsubsection{P-Wert} +Der P-Wert ist ein Wert zwischen 0 und 1, der angibt, wie gut Nullhypothese und Daten zusammenpassen. + +\subsubsection{Vertrauensintervall} +\label{sec:vertrauensintervall} +$$I:=\{\pi_0;\; \mathrm{Nullhypothese} \; H_0:\pi = \pi_0 \mathrm{wird \; beibehalten}\}$$ + +$$P_\pi(\pi \in I(X) \gtrapprox 1-\alpha)$$ + +\begin{center} + \rule{.5\linewidth}{0.25pt} +\end{center} + +\section{Modelle und Statistik für Zähldaten} +\subsection{Deskriptive Statistik} +\subsubsection{Kennzahlen} +\textbf{Arithmetisches Mittel} +$$\bar{x} = \frac{1}{n}\sum_{i=1}^nx_i$$ + +\textbf{Empirische Standardabweichung} +$$s_x = \sqrt{\mathrm{Var}} = \sqrt{\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})^2}$$ + +\textbf{Quantile} \\ +$\alpha$-Quantil \\ +"Wert $x$ bei dem $\alpha \cdot 100 \%$-Werte kleiner als $x$ sind" + +\subsubsection{Kovarianz und Korrelation} +Gemeinsame Verteilung von zwei Zufallsvariablen $X$ und $Y$ \\ +\textbf{Kovarianz} +$$\mathrm{Cov}(X,Y)=\mathbb{E}[(X-\mu_x)(Y-\mu_y)] = \mathbb{E}(XY) - \mathbb{E}(X)\mathbb{E}(Y)$$ +es gilt somit auch +$$\mathrm{Cov}(X,X) = \mathrm{Var}(X)$$ + +\textbf{Korrelation} +$$\mathrm{Cor}(X,Y)=\rho_{XY} = \frac{\mathrm{Cov}(X,Y)}{\sigma_X\sigma_Y}$$ +wobei $\rho_{XY} \in [-1,1]$ \\ +Falls $X, Y$ unabhängig $\mathrm{Cor}(X,Y) = 0$.\footnote{Aber dies bedeutet nicht, dass falls $\mathrm{Cor}(X,Y) = 0$, $X$ und $Y$ dann unabhängig sind!} + +\textbf{Empirische Korrelation} +$$r = \frac{s_{xy}}{s_xs_y}$$ +wobei $s_{xy} = \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{n-1}$ + +\subsubsection{Grafische Methoden} +\textbf{Histogramme} \\ +Einteilung in Klassen, auftragen der Beobachtugen je Klasse in Balkendiagramm + +\textbf{Boxplot} \\ +Rechteck, vom 75\%- und 25\%-Quantil begrenzt +\begin{figure}[H] + \centering + \includegraphics[width=.2\textwidth]{boxplot.png} + \caption{Beispiel Boxplot (IQR = Interquartile-Range)} + \label{fig:boxplot} +\end{figure} + +\textbf{Streudiagramm (Scatter-Plot)} \\ +Auftragen der Daten $(x_n,y_n)$ + +\subsection{Stetige Zufallsvariablen und Wahrscheinlichkeitsverteilungen} +Eine Zufallsvariable $X$ heisst stetig, falls deren Wertebereich $\mathbb{W}_X$ stetig ist \\ +Da Punktverteilung +$$P(X=x) = 0, \forall x \in \mathbb{W}_X, \footnote{Da in jedem kontunuierlichen Intervall $\infty$ Werte sind}$$ +benötigen wir +$$P(X \in (a,b]) = P(a < X \leq b)$$ +\textbf{Kumulative Verteilungsfunktion} +$$F(x) = P(X \leq x)$$ + +\subsubsection{(Wahrscheinlichkeits-)Dichte)} +$$f(x) = \dot{F}(x) \Longleftrightarrow F(x) = \int_{-\infty}^xf(y)\mathrm{d}y$$ + +\subsection{Kennzahlen von stetigen Verteilungen} +\begin{center} + \begin{tabular}{rl} + $\mathbb{E}(X) =$ & $\int_{-\infty}^{\infty}xf(x)\mathrm{d}x$ \\ + Var$(X) =$ & $\mathbb{E}((X-\mathbb{E}(X))^2) = \int_{-\infty}^{\infty}(x-\mathbb{E}(X))^2f(x)\mathrm{d}x$ \\ + $\sigma(X) =$ & $\sqrt{\mathrm{Var}(X)}$ + \end{tabular} +\end{center} + +\textbf{Qunatile} +$$P(X \leq q(\alpha)) = \alpha$$ +$q(\alpha)$ ist der Punkt, an dem die Fläche unter der Dichtefunktion $f(x)$ von $-\infty$ bis $q(\alpha)$ gleich $\alpha$ ist. (z.B. beim Median ($\alpha = 50\%$) sind die Flächen darunter und darüber gleich gross) + +\subsection{Stetige Verteilungen} +\subsubsection{Uniforme Verteilung} +$X \sim \mathrm{Uniform}([a,b]), \mathbb{W}_X = [a,b]$ +$$f(x) = \begin{cases} + \frac{1}{b-a}, \; \mathrm{falls} \; a \leq x \leq b \\ + 0, \;\;\;\;\;\;\, \mathrm{sonst} %uglyAF +\end{cases}$$ +somit ist die kumulative Verteilung +$$F(x) = \begin{cases} + 0, \;\;\;\;\;\;\, \mathrm{falls} \; x < a \\ + \frac{x-a}{b-a}, \; \mathrm{falls} \; a \leq x \leq b \\ + 1, \;\;\;\;\;\;\, \mathrm{falls} \; x > b +\end{cases}$$ +\textbf{Kennzahlen} +\begin{center} + \begin{tabular}{rl} + $\mathbb{E}(X) =$ & $\frac{a+b}{2}x$ \\ + Var$(X) =$ & $\frac{(b-a)^2}{12}$ \\ + $\sigma_X =$ & $\frac{b-a}{\sqrt{12}}$ + \end{tabular} +\end{center} + +\subsubsection{Exponential-Verteilung} +$X \sim \mathrm{Exp}(\lambda), \mathbb{W}_X = [0,\infty), \lambda \in \mathbb{R}^+$ +$$f(x) = \begin{cases} + \lambda e^{-\lambda x}, \; \mathrm{falls} \; x \geq 0 \\ + 0, \;\;\;\;\;\;\;\;\;\; \mathrm{sonst} %uglyAF +\end{cases}$$ +also +$$F(x) = \begin{cases} + 1 - e^{-\lambda x}, \; \mathrm{falls} \; x \geq 0 \\ + 0, \;\;\;\;\;\;\;\;\;\;\;\;\;\, \mathrm{falls} \; x < 0 +\end{cases}$$ + +\textbf{Kennzahlen} +\begin{center} + \begin{tabular}{rl} + $\mathbb{E}(X) =$ & $\frac{1}{\lambda}x$ \\ + Var$(X) =$ & $\frac{1}{\lambda^2}$ \\ + $\sigma_X =$ & $\frac{1}{\lambda}$ + \end{tabular} +\end{center} + +\subsubsection{Normalverteilung (Gauss'sche-Verteilung)} +$X \sim \mathcal{N}(\mu,\sigma^2), \mathbb{W}_X = \mathbb{R}, \mu \in \mathbb{R} \; \mathrm{und} \; \sigma \in \mathbb{R}^+$ +$$f(x) = \frac{1}{\sigma\sqrt{2\pi}}\mathrm{exp}\bigg(-\frac{(x-\mu)^2}{2\sigma^2}\bigg)$$ +$$F(x) \Rightarrow \mathrm{Tabelle!}$$ +\textbf{Kennzahlen} +\begin{center} + \begin{tabular}{rl} + $\mathbb{E}(X) =$ & $\mu$ \\ + Var$(X) =$ & $\sigma^2$ \\ + $\sigma_X =$ & $\sigma$ + \end{tabular} +\end{center} + +\subsubsection{Standard-Normalverteilung} +$X \sim \mathcal{N}(0,1), \mathbb{W}_X = \mathbb{R}, \mu = 0 \; \mathrm{und} \; \sigma = 1$ +$$\varphi (x) = \frac{1}{\sqrt{2\pi}}\mathrm{exp}\bigg(-\frac{x^2}{2}\bigg)$$ +$$\Phi(x) = \int_{-\infty}^x\varphi(y)\mathrm{d}y$$ + +$$\Phi(-c) = P(X \leq -c) = P(X \geq c) = 1-P(X \leq c) = 1 - \Phi(c)$$ + +\subsection{Funktionen einer Zufallsvariable} +Sei $g: \mathbb{R} \rightarrow \mathbb{R}$ und $X$ eine Zufallsvariable, so ist +$$Y = g(X)$$ +eine Transformation. + +$$\mathbb{E}(Y) = \mathbb{E}(g(X)) = \int_{-\infty}^{\infty}g(x)f_X(x) \mathrm{d}x$$ + +\subsubsection{Lineare Transformation} +Sei $X \sim \mathcal{N}(\sigma,\omega^2)$ und $Y = a+bX$ \\ +dann sind +\begin{center} + \begin{tabular}{rl} + $\mathbb{E}(Y) =$ & $a +b\mathbb{E}(X)$ \\ + Var$(Y) =$ & $b^2 \cdot \mathrm{Var}(X)$ \\ + $\sigma_Y =$ & $b \cdot \sqrt{\mathrm{Var}(X)}$ \\ + $q_Y(\alpha) =$ & $a+b\cdot q_X(\alpha)$ + \end{tabular} +\end{center} + +\subsubsection{Standardisieren einer Zufallsvariable} +Überführen von $X$ in eine \textit{Standard-Normalverteilung} $(\mathbb{E} = 0, \sigma = 1)$ +$$Z = g(X) = \frac{X-\mathbb{E}(X)}{\sigma_X} = \frac{X-\mu}{\sigma} \sim \mathcal{N}(0,1)$$ + +\subsubsection{Lognormal-Verteilung} +Sei $Y \sim \mathcal{N}(\mu,\sigma^2)$ dann soll $X = \mathrm{exp}(Y)$ mit $\mu \in \mathbb{R}$ und $\sigma \in \mathbb{R}^+$ +$$\mathbb{E}(X) = \mathrm{exp}(\mu + \frac{\sigma^2}{2}) > \mathrm{exp}(\mathbb{E}(Y))$$ + +\subsubsection{Berechnung von Momenten} +Das $k$-te Moment ist gegeben als +$$m_k = \mathbb{E}(X^k)$$ +also z.B. +$$m_2 = \mathbb{E}(X^2) = \int_{-\infty}^\infty x^2 f(x) \mathrm{d}x$$ + +Verschiebungssatz für die Varianz: +$$\mathrm{Var}(X) = \mathbb{E}(X^2) - \mathbb{E}(X)^2$$ + +\subsection{Überprüfen der Normalverteilungs-Annahme} +\subsubsection{Q-Q Plot (Quantil-Quantil Plot)} +Man plottet die empirischen Quantile gegen die theoretischen Quantile der Modell-Verteilung. Die Punkte sollten ungefähr auf der Winkelhalbierenden $y = f(x) = x$ liegen. + +\subsubsection{Normal-Plot} +\label{sec:normalplot} +Für Klassen von Verteilungen, z.B. Klasse der Normalverteilungen mit verschiedenen $\mu, \sigma$. \\ +Sei $X \sim \mathcal{N}(\mu, \sigma^2)$, dann sind die Quantile von X +$$q(\alpha) = \mu + \sigma \Phi^{-1}(\alpha)$$ +Ein \textit{Q-Q Plot} bei dem die Modell-Verteilung gleich $\mathcal{N}(0,1)$ ist, heisst Normal-Plot. + +\subsection{Funktionen von mehreren Zufallsvariablen} +Statt einer Zufallsvariale $X$ und deren $n$ unabhängigen Realisierungen $x_1, x_2, ... , x_n$, nimmt man oft $X_1, X_2, ... , X_n$. Somit wird $y = g(x_1, x_2, ... , x_n)$ zu einer Funktion von Zufallsvariablen +$$Y = g(X_1, X_2, ... , X_n)$$ + +\subsubsection{Unabhängigkeit und i.i.d. Annahme} +Unabhängig heisst, dass es keine gemeinsamen Prozesse gibt, die den Ausgang beeinflussen. \\ +\textit{Notation}: +$$X_1,X_2,...,X_n \; \mathrm{i.i.d}$$ +wobei \textit{i.i.d} für "independent, identically distributed" steht. \\ +Es gilt dann immer +$$\mathbb{E}(X_1 + X_2) = \mathbb{E}(X_1) + \mathbb{E}(X_2)$$ +wenn $X_1,X_2$ unabhängig, auch +$$\mathrm{Var}(X_1 + X_2) = \mathrm{Var}(X_1) + \mathrm{Var}(X_2),$$ +für nicht unabhängig +$$\mathrm{Var}(aX_1 + bX_2) = a^2\mathrm{Var}(X_1) + b^2 \mathrm{Var}(X_2) + 2ab\mathrm{Cov}(X_1,X_2).$$ + +\subsubsection{Gesetz der grossen Zahlen und $\sqrt{n}$-Gesetz} +Sei $X_1, X_2, ..., X_n \; \mathrm{i.i.d} \sim \mathrm{kumulative \; Verteilungsfunktion} \; F$, dann sind +\begin{center} + \begin{tabular}{rcl} + $\mathbb{E}(\bar{X_n})$ & $=$ & $\mu$ \\ + Var$(\bar{X_n})$ & $=$ & $\frac{\sigma_X^2}{n}$ \\ + $\sigma(\bar{X_n})$ & $=$ & $\frac{\sigma_X}{\sqrt{n}}$ + \end{tabular} +\end{center} +Somit sind für eine doppelte Genauigkeit viermal soviele Messwerte nötig. \\ +Standardabweichung von $X_n$ ist der \textit{Standardfehler} des Arithmetischen Mittels. +$$\bar{X_n} \rightarrow \mu(n\rightarrow\infty)$$ + +\subsubsection{Zentraler Grenzwertsatz} +Sei $X_1, X_2, ..., X_n \; \mathrm{i.i.d}$, dann gilt +$$\bar{X_n} = \mathcal{N}(\mu,\frac{\sigma^2_X}{n})$$ +und daraus folgt für die Summe $\sum_{i=1}^nX_i$ +$$S_X \approx \mathcal{N}(n\mu,n\sigma^2).$$ + +Aus +$$Z_n = \frac{\sqrt{n}(\bar{X_n}-\mu)}{\sigma_X} \sim \mathcal{N}(0,1)$$ +folgt +$$\forall x: \lim_{n\rightarrow\infty} P(Z_n \leq x) = \Phi(x)$$ + +\subsubsection{Verletzung der Unabhängigkeit} +Sei $X_1, X_2, ..., X_n \; \neg \; \mathrm{i.i.d}$ +$$\mathbb{E}(\bar{X_n}) = \mu$$ +$$\mathrm{Var}(\bar{X_n}) = \frac{\sigma_X^2}{n}\bigg(1+\frac{1}{n}\sum_{1\leq i \leq j \leq n} \rho_{X_i X_j}\bigg)$$ +mit $\rho_{X_i X_j}$ die Korrelation zwischen $X_i, X_j$ \\ +Die Unabhängigkeit führt dazu, dass die Genauigkeit des arithmetischen Mittels beeinflusst wird! + +\subsection{Statisitk für eine Stichprobe} +% Wasn't able to fit it into the third-columns +Siehe \textit{Fig. \ref{fig:tests}} im \hyperref[sec:anhang]{Anhang}. + +\subsubsection{Punktschätzung} +Betrachtung von Daten $x_1, x_2, ...,x_n$ als Realisierungen von $X_1, X_2, ..., X_n$ i.i.d. \\ +Wenn $\mathbb{E}(X_i) = \mu$ und $\mathrm{Var}(X_i) = \sigma_X^2$ gesucht: +\begin{center} + \begin{tabular}{rcl} + $\hat{\mu}$ & $=$ & $\displaystyle\frac{1}{n}\sum_{i=1}^n X_i = X_n$ \\ + $\hat{\sigma_X}^2$ & $=$ & $\displaystyle\frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X_n})^2$ + \end{tabular} +\end{center} + +\subsubsection{z-Test ($\sigma_X$ bekannt)} +\begin{enumerate} + \item \textbf{Modell}: $X_i$ ist eine kontunuierliche Messgrösse und Annahme $X_1, X_2, ..., X_n \; \mathrm{i.i.d.} \; \mathcal{N}(\mu, \sigma_X^2)$ + \item \textbf{Nullhypothese}: + \begin{center} + \begin{tabular}{cll} + & $H_0:$ & $\mu = \mu_0$ + \end{tabular} + \end{center} + \textbf{Alternativhypothese}: + \begin{center} + \begin{tabular}{clll} + & $H_A:$ & $\mu \neq \mu_0$ & zweiseitig \\ + oder & $H_A:$ & $\mu > \mu_0$ & einseitig \\ + oder & $H_A:$ & $\mu < \mu_0$ & einseitig \\ + \end{tabular} + \end{center} + \item \textbf{Teststatistik}: + $$Z = \frac{(\bar{X_n} - \mu_0)}{\sigma_{X_n}} = \frac{\sqrt{n}(\bar{X_n} - \mu_0)}{\sigma_X} = \frac{\mathrm{beobachtet}-\mathrm{erwartet}}{\mathrm{Standardfehler}}$$ + Verteilung der Teststatistik unter $H_0: Z \sim \mathcal{N}(0,1)$ + \item \textbf{Signifikanzniveau}: $\alpha$ + \item \textbf{Verwerfungsbereich für die Teststatistik}:\\ + $$K=\begin{cases} + (-\infty,-\Phi^{-1}(1-\frac{\alpha}{2}]\cup [\Phi^{-1}(1-\frac{\alpha}{2}),\infty), \quad \, \mathrm{bei} \; H_A: \mu \neq \mu_0 \\ + (-\infty,-\Phi^{-1}(1-\frac{\alpha}{2}], \qquad\qquad\qquad\qquad\qquad\kern .025em \mathrm{bei} \; H_A: \mu < \mu_0 \\ + [\Phi^{-1}(1-\frac{\alpha}{2}),\infty), \qquad\qquad\qquad\qquad\qquad\quad\kern 0.25em \mathrm{bei} \; H_A: \mu > \mu_0 + \end{cases}$$ + \item \textbf{Testentscheid}:\\ + Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt. +\end{enumerate} + +\subsubsection{Fehler 1./2. Art und Macht} +Es gilt wie in \textit{Kapitel \ref{sec:fehler12}} und \textit{\ref{sec:macht}}. \\ +$$P_{\mu_0}(T \in K) = \alpha$$ +$$P_\mu(T \in K) = \mathrm{Macht}(\mu)$$ + +\subsubsection{t-Test ($\sigma_X$ unbekannt)} +\begin{enumerate} + \item \textbf{Modell}: $X_i$ ist eine kontinuierliche Messgrösse und Annahme $X_1, X_2, ..., X_n \; \mathrm{i.i.d.} \; \mathcal{N}(\mu, \sigma_X^2)$ + \item \textbf{Nullhypothese}: + \begin{center} + \begin{tabular}{cll} + & $H_0:$ & $\mu = \mu_0$ + \end{tabular} + \end{center} + \textbf{Alternativhypothese}: + \begin{center} + \begin{tabular}{clll} + & $H_A:$ & $\mu \neq \mu_0$ & zweiseitig \\ + oder & $H_A:$ & $\mu > \mu_0$ & einseitig \\ + oder & $H_A:$ & $\mu < \mu_0$ & einseitig \\ + \end{tabular} + \end{center} + \item \textbf{Teststatistik}: + $$\hat{\sigma_X} = \sqrt{\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X_n})^2}$$ + $$T = \frac{\sqrt{n}(\bar{X_n} - \mu_0)}{\hat{\sigma_X}} = \frac{\mathrm{beobachtet}-\mathrm{erwartet}}{\mathrm{geschätzter \; Standardfehler}}$$ + Verteilung der Teststatistik unter $H_0: T \sim t_{n-1}$ + \item \textbf{Signifikanzniveau}: $\alpha$ + \item \textbf{Verwerfungsbereich für die Teststatistik}:\\ + $$K=\begin{cases} + (-\infty,-t_{n-1;1-\frac{\alpha}{2}}] \cup [t_{n-1;1-\frac{\alpha}{2}},\infty), \quad \;\; \mathrm{bei} \; H_A: \mu \neq \mu_0 \\ + (-\infty,-t_{n-1;1-\frac{\alpha}{2}}], \qquad\qquad\qquad\qquad\kern 1.6em \mathrm{bei} \; H_A: \mu < \mu_0 \\ + [t_{n-1;1-\frac{\alpha}{2}},\infty), \qquad\qquad\qquad\qquad\qquad\quad\kern 0.25em \mathrm{bei} \; H_A: \mu > \mu_0 + \end{cases}$$ + \item \textbf{Testentscheid}:\\ + Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt. +\end{enumerate} + +\subsubsection{P-Wert des \textit{t-Tests}} +\label{sec:pval} +$$\mathrm{P-Wert} = P(|T| > |t|) = 2\bigg(1-F_{t_{n-1}}\bigg(\frac{\sqrt{n}|\bar{x_n}-\mu_0|}{\hat{\sigma_X}}\bigg)\bigg)$$ +wobei $F_{t_{n-a}}$ die kumulative Verteilungsfunktion der t-Verteilung mit $n-1$ Freiheitsgraden ist ($F_{t_{n-1}}(t) = P(T \leq t),T \sim t_{n-1}$) + +\subsubsection{Vertrauensintervall für $\mu$} +Vgl. auch \ref{sec:vertrauensintervall}\\ +Aus +$$\mu_0 \leq \bar{x_n}+\frac{\hat{\sigma_X}\cdot t_{n-1;1-\frac{\alpha}{2}}}{\sqrt{n}} \mathrm{\; und \;} \mu_0 \geq \bar{x_n}-\frac{\hat{\sigma_X}\cdot t_{n-1;1-\frac{\alpha}{2}}}{\sqrt{n}}$$ +folgt das Intervall +$$I = \bigg[\bar{x_n} - t_{n-1;1-\frac{\alpha}{2}}\frac{\hat{\sigma_X}}{\sqrt{n}},\bar{x_n} + t_{n-1;1-\frac{\alpha}{2}}\frac{\hat{\sigma_X}}{\sqrt{n}}\bigg]$$ + +\subsubsection{Vorzeichentest} +\begin{enumerate} + \item \textbf{Modell}: $X_1, X_2, ..., X_n \; \mathrm{i.i.d.}$ wobei $X_i$ eine beliebige Verteilung hat \\ + \item \textbf{Nullhypothese}: + $$H_0: \mu = \mu_0 \mathrm{\; (\mu \; ist \; der \; Median)}$$ + \textbf{Alternativhypothese}: + \begin{center} + \begin{tabular}{clll} + & $H_A:$ & $\mu \neq \mu_0$ & zweiseitig \\ + oder & $H_A:$ & $\mu > \mu_0$ & einseitig \\ + oder & $H_A:$ & $\mu < \mu_0$ & einseitig \\ + \end{tabular} + \end{center} + \item \textbf{Teststatistik}: \\ + $V$: Anzahl $X_i$ mit $X_i > \mu_0$ \\ + Verteilung der Teststatistik unter $H_0: V \sim \mathrm{Bin}(n,\pi_0)$, mit $\pi_0 = 0.5$ + \item \textbf{Signifikanzniveau}: $\alpha$ \\ + \item \textbf{Verwerfungsbereich für die Teststatistik}: \\ + $$K=\begin{cases} + [0,c_u] \cup [c_0,n], \quad \;\; \mathrm{bei} \; H_A: \mu \neq \mu_0 \\ + [0,c_u], \qquad\qquad\kern 1.44em \mathrm{bei} \; H_A: \mu < \mu_0 \\ + [c_0,n], \qquad\qquad\quad\kern 0.46em \mathrm{bei} \; H_A: \mu > \mu_0 + \end{cases}$$ + \item \textbf{Testentscheid}: \\ + Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt. +\end{enumerate} + +\subsubsection{Wilcoxon-Test} +Voraussetzung: Realisierungen von $X_1, X_2, ..., X_n \; \mathrm{i.i.d.}$, stetig und symetrisch bezgl. $\mu = \mathbb{E}(X_i)$ \\ +Für Berechnung benutze R (\ref{sec:wilcoxon}) + +\subsection{Statisitk für zwei Stichproben} +\subsubsection{Gepaarte Stichprobe} +% TODO + +\begin{center} + \rule{.5\linewidth}{0.25pt} +\end{center} + +\section{Regression} +\subsection{Einfache Lineare Regression} +\subsubsection{Modell} +\label{sec:regmod} +$$y_i = \beta_0 + \beta_1x_i+E_i,$$ +wobei $i \in \mathbb{N} \leq n$, $E_i \sim \mathcal{N}(0,\sigma^2)$, $E_1,...E_n$ i.i.d., $\mathbb{E}(E_i) = 0$ und $\mathrm{Var}(E_i) = \sigma^2$ \\ +$Y$ bezeichnen wir als \textbf{Zielvariable (response variable)}, $x$ als \textbf{erklärende Variable (explanatory/predictor variable)} oder \textbf{Co-Variable (covariate)} und $E_i$ als Störfaktor (zufällig) + +\subsubsection{Parameterschätzung} +Das Modell aus \ref{sec:regmod} mit der \textit{Methode der kleinsten Quadrate} liefert +$$\hat{\beta_0},\hat{\beta_1} \mathrm{\; Minimierung \; von \;} \sum_{i=1}^n(Y_i-(\beta_0+\beta_1x_i))^2,$$ +daraus ergibt sich +$$\hat{\beta_1} = \frac{\sum_{i=1}^n(Y_i-\bar{Y_n})(x_i-\bar{x_n})}{\sum_{i=1}^n(x_i-\bar{x_n})^2}$$ +und +$$\hat{\beta_0} = \bar{Y_n} - \hat{\beta_1}\bar{x_n}$$ +dabei gilt +$$\mathbb{E}(\hat{\beta_0}) = \beta_0, \mathbb{E}(\hat{\beta_1}) = \beta_1$$ +Für den \textbf{Standardfehler} gilt +$$s(\hat{\beta_1}) = \frac{\sigma}{\sqrt{\sum_{i=1}^n(x_i-\bar{x_n})^2}}.$$ +Die \textbf{Residuen} +$$R_i = Y_i - (\hat{\beta_0}+\hat{\beta_1)x_i}, i \in \{1,2,...,n\}$$ +somit approximieren wir $E_i \approx R_i$ und daraus +$$\hat{\sigma}^2 = \frac{1}{n-2}\sum_{i=1}^nR_i^2$$ + +\subsection{Tests und Vertrauensintervalle der einfachen linearen Regression} +\subsubsection{t-Test in der Regression} +\begin{enumerate} + \item \textbf{Modell}: \\ + $$Y_i = \beta_0 + \beta_1x_i + E_i$$ \\ + $$E_1, E_2, ..., E_n \; \mathrm{i.i.d.} \; \mathcal{N}(0, \sigma_X^2)$$ + \item \textbf{Nullhypothese}: + $$H_0: \beta = 0$$ + \textbf{Alternativhypothese}: + $$H_A: \beta_1 \neq 0$$ + \item \textbf{Teststatistik}: + $$T = \frac{\hat{\beta_1}-0}{\hat{s}(\hat{\beta_1})} = \frac{\mathrm{beobachtet}-\mathrm{erwartet}}{\mathrm{geschätzter \; Standardfehler}}$$ + Dabei ist $\hat{s}$ der geschätzte Standardfehler $\sqrt{\widehat{\mathrm{Var}}(\hat{\beta_1})} = \frac{\hat{\sigma}}{\sqrt{\sum_{i=1}^n(x_i-\bar{x_n})^2}}$ + Verteilung der Teststatistik unter $H_0: T \sim t_{n-2}$ + \item \textbf{Signifikanzniveau}: $\alpha$ + \item \textbf{Verwerfungsbereich für die Teststatistik}:\\ + $$K=(-\infty,-t_{n-2;1-\frac{\alpha}{2}}] \cup [t_{n-2;1-\frac{\alpha}{2}},\infty)$$ + \item \textbf{Testentscheid}:\\ + Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt. +\end{enumerate} +Analog funktioniert auch ein \textit{t-Test} für $H_0: \beta_0 = 0, H_A: \beta_0 \neq 0$ + +\subsubsection{P-Wert} +Vgl. dazu \ref{sec:pval}, jedoch anstatt $n-1$ sind es hier $n-2$ Freiheitsgrade. Der P-Wert der Regression wird meist nicht von Hand berechnet (vgl. \ref{sec:rreg}). + +\subsubsection{Vertrauensintervalle} +Die zweiseitigen Vertrauensintervalle für $\beta_i (i = 0, 1)$ zum Niveau $1 - \alpha$ sind gegeben durch +$$[\hat{\beta_i}-\hat{s}(\hat{\beta_i})t_{n-2;1-\frac{\alpha}{2}},\hat{\beta_i}+\hat{s}(\hat{\beta_i})t_{n-2;1-\frac{\alpha}{2}}]$$ +Für grosse $n$ approximieren wir $t_{n-2;1-\frac{\alpha}{2}}$ mit $\Phi^{-1}(1-\frac{\alpha}{2})$, somit für 95\%-Vertruaensintervalle +$$[\hat{\beta_i}-2\hat{s}(\hat{\beta_i}),\hat{\beta_i}+2\hat{s}(\hat{\beta_i})]$$ + +\subsubsection{Bestimmtheitsmass $R^2$} +\label{sec:r2} +Sei $\hat{y_i} = \hat{\beta_0}+\hat{\beta_1}x_i$ der Wert auf der Regressionsgerade am Punkt $x_i$, dann gilt +$$\underbrace{\sum_{i=1}^n(y_i-\bar{y})^2}_{SS_Y}=\underbrace{\sum_{i=1}^n(y_i-\hat{y_i})^2}_{SS_E}+\underbrace{\sum_{i=1}^n(\hat{y_i}-\bar{y})^2}_{SS_R}$$ +wobei +\begin{itemize} + \item $SS_Y$: die totale Variation der Zielvariablen (ohne Einfluss der erklärenden Variablen $x$) + \item $SS_E$: die Variation des Fehlers (Residuen-Quadratsumme) + \item $SS_R$: die Variation, welche durch die Regression erklärt wird (Einfluss der erklärenden Variablen $x$). +\end{itemize} + +Wir definieren +$$R^2:=\frac{SS_R}{SS_Y}, R^2 \in [0,1]$$ +als Mass für den Antwil der totalen Variation, welche durch die Regression erklärt wird. \\ +Wenn $R^2$ gegen $1$ geht ist es eine "gute" Regression. + +$$R^2 = \hat{\rho}_{Y\hat{Y}}^2$$ + +\subsubsection{Vorgehen bei einfacher linearer Regression} +\begin{enumerate} + \item Plotten von $Y$ und $x$ in einem Streudiagramm. Überprüfen, ob eine lineare Regression überhaupt sinnvoll ist. + \item Anpassen der Regressionsgeraden; d.h. Berechnung der Punktschätzer $\beta_0, \beta_1$ + \item Testen ob erklärende Variable $x$ einen Einfluss auf die Zielvariable $Y$ hat mittels \textit{t-Test} für $H_0 : \beta_1 = 0$ und $H_A : \beta_1 \neq 0$. Falls dieser Test ein nicht-signifikantes Ergebnis liefert, so hat die erklärende Variable keinen signifikanten Einfluss auf die Zielvariable. + \item Testen ob Regression durch Nullpunkt geht mit \textit{t-Test} für $H_0 : \beta_1 = 0$ und $H_A : \beta_1 \neq 0$. Falls dieser Test ein nicht-signifikantes Ergebnis liefert, so kann man das kleinere Modell mit Regression durch Nullpunkt benutzen (ohne Achsenabschnitt $\beta_0$). + \item Bei Interesse: Angabe von Vertrauensintervallen für $\beta_0$ und $\beta_1$. + \item Angabe des Bestimmtheitsmass $R^2$. Dies ist in gewissem Sinne eine informellere (und zusätzliche) Quantifizierung als der statistische Test in Punkt 3. + \item Überprüfen der Modell-Voraussetzungen mittels Residuenanalyse (vgl. \ref{sec:resid}). +\end{enumerate} + +\subsection{Residuenanalyse} +\label{sec:resid} +\textbf{Annahmen und deren Überprüfung}: +\begin{enumerate} + \item $\mathbb{E}(E_i)=0$ (\textit{Tukey-Anscombe Plot}, vgl. \ref{sec:tukey}) \\ + Es gilt $\mathbb{E}(Y_i)=\beta_0+\beta_1x_i+\mathbb{E}(E_i)=\beta_0+\beta_1x_i$, sodass keine systematischen Fehler auftreten können. Dennoch können Abweichungen auftreten (z.B. komplizierte quadr. Verteilung) + \item $E_1,E_2,...,E_n$ i.i.d. (Plot bzgl. \textit{serieller Korrelation}, \textit{Tukey-Anscombe}) \\ + Die Fehler müssen unabhängig voneinander sein, insbesondere sind $\mathrm{Cor}(E_i,E_j) = 0$ für $i \neq j$, was bedeutet, dass keine \textit{serielle Korrelation} auftritt. Da die Fehler gleich verteilt sein müssen, ist die Varianz der Fehler auch gleich. + \item $E_1,E_2,...,E_n$ i.i.d. $\mathcal{N}(0,\sigma^2)$ \\ + Es wird angenommen, dass die Fehler normalverteilt sind. Überprüfung mit Normalplot der Residuen. +\end{enumerate} + +\subsubsection{Tukey-Anscombe Plot} +\label{sec:tukey} +Plotten der Residuen $R_i$ gegen die angepassten Werte $\hat{y_i}$. \\ +Idealerweise sind die Punkte gleichmässig um $0$ gestreut. +Bei verletzen Modellannehmen können auftreten: +\begin{itemize} + \item Kegelförmiges anwachsen von $\hat{y_i}$. Falls $\hat{y_i} > 0$ versuche + $$\log(Y_i) = \beta_0+\beta_1 x_i + E_i$$ + \item Ausreisser (Versuche robuste Regression) + \item Unregelmässige Struktur (möglicherweise kein linearer Zusammenhang) +\end{itemize} + +\subsubsection{Serielle Korrelation} +Überprüfung der Unabhängigkeitsannahme der $E_1, E_2, ..., E_n$: Plotten von $r_i$ gegen $i$. \\ +Dabei sollte eine gleichmässige Verteilung um $0$ entstehen. + +\subsubsection{Normaleplot} +Wie in \ref{sec:normalplot} erwarten wir möglichst eine Gerade, falls die Fehler normalverteilt sind. + +\subsection{Multiple lineare Regression} +Oft sind erklärende Variablen $x_{i,1},...,x_{i,p-1}; (p>2)$ +\subsubsection{Modell} +$$Y_i = \beta_0 + \sum_{j=1}^{p-1}\beta_jx_{i,j}+E_i, i \in \mathbb{N} \leq n$$ +$$E_1, E_2, ..., E_i \mathrm{\; i.i.d.},\mathbb{E}(E_i)=0, \mathrm{Var}(E_i)=\sigma^2$$ + +In Matrixschreibweise: +$$\underbrace{Y}_{n \times 1} = \underbrace{X}_{n \times p}\times\underbrace{\beta}_{p \times 1}+\underbrace{E}_{n \times 1}$$ +wobei: +\begin{itemize} + \item $Y = (Y_1,...,Y_n)^T$ \\ + \item $X: (n \times p)$-Matrix mit Spaltenvektoren $(1,1,...1)^T,(x_{1,1},x_{2,1},...,x_{n,1})^T,...,(x_{1,p-1},x_{2,p-1},...,x_{n,p-1})^T$\\ + \item $\beta = (\beta_0,...,\beta_{p-1})$, der Parametervektor \\ + \item $E = (E_1, ..., E_n)^T$, der Fehlervektor +\end{itemize} + +Somit ist eine \textbf{einfache lineare Regression} \\ +\begin{center} + \begin{tabular}{ccc} + $$p = 2,$$ & $$X = \begin{pmatrix} + 1 & x_1 \\ + 1 & x_2 \\ + \vdots & \vdots \\ + 1 & x_n + \end{pmatrix},$$ & $$\beta = \begin{pmatrix} + \beta_0 \\ + \beta_1 + \end{pmatrix}^T$$ + \end{tabular} +\end{center} +Analog dazu für \textbf{lineare Regression mit mehreren erklärenden Varablen} +$Y_i = \beta_0 + \beta_1x_{i,1}+\beta_2x_{i,2} + E_i, i \in \mathbb{N} \leq n$ +\begin{center} + \begin{tabular}{ccc} + $$p = 3,$$ & $$X = \begin{pmatrix} + 1 & x_{1,1} & x_{1,2} \\ + 1 & x_{2,1} & x_{2,2} \\ + \vdots & \vdots & \vdots \\ + 1 & x_{n,1} & x_{n,2} + \end{pmatrix},$$ & $$\beta = \begin{pmatrix} + \beta_0 \\ + \beta_1 \\ + \beta_2 + \end{pmatrix}^T$$ + \end{tabular} +\end{center} + ebenfalls für \textbf{lineare Regression mit quadratisch erklärenden Varablen} +$Y_i = \beta_0 + \beta_1x_{i}+\beta_2x_{i}^2 + E_i, i \in \mathbb{N} \leq n$ +\begin{center} + \begin{tabular}{ccc} + $$p = 3,$$ & $$X = \begin{pmatrix} + 1 & x_{1} & x_{1}^2 \\ + 1 & x_{2} & x_{2}^2 \\ + \vdots & \vdots & \vdots \\ + 1 & x_{n} & x_{n}^2 + \end{pmatrix},$$ & $$\beta = \begin{pmatrix} + \beta_0 \\ + \beta_1 \\ + \beta_2 + \end{pmatrix}^T$$ + \end{tabular} +\end{center} +und schlussendlich für eine \textbf{Regression mit transformierten erklärenden Varablen} \\ +$Y_i = \beta_0 + \beta_1\log(x_{i,2})+\beta_2\sin(\pi x_{i,3}) + E_i, i \in \mathbb{N} \leq n$ +\begin{center} + \begin{tabular}{ccc} + $$p = 3,$$ & $$X = \begin{pmatrix} + 1 & \log(x_{1,2}) & \sin(\pi x_{1,3}) \\ + 1 & \log(x_{2,2}) & \sin(\pi x_{2,3}) \\ + \vdots & \vdots & \vdots \\ + 1 & \log(x_{n,2}) & \sin(\pi x_{n,3}) + \end{pmatrix},$$ & $$\beta = \begin{pmatrix} + \beta_0 \\ + \beta_1 \\ + \beta_2 + \end{pmatrix}^T$$ + \end{tabular} +\end{center} + +\subsubsection{Interpretation} +\begin{itemize} + \item Bei \textbf{einfacher linearer Regression} ist $\beta_1$ die erwartete Zunahme der Zielgrösse bei Erhöhung von $x_1$ um eine Einheit. + \item Bei \textbf{multipler linearer Regression} ist $\beta_i$ die erwartete Zunahme der Zielgrösse bei Erhöhung von $x_i$ um eine Einheit - bei \textbf{Fixierung der anderen Variablen}. +\end{itemize} + +\subsubsection{Parameterschätzung} +Auch hier benutzen wir die \textit{Methode der kleinsten Quadrate}. \\ +$$\hat{\beta_0},\hat{\beta_1},...,\hat{\beta}_{p-1} \mathrm{\; Minimierung \; von \;} \sum_{i=1}^n(Y_i-(\beta_0+\beta_1x_{i,1}+...+\beta_{p-1}x_{i,p-1}))^2,$$ +falls $p < n$ +$$\hat{\beta} = (X^TX)^{-1}X^TY.$$ +Für die Fehlervarianz +$$\hat{\sigma} = \frac{1}{n-p}\sum_{i=1}^nR^2_i,R_i = Y_i - \bigg(\hat{\beta}_0+\sum_{j=1}^{p-1}\hat{\beta}_jx_{i,j}\bigg)$$ + +% TODO: t-Test + +\subsubsection{F-Test} +Prüft, ob es mindestens eine erklärende Variable gibt, die einen signifikanten Effekt auf die Zielvariable hat. +\begin{center} + \begin{tabular}{lll} + $H_0:$ & $\beta_1 = ... = \beta_{p-1} = 0$ \\ + $H_A:$ & mindestens ein $\beta_j \neq 0$, & $j \in \mathbb{N} \leq p-1 $ + \end{tabular} +\end{center} + +Hier können einzelne Variablen signifikant sein und andere nicht. Bei starker Korrelation zwischen zwei kann man eine weglassen, da keine neue Information. + +\subsubsection{Bestimmtheitsmass $R^2$} +Es gilt wie in \ref{sec:r2} +$$R^2 = \hat{\rho}_{Y\hat{Y}}^2$$ + +\begin{center} + \rule{.5\linewidth}{0.25pt} +\end{center} + +\section{R} +\subsection{Wahrscheinlichkeitsverteilungen} +\lstinline{xxx} Name der Verteilung $X$ (z.B. \lstinline{binom} oder \lstinline{pois}): \\ +\lstinline{dxxx} berechnet $P[X=x]$ \\ +\lstinline{pxxx} berechnet $P[X\leq x]$ \\ +\lstinline{rxxx} liefert Zufallszahl gemäss $X$ + +\subsection{Verteilungen} +\lstinline{pt} für kumulative Verteilungsfunktion \\ +\lstinline{qt} für Quantile + +\subsection{Wilcoxon-Test} +\label{sec:wilcoxon} +\lstinline{x} ist Array von Daten, $\mu$ der Median +\begin{lstlisting} + wilcox.test(x = x, alternative = "greater", mu = 80) +\end{lstlisting} + +\subsection{Regression} +\label{sec:rreg} +\lstinline{x} und \lstinline{x} sind Arrays von Daten, \lstinline{lm} schätzt ein \textit{linear model} und \lstinline{summary()} gibt die Schätzwerte aus +\begin{lstlisting} + fm <- lm(y ~ x) + summary(fm) +\end{lstlisting} +% TODO: Add sample output for parameters + +\begin{center} + \rule{\linewidth}{0.25pt} +\end{center} + +\scriptsize + +\end{multicols*} + +\newpage + +\begin{multicols*}{2} +\section*{Anhang} +\label{sec:anhang} +\begin{figure}[H] + \begin{tabular}{l|llll|c|c} + \hline + \multirow{2}{*}{} & \multicolumn{4}{c}{Annahmen} & \multicolumn{1}{|c}{\multirow{2}{*}{\begin{tabular}{l}$n_\mathrm{min}$ bei \\ $\alpha = 0.05$\end{tabular}}} & \multicolumn{1}{|c}{\multirow{2}{*}{\begin{tabular}{c}Macht \\ für Bsp.\end{tabular}}} \\ + & \multicolumn{1}{c}{\begin{tabular}{c}$\sigma_X$ \\ bekannt\end{tabular}} & \multicolumn{1}{c}{$X_i \sim \mathcal{N}$} & \multicolumn{1}{c}{\begin{tabular}{c}sym. \\ Verteilung\end{tabular}} & \multicolumn{1}{c}{i.i.d.} & \multicolumn{1}{|c|}{} & \multicolumn{1}{c}{} \\ + \hline\hline + z-Test & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c|}{$\sbullet$} & 1 & 89\% \\ + t-Test & & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c|}{$\sbullet$} & 2 & 79\% \\ + Wilcoxon & & & \multicolumn{1}{c}{$\sbullet$} & \multicolumn{1}{c|}{$\sbullet$} & 6 & 79\% \\ + Vorzeichen & & & & \multicolumn{1}{c|}{$\sbullet$} & 5 & 48\% \\ + \hline + \end{tabular} + \caption{Übersicht der verschiedenen Tests für $\mu$} + \label{fig:tests} +\end{figure} + +\section*{Referenzen} +\begin{enumerate} + \item "Vorlesungsskript Mathematik IV für Agrarwissenschaften, Erdwissenschaften, Lebensmittelwissenschaften und Umweltnaturwissenschaften", Dr. Jan Ernest, HS19 \\ + \item Statistik\_MatheIV.pdf, scmelina, HS18 +\end{enumerate} + +\url{https://n.ethz.ch/~jannisp} \\ +Jannis Portmann, 2020 \\ +\doclicenseImage +\end{multicols*} + +\end{document}