diff --git a/img/boxplot.png b/img/boxplot.png index aa08590..aa74c03 100644 Binary files a/img/boxplot.png and b/img/boxplot.png differ diff --git a/img/histogram.png b/img/histogram.png new file mode 100644 index 0000000..9331daf Binary files /dev/null and b/img/histogram.png differ diff --git a/img/kumulative.png b/img/kumulative.png new file mode 100644 index 0000000..5d05dee Binary files /dev/null and b/img/kumulative.png differ diff --git a/img/poisson-approx.png b/img/poisson-approx.png new file mode 100644 index 0000000..2c0939c Binary files /dev/null and b/img/poisson-approx.png differ diff --git a/img/scatter.png b/img/scatter.png new file mode 100644 index 0000000..79deda1 Binary files /dev/null and b/img/scatter.png differ diff --git a/img/sreg.png b/img/sreg.png new file mode 100644 index 0000000..f1dd92d Binary files /dev/null and b/img/sreg.png differ diff --git a/zf-statistik.tex b/zf-statistik.tex index 330eaab..24779d5 100644 --- a/zf-statistik.tex +++ b/zf-statistik.tex @@ -8,12 +8,14 @@ \usepackage{amsmath, amsfonts, amssymb, amsthm} \usepackage{listings} \usepackage{xcolor} +\usepackage[ngerman]{babel} \usepackage{graphicx} \usepackage{multirow} +\usepackage{fontawesome} \usepackage{float} \usepackage[ type={CC}, - modifier={by-nc-sa}, + modifier={by-sa}, version={3.0}, ]{doclicense} @@ -85,8 +87,8 @@ } % Turn off header and footer -\pagestyle{empty} - +\pagestyle{plain} +\footskip{} % Left empty on purpose % Redefine section commands to use less space \makeatletter @@ -139,7 +141,7 @@ \Large{Statistik ZF} \\ \small{Mathematik IV, zu VL von Jan Ernest} \\ \small{Jannis Portmann 2020} \\ - {\ccbyncsa} + {\ccbysa} \end{center} \begin{center} @@ -181,8 +183,7 @@ $$P(A) = \sum_{\omega \in A} P(\{ \omega \})$$ \subsubsection{Laplace-Modell (gleiche $P(\omega_i)$)} \label{section:laplace} -$$P(E)=\frac{g}{m}$$ -günstig/möglich +$$P(A)=\frac{|A|}{|\Omega|} = \frac{\mathrm{günstig}}{\mathrm{möglich}}$$ \subsection{Unabhängigkeit} $A$ und $B$ sind stochastisch unabhängig, wenn gilt: @@ -247,16 +248,29 @@ Zusammenhänge: \item $X_1 \sim \mathrm{Bin}(n_1,\pi); X_2 \sim \mathrm{Bin}(n_2,\pi)$ unabhängig $\Rightarrow S := X_1 + X_2$, dann $S \sim \mathrm{Bin}(n_1+n_2,\pi)$ \end{itemize} -% TODO: Skript S. 22, E, Var, σ von Bernoulli und Binominal - \subsubsection{Poisson-($\lambda$)-verteilung} $$P(X = x) = \mathrm{exp}(-\lambda)\frac{\lambda^x}{x!}, x \in \mathbb{N}_0$$ Dabei sind $\mathbb{E}(X) = \lambda, \mathrm{Var}(X) = \lambda, \sigma(X) = \sqrt{\lambda}$ \\ -Für zwei unabhängige Poisson-Verteilungen $X \sim \mathrm{Poisson(\lambda_x)}, Y \sim \mathrm{Poisson}(\lambda_y)$ ist $X + Y \sim \mathrm{Poisson}(\lambda_x + \lambda_y)$ +Für zwei unabhängige Poisson-Verteilungen $X \sim \mathrm{Poisson(\lambda_x)}, Y \sim \mathrm{Poisson}(\lambda_y)$ ist $X + Y \sim \mathrm{Poisson}(\lambda_x + \lambda_y)$ \\ +Es gilt auch +$$P(X > n) = P(X \leq n) = 1 - (P(X = 0) + P(X=1) + ... + P(X = n))$$ + +\subsubsection{Geometrische Verteilung} +Sei $X \sim \mathrm{Poisson}(\pi)$, dann ist +$$Y = P(X=n) = \pi (1 - \pi)^{n-1}$$ +die Anzahl Fehlversuche bis zu einem erfogreichen Versuch. \subsubsection{Poisson-Approximation der Binomial-Verteilung} $X \sim \mathrm{Bin}(n, \pi)$ und $Y \sim \mathrm{Poisson}(\lambda)$, für kleine $\pi$ und grosse $n$ gilt: $$P(X=x)=\binom{n}{x}\pi^x(1-\pi^{n-x}) \approx P(Y = x)=\mathrm{exp}(-\lambda)\frac{\lambda^x}{x!}, x \in \mathbb{N}_0$$ +wobei $\lambda = n\pi$ + +\begin{figure}[H] + \centering + \includegraphics[width=.15\textwidth]{poisson-approx.png} + \caption{Poisson Approximation der Binominalverteilung} + \label{fig:poisson-approx} +\end{figure} \subsubsection{Diskrete Uniformverteilung} $$P(X = x_i) = \frac{1}{n}, i \in \mathbb{N}$$ @@ -267,10 +281,54 @@ Einfluss von entfernten Ereignissen auf Wahrscheinlichkeiten von neuen Ziehungen $$P(X = x)=\frac{\binom{m}{x}\binom{N-m}{n-x}}{\binom{N}{n}}$$ -Hier sind $\mathbb{E}(X) = \frac{nm}{N}$ und $\mathrm{Var}(X)=\frac{nm(N-m)(N-n)}{N^2(N-1)}$ - $X \sim \mathrm{Hyper}(N,n,m)$, dabei $N$ die total möglichen Ereignisse, $m$ die "Gewinne" und es wird $n$ gezogen. +\subsection{Kennwerte} +\subsubsection{Bernoulli-Verteilung} +\begin{center} + \begin{tabular}{rl} + $\mathbb{E}(X) =$ & $\pi$ \\ + Var$(X) =$ & $\pi(1-\pi)$ \\ + $\sigma_X =$ & $\sqrt{\pi(1-\pi)}$ + \end{tabular} +\end{center} + +\subsubsection{Binomialverteilung} +\begin{center} + \begin{tabular}{rl} + $\mathbb{E}(X) =$ & $n\pi$ \\ + Var$(X) =$ & $n\pi(1-\pi)$ \\ + $\sigma_X =$ & $\sqrt{n\pi(1-\pi)}$ + \end{tabular} +\end{center} + +\subsubsection{Poisson-Verteilung} +\begin{center} + \begin{tabular}{rl} + $\mathbb{E}(X) =$ & $\lambda$ \\ + Var$(X) =$ & $\lambda$ \\ + $\sigma_X =$ & $\sqrt{\lambda}$ + \end{tabular} +\end{center} + +\subsubsection{Geometrische Verteilung} +\begin{center} + \begin{tabular}{rl} + $\mathbb{E}(X) =$ & $\frac{1}{\pi}$ \\ + Var$(X) =$ & $\frac{1-\pi}{\pi^2}$ \\ + $\sigma_X =$ & $\frac{\sqrt{1-\pi}}{\pi}$ + \end{tabular} +\end{center} + +\subsubsection{Hypergeometrische Verteilung} +\begin{center} + \begin{tabular}{rl} + $\mathbb{E}(X) =$ & $\frac{nm}{M}$ \\ + Var$(X) =$ & $\frac{nm(N-m)(N-n)}{N^2(N-1)}$ \\ + $\sigma_X =$ & $\sqrt{\frac{nm(N-m)(N-n)}{N^2(N-1)}}$ + \end{tabular} +\end{center} + \begin{center} \rule{.5\linewidth}{0.25pt} \end{center} @@ -345,11 +403,12 @@ Idee: Wie gross muss eine Stichprobe sein, damit mit einer bestimmten Macht $\be \subsubsection{P-Wert} Der P-Wert ist ein Wert zwischen 0 und 1, der angibt, wie gut Nullhypothese und Daten zusammenpassen. -\subsubsection{Vertrauensintervall} +\subsubsection{Vertrauensintervall (VI)} \label{sec:vertrauensintervall} $$I:=\{\pi_0;\; \mathrm{Nullhypothese} \; H_0:\pi = \pi_0 \mathrm{wird \; beibehalten}\}$$ - +Die Werte von $\pi_0$ bei denen $H_0: \pi = \pi_0$ nicht verworfen wird, ist ein $(1-\alpha)$-VI. $$P_\pi(\pi \in I(X) \gtrapprox 1-\alpha)$$ +Ein $(1-\alpha)$-VI, enthält den wahren Parameter $\pi$ mit einer Wahrscheinlichkeit von $(1-\alpha)$ \begin{center} \rule{.5\linewidth}{0.25pt} @@ -387,6 +446,12 @@ wobei $s_{xy} = \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{n-1}$ \subsubsection{Grafische Methoden} \textbf{Histogramme} \\ Einteilung in Klassen, auftragen der Beobachtugen je Klasse in Balkendiagramm +\begin{figure}[H] + \centering + \includegraphics[width=.2\textwidth]{histogram.png} + \caption{Histogramm} + \label{fig:histogram} +\end{figure} \textbf{Boxplot} \\ Rechteck, vom 75\%- und 25\%-Quantil begrenzt @@ -400,6 +465,13 @@ Rechteck, vom 75\%- und 25\%-Quantil begrenzt \textbf{Streudiagramm (Scatter-Plot)} \\ Auftragen der Daten $(x_n,y_n)$ +\begin{figure}[H] + \centering + \includegraphics[width=.15\textwidth]{scatter.png} + \caption{Streudigramm} + \label{fig:scatter} +\end{figure} + \subsection{Stetige Zufallsvariablen und Wahrscheinlichkeitsverteilungen} Eine Zufallsvariable $X$ heisst stetig, falls deren Wertebereich $\mathbb{W}_X$ stetig ist \\ Da Punktverteilung @@ -409,6 +481,13 @@ $$P(X \in (a,b]) = P(a < X \leq b)$$ \textbf{Kumulative Verteilungsfunktion} $$F(x) = P(X \leq x)$$ +\begin{figure}[H] + \centering + \includegraphics[width=.2\textwidth]{kumulative.png} + \caption{Kumulative Verteilungsfunktion} + \label{fig:kumulative} +\end{figure} + \subsubsection{(Wahrscheinlichkeits-)Dichte)} $$f(x) = \dot{F}(x) \Longleftrightarrow F(x) = \int_{-\infty}^xf(y)\mathrm{d}y$$ @@ -421,7 +500,7 @@ $$f(x) = \dot{F}(x) \Longleftrightarrow F(x) = \int_{-\infty}^xf(y)\mathrm{d}y$$ \end{tabular} \end{center} -\textbf{Qunatile} +\subsubsection{Quantile} $$P(X \leq q(\alpha)) = \alpha$$ $q(\alpha)$ ist der Punkt, an dem die Fläche unter der Dichtefunktion $f(x)$ von $-\infty$ bis $q(\alpha)$ gleich $\alpha$ ist. (z.B. beim Median ($\alpha = 50\%$) sind die Flächen darunter und darüber gleich gross) @@ -584,7 +663,7 @@ Die Unabhängigkeit führt dazu, dass die Genauigkeit des arithmetischen Mittels \subsection{Statisitk für eine Stichprobe} % Wasn't able to fit it into the third-columns -Siehe \textit{Fig. \ref{fig:tests}} im \hyperref[sec:anhang]{Anhang}. +Siehe \textit{Abb. \ref{fig:tests}} im \hyperref[sec:anhang]{Anhang}. \subsubsection{Punktschätzung} Betrachtung von Daten $x_1, x_2, ...,x_n$ als Realisierungen von $X_1, X_2, ..., X_n$ i.i.d. \\ @@ -633,6 +712,7 @@ $$P_{\mu_0}(T \in K) = \alpha$$ $$P_\mu(T \in K) = \mathrm{Macht}(\mu)$$ \subsubsection{t-Test ($\sigma_X$ unbekannt)} +\label{sec:ttest} \begin{enumerate} \item \textbf{Modell}: $X_i$ ist eine kontinuierliche Messgrösse und Annahme $X_1, X_2, ..., X_n \; \mathrm{i.i.d.} \; \mathcal{N}(\mu, \sigma_X^2)$ \item \textbf{Nullhypothese}: @@ -709,7 +789,76 @@ Für Berechnung benutze R (\ref{sec:wilcoxon}) \subsection{Statisitk für zwei Stichproben} \subsubsection{Gepaarte Stichprobe} -% TODO +\label{sec:paired} +Ligt vor falls: +\begin{itemize} + \item beide Versuchsbedingungen an derselben Versuchseinheit eingesetzt werden + \item oder jeder Versuchseinheit aus der einen Gruppe genau eine Versuchseinheit aus der anderen Gruppe zugeordnet werden kann. +\end{itemize} +Die Daten entsprechen +$$x_1,...x_n \mathrm{unter \; Versuchsbedingung \; 1}$$ +$$y_1,...y_n \mathrm{unter \; Versuchsbedingung \; 2}$$ +wobei dasselbe $n$ für beide nötig ist. + +\subsubsection{t-Test für gepaarte Stichproben} +$$d_i = x_i - y_i, i \in \mathbb{N} \leq n$$ +$d_i$ seinen Realisierungen von $D_1,...D_n$ i.i.d. Somit vereinfacht sich die Betrachtung zu einer Variable auf welche wir den \textit{t-Test} aus \ref{sec:ttest} anwenden können. + +\subsubsection{Ungepaarte Stichproben} +Falls eine Paarung wie in \ref{sec:paired} nicht möglich ist und die Daten +$$X_1,...X_n \mathrm{i.i.d}$$ +$$Y_1,...Y_m \mathrm{i.i.d}$$ +entsprechen, wobei $m \neq n$ nicht zwingend notwendig ist. Entscheidend ist, dass $x_i$ und $yi$ zu verschiedenen Versuchseinheiten geören und als unabhängig angenommen werden können. + +\subsubsection{t-Test für ungepaarte Stichproben} +\begin{enumerate} + \item \textbf{Modell}: + $$X_1,...X_n \mathrm{i.i.d} \sim \mathcal{N}(\mu_X,\sigma^2)$$ + $$Y_1,...Y_m \mathrm{i.i.d} \sim \mathcal{N}(\mu_Y,\sigma^2)$$ + \item \textbf{Nullhypothese}: + \begin{center} + \begin{tabular}{cll} + & $H_0:$ & $\mu_X = \mu_Y$ + \end{tabular} + \end{center} + \textbf{Alternativhypothese}: + \begin{center} + \begin{tabular}{clll} + & $H_A:$ & $\mu_X \neq \mu_Y$ & zweiseitig \\ + oder & $H_A:$ & $\mu_X > \mu_Y$ & einseitig \\ + oder & $H_A:$ & $\mu_X < \mu_Y$ & einseitig \\ + \end{tabular} + \end{center} + \item \textbf{Teststatistik}: + $$T = \frac{\bar{X_n}-\bar{Y_m}}{S_{pool}\sqrt{\frac{1}{n}+\frac{1}{m}}}$$ + wobei + \begin{center} + \begin{tabular}{rl} + $\displaystyle S_{pool}$ & $\displaystyle = \sqrt{\frac{1}{n+m-2}\bigg(\sum_{i=1}^n(X_i-\bar{X_n})^2+\sum_{i=1}^m(Y_i-\bar{Y_m})^2\bigg)}$ \\ + & $\displaystyle = \sqrt{\frac{1}{n+m-2}\bigg((n-1)\hat{\sigma_X}^2+(m-1)\hat{\sigma_Y}^2\bigg)}$ + \end{tabular} + \end{center} + Verteilung der Teststatistik unter $H_0: T \sim t_{n+m-2}$ + \item \textbf{Signifikanzniveau}: $\alpha$ + \item \textbf{Verwerfungsbereich für die Teststatistik}:\\ + $$K=\begin{cases} + (-\infty,-t_{n+m-2;1-\frac{\alpha}{2}}] \cup [t_{n+m-2;1-\frac{\alpha}{2}},\infty), \quad \;\; \mathrm{bei} \; H_A: \mu_X \neq \mu_Y \\ + (-\infty,-t_{n+m-2;1-\frac{\alpha}{2}}], \qquad\qquad\qquad\qquad\kern 3.2em \mathrm{bei} \; H_A: \mu_X < \mu_Y \\ + [t_{n+m-2;1-\frac{\alpha}{2}},\infty), \qquad\qquad\qquad\qquad\qquad\quad\kern 2em \mathrm{bei} \; H_A: \mu_X > \mu_Y + \end{cases}$$ + \item \textbf{Testentscheid}:\\ + Überprüfen ob der beobachtete Wert der Teststatistik im Verwerfungsbereich $K$ liegt. +\end{enumerate} + +\subsubsection{Zwei-Stichproben Wilcoxon-Test (Mann-Whitney Test)} +Seien zwei Stichproben +$$X_1,...X_n \mathrm{i.i.d} \sim \mathcal{N}(\mu_X,\sigma^2)$$ +$$Y_1,...Y_m \mathrm{i.i.d} \sim \mathcal{N}(\mu_Y,\sigma^2)$$ +und $F_X$ eine beliebige Verteilungsfunktion. +Wir definieren nun +$$F_Y(x):=F_X(x-\delta)$$ +was einer verschobenen Funktion von $F_X$ entspricht. + \begin{center} \rule{.5\linewidth}{0.25pt} @@ -723,6 +872,13 @@ $$y_i = \beta_0 + \beta_1x_i+E_i,$$ wobei $i \in \mathbb{N} \leq n$, $E_i \sim \mathcal{N}(0,\sigma^2)$, $E_1,...E_n$ i.i.d., $\mathbb{E}(E_i) = 0$ und $\mathrm{Var}(E_i) = \sigma^2$ \\ $Y$ bezeichnen wir als \textbf{Zielvariable (response variable)}, $x$ als \textbf{erklärende Variable (explanatory/predictor variable)} oder \textbf{Co-Variable (covariate)} und $E_i$ als Störfaktor (zufällig) +\begin{figure}[H] + \centering + \includegraphics[width=.12\textwidth]{sreg.png} + \caption{Einfache lineare Regression mit Residuen} + \label{fig:sreg} +\end{figure} + \subsubsection{Parameterschätzung} Das Modell aus \ref{sec:regmod} mit der \textit{Methode der kleinsten Quadrate} liefert $$\hat{\beta_0},\hat{\beta_1} \mathrm{\; Minimierung \; von \;} \sum_{i=1}^n(Y_i-(\beta_0+\beta_1x_i))^2,$$ @@ -915,7 +1071,7 @@ $Y_i = \beta_0 + \beta_1\log(x_{i,2})+\beta_2\sin(\pi x_{i,3}) + E_i, i \in \mat \item Bei \textbf{multipler linearer Regression} ist $\beta_i$ die erwartete Zunahme der Zielgrösse bei Erhöhung von $x_i$ um eine Einheit - bei \textbf{Fixierung der anderen Variablen}. \end{itemize} -\subsubsection{Parameterschätzung} +\subsubsection{Parameterschätzung und t-Test} Auch hier benutzen wir die \textit{Methode der kleinsten Quadrate}. \\ $$\hat{\beta_0},\hat{\beta_1},...,\hat{\beta}_{p-1} \mathrm{\; Minimierung \; von \;} \sum_{i=1}^n(Y_i-(\beta_0+\beta_1x_{i,1}+...+\beta_{p-1}x_{i,p-1}))^2,$$ falls $p < n$ @@ -923,7 +1079,14 @@ $$\hat{\beta} = (X^TX)^{-1}X^TY.$$ Für die Fehlervarianz $$\hat{\sigma} = \frac{1}{n-p}\sum_{i=1}^nR^2_i,R_i = Y_i - \bigg(\hat{\beta}_0+\sum_{j=1}^{p-1}\hat{\beta}_jx_{i,j}\bigg)$$ -% TODO: t-Test +Den \textit{t-Test} können wir analog zur \textit{einfachen Regression} mit +\begin{center} + \begin{tabular}{ll} + $H_0: \beta_j = 0$ & \multirow{2}{*}{$, j \in \mathbb{N} \leq p-1$} \\ + $H_A: \beta_i \neq 0$ & + \end{tabular} + \end{center} +durchführen. Dabei misst $\beta_i$ den linearen Effekt der $i$-ten erklärenden Variable auf Zielvariable $Y$ \textbf{nach Elimination} der linearen Effekte auf $Y$ aller anderen Variablen. Es ist nicht möglich, durch direkte einfach lineare Regression von $Y$ zur $j$-ten erklärenden Variable $\beta_j$ zu erhalten! \subsubsection{F-Test} Prüft, ob es mindestens eine erklärende Variable gibt, die einen signifikanten Effekt auf die Zielvariable hat. @@ -944,33 +1107,6 @@ $$R^2 = \hat{\rho}_{Y\hat{Y}}^2$$ \rule{.5\linewidth}{0.25pt} \end{center} -\section{R} -\subsection{Wahrscheinlichkeitsverteilungen} -\lstinline{xxx} Name der Verteilung $X$ (z.B. \lstinline{binom} oder \lstinline{pois}): \\ -\lstinline{dxxx} berechnet $P[X=x]$ \\ -\lstinline{pxxx} berechnet $P[X\leq x]$ \\ -\lstinline{rxxx} liefert Zufallszahl gemäss $X$ - -\subsection{Verteilungen} -\lstinline{pt} für kumulative Verteilungsfunktion \\ -\lstinline{qt} für Quantile - -\subsection{Wilcoxon-Test} -\label{sec:wilcoxon} -\lstinline{x} ist Array von Daten, $\mu$ der Median -\begin{lstlisting} - wilcox.test(x = x, alternative = "greater", mu = 80) -\end{lstlisting} - -\subsection{Regression} -\label{sec:rreg} -\lstinline{x} und \lstinline{x} sind Arrays von Daten, \lstinline{lm} schätzt ein \textit{linear model} und \lstinline{summary()} gibt die Schätzwerte aus -\begin{lstlisting} - fm <- lm(y ~ x) - summary(fm) -\end{lstlisting} -% TODO: Add sample output for parameters - \begin{center} \rule{\linewidth}{0.25pt} \end{center} @@ -982,7 +1118,266 @@ $$R^2 = \hat{\rho}_{Y\hat{Y}}^2$$ \newpage \begin{multicols*}{2} -\section*{Anhang} + \section{R} + \subsection{diskrete Verteilungen} + \begin{lstlisting} + # d... berechnet P(X = x) + # p... berechnet P(X <= x) + # q... berechnet Quantile der Verteilung + # r... zieht eine bestimmte Anzahl Realisierungen der gewaehlten Verteilung +\end{lstlisting} + +\subsubsection{Binomialverteilung} + \begin{lstlisting} + dbinom(x = 5, size = 10, prob = 0.5) # Berechnet P(X = 5) fuer X ~ Binomial(10, 0.5) + pbinom(q = 5, size = 10, prob = 0.5) # Berechnet P(X <= 5) fuer X ~ Binomial(10, 0.5) + qbinom(p = 0.2, size = 10, prob = 0.5) # Berechnet das 20%-Quantil fuer X ~ Binomial(10, 0.5) + rbinom(n = 100, size = 10, prob = 0.5) # Zieht zufaellig n=100 Realisierungen von X ~ Binomial(10, 0.5) + # (fuehren Sie den oberen Befehl rbinom 2x aus, Sie erhalten andere Werte) +\end{lstlisting} + +\subsubsection{Poissonverteilung} + \begin{lstlisting} + dpois(x = 5, lambda = 2) # Berechnet P(X = 5) fuer X ~ Poisson(2) + ppois(q = 5, lambda = 2) # Berechnet P(X <= 5) fuer X ~ Poisson(2) + qpois(p = 0.2, lambda = 2) # Berechnet das 20%-Quantil fuer X ~ Poisson(2) + rpois(n = 100, lambda = 2) # Zieht n=100 Realisierungen von X ~ Poisson(2) +\end{lstlisting} + +\subsubsection{Binomialtest} + \begin{lstlisting} + ## Der Binomialtest kann in R mit dem Befehl binom.test(...) durchgefuehrt werden. + ## Die Argumente der Funktion sind: + ## - x: Der beobachtete Wert der Teststatistik + ## - n, p: Die Parameter der Verteilung der Teststatistik (Binomial(n,p)) unter der Nullhypothese + ## - alternative: + ## Die Wahl der Alternativhypothese. Moegliche Optionen sind: + ## - "less" fuer H_A: pi < pi_0 + ## - "greater" fuer H_A: pi > pi_0 + ## - "two.sided" fuer H_A: pi ungleich pi_0 + ## - conf.level: + ## Das Konfidenzniveau fuer das Vertrauensintervall. Entspricht (1 - Signifikanzniveau). + + ## Beispiel: + ## Wir vermuten, dass ein Wuerfel zu viele 6er wuerfelt. + ## Wir haben in 50 Wuerfen 13 mal eine sechs gewuerfelt. + ## Wir moechten auf dem 1%-Signifikanzniveau testen, ob der Wuerfel zu viele 6er wuerfelt. + binom.test(x = 13, n = 50, p = 1/6, alternative = "greater", conf.level = 0.99) +\end{lstlisting} + +\subsection{Kennzahlen} + \begin{lstlisting} + ## Wir haben folgende Daten beobachtet / gemessen + x <- c(1.1, 2.3, -2.4, 3.9, 5.1, -1.7, 2.0, -1.1, 3.4, 0.7) + y <- c(0.8, 2.1, -1.3, 1.0, 0.4, -3.2, 3.1, -0.1, 5.1, 4.3) + + mean(x) # arithmetisches Mittel + var(x) # Varianz + sd(x) # Standardabweichung + + max(x) # Maximum + min(x) # Minimum + + median(x) # Median + quantile(x, probs = 0.25) # empirisches 25%-Quantil + + summary(x) # Gibt Ueberblick ueber einige Kennzahlen + + cor(x,y) # Empirische Korrelatin von x und y +\end{lstlisting} + +\subsection{Grafische Methoden} + \begin{lstlisting} + plot(x, y) # Streudiagramm von x und y + hist(x) # Histogramm Typ "Frequency" (siehe VL 8) + hist(x, freq = FALSE) # Histogramm Typ "Density" (siehe VL 8) + hist(x, breaks = 10) # mit breaks = ... kann die Anzahl Balken gesteuert werden, siehe Serie 8) + plot(ecdf(x)) # Empirische kumulative Verteilungsfunktion + boxplot(x) # Boxplot + + z <- rnorm(n = 100, mean = 2, sd = 1) + qqnorm(z) # QQ-Plot, welcher mit den theoretischen Quantilen der N(0,1)-Verteilung vergleicht. +\end{lstlisting} + +\subsection{Stetige Verteilungen} +\subsubsection{Uniformverteilung} + \begin{lstlisting} + dunif(x = 2.5, min = 1, max = 3) # Wert der Dichte f(x) von X ~ Uniform([1,3]) an der Stelle x=2.5 + punif(q = 2.5, min = 1, max = 3) # Wert der kum. Verteilungsfkt. F(x) von X ~ Uniform([1,3]) an der Stelle x=2.5 + qunif(p = 0.2, min = 1, max = 3) # 20%-Quantil von X ~ Uniform([1,3]) + runif(n = 100, min = 1, max = 3) # Zieht zufaellig 100 Realisierungen von X ~ Uniform([1,3]) +\end{lstlisting} + +\subsubsection{Exponentialverteilung} + \begin{lstlisting} + dexp(x = 2, rate = 1) # Wert der Dichte f(x) von X ~ Exp(1) an der Stelle x = 2 + pexp(q = 2, rate = 1) # Wert der kum. Verteilungsfunktion F(x) von X ~ Exp(1) an der Stelle x = 2 + qexp(p = 0.2, rate = 1) # 20%-Quantil von X ~ Exp(1) + rexp(n = 100, rate = 1) # Zieht zufaellig 100 Realisierungen von X ~ Exp(1) +\end{lstlisting} + +\subsubsection{Normalverteilung} + \begin{lstlisting} + dnorm(x = 3, mean = 1, sd = sqrt(2)) # Wert der Dichte f(x) von X ~ N(1,2) an der Stelle x = 3 + pnorm(q = 3, mean = 1, sd = sqrt(2)) # Wert der kum. VF F(x) von X ~ N(1,2) an der Stelle x = 3 + qnorm(p = 0.2, mean = 1, sd = sqrt(2)) # 20%-Quantil von X ~ N(1,2) + rnorm(n = 100, mean = 1, sd = sqrt(2)) # Zieht zufaellig 100 Realisierungen von X ~ N(1,2) +\end{lstlisting} + +\subsubsection{Standardnormalverteilung} + \begin{lstlisting} + dnorm(x = 3) # Wenn man meam = ..., sd = ... nicht angibt, wird eine N(0,1)-Verteilung angenommen. + pnorm(q = 3) + qnorm(p = 0.2) # entspricht Phi^{-1}(0.2) + rnorm(n = 100) +\end{lstlisting} + +\subsection{Ein-Stichproben t-Test (gepaart)} + \begin{lstlisting} + ## Der Ein-Stichproben t-Test kann in R mit dem Befehl t.test(...) durchgefuehrt werden. + ## Die benoetigten Argumente der Funktion sind: + ## - x: Der Vektor mit den beobachteten Werten + ## - mu: Der Wert mu_0 der Nullhypothese + ## - alternative: + ## Die Wahl der Alternativhypothese. Moegliche Optionen sind: + ## - "less" fuer H_A: mu < mu_0 + ## - "greater" fuer H_A: mu > mu_0 + ## - "two.sided" fuer H_A: mu ungleich mu_0 + ## - conf.level: + ## Das Konfidenzniveau fuer das Vertrauensintervall. Entspricht (1 - Signifikanzniveau). + + t.test(x = x, y = y, alternative = "greater", mu = 0, paired = TRUE, conf.level = 0.95) +\end{lstlisting} + +\subsection{Zwei-Stichproben t-Test (ungepaart)} + \begin{lstlisting} + ## Um in R einen ungepaarten Zwei-Stichproben t-Test durchzufuehren, verwenden + ## Sie ebenfalls die Funktion t.test(...) mit den Argumenten + + ## - x: Der Vektor mit den beobachteten Werten der ersten Stichprobe + ## - y: Der Vektor mit den beobachteten Werten der zweiten Stichprobe + ## - mu: Der Wert mu_0 der Nullhypothese (typischerweise = 0, da Nullhypothese: "Es gibt keinen Unterschied") + ## - alternative: + ## Die Wahl der Alternativhypothese. Moegliche Optionen sind: + ## - "less" fuer H_A: mu_X - mu_Y < mu_0 + ## - "greater" fuer H_A: mu_X - mu_Y > mu_0 + ## - "two.sided" fuer H_A: mu_X - mu_Y ungleich mu_0 + ## - paired = FALSE (ungepaarter Test) + ## - var.equal = TRUE (standardmaessig ist var.equal = FALSE, dann wird ein Welch-Test durchgefuehrt) + ## - conf.level: + ## Das Konfidenzniveau fuer das Vertrauensintervall. Entspricht (1 - Signifikanzniveau). + + t.test(x = x, y = y, alternative = "two.sided", mu = 80.00, paired = FALSE, conf.level = 0.95) +\end{lstlisting} + +\newpage + +\subsection{Wilcoxon-Test} +\label{sec:wilcoxon} +\begin{lstlisting} + ## Ein- und Zwei-Stichproben Wilcoxon Tests stehen in R unter dem Befehl wilcox.test(...) zur Verfuegung. + ## Die Argumente der Funktion sind analog zu denjenigen der t-Tests. + wilcox.test(x = x, alternative = "greater", mu = 80) +\end{lstlisting} + +\subsection{Verteilungen} + \lstinline{pt} für kumulative Verteilungsfunktion \\ + \lstinline{qt} für Quantile + + \subsection{Regression} + \label{sec:rreg} + \subsubsection{Einfache Lineare Regression} + \begin{lstlisting} + ## Um in R ein einfaches lineares Regressionsmodell anzupassen, verwendet man den R-Befehl lm(...). + + ## Wir betrachten das Beispiel mit Buchpreis und Seitenzahl aus dem Vorlesungsskript. + x <- c(50, 100, 150, 200, 250, 300, 350, 400, 450, 500) ## Seitenzahl, erklaerende Variable. + y <- c(9.9, 10.7, 13.3, 15.2, 16.4, 23.6, 23.5, 21.1, 28.9, 29.1) ## Buchpreis, Zielvariable. +\end{lstlisting} + +Eigentliche Regression: +\begin{lstlisting} + ## Um das lineare Regressionsmodell Y_i = beta_0 + beta_1 x_i + E_i zu fitten, benutzt man + fit <- lm(y ~ x) + + ## Man kann Achsenabschnitt und Steigung sehen, wenn man sich das Objekt 'fit' anschaut: + fit +\end{lstlisting} +oder + \begin{lstlisting} + fit <- lm(y ~ x) + summary(fit) +\end{lstlisting} + liefert den Output + \begin{lstlisting} + Residuals: + Min 1Q Median 3Q Max + -3.6958 -0.5944 -0.2203 0.9300 3.3048 + + Coefficients: + Estimate Std. Error t value Pr(>|t|) + (Intercept) 6.793333 1.391060 4.884 0.00122 ** + x 0.045006 0.004484 10.037 8.25e-06 *** + --- + Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 + + Residual standard error: 2.036 on 8 degrees of freedom + Multiple R-squared: 0.9264, Adjusted R-squared: 0.9172 + F-statistic: 100.8 on 1 and 8 DF, p-value: 8.254e-06 +\end{lstlisting} +somit $Y_i = 6.793333 + 0.045006x_i$ + +\textbf{Weitere Plots} +\begin{lstlisting} +## Residuenplots erhaelt man einfach mittels +plot(fit) # man muss in der "Console" mehrmals die Eingabetaste dr¸cken, um die Plots zu sehen. + +## oder: +plot(fit$fitted, fit$resid) ## Tukey-Anscombe plot +qqnorm(fit$residuals) ## qq-Plot der Residuen + +## 95%-Vertrauensintervalle f¸r Koeffizienten (siehe VL 14, Slide 8) +confint(fit) + +## 95%-Vertrauens-/Vorhersageintervalle (siehe VL 14, Slides 9 und 10) +nd <- data.frame(x=1, y=NA) +predict(fit, newdata = nd, interval = "confidence") ## Vertrauensintervall +predict(fit, newdata = nd, interval = "prediction") ## Vorhersageintervall + +## Nehmen wir an, die Daten befinden sich in einem data.frame (anstelle von zwei Vektoren). +Daten_Buch <- data.frame(Seitenzahl = x, Buchpreis = y) +Daten_Buch + +## Dieselbe Regression wie oben kann man nun berechnen, indem man entweder schreibt: +fit2 <- lm(Daten_Buch$Buchpreis ~ Daten_Buch$Seitenzahl) +summary(fit2) + +## oder alternativ: +fit3 <- lm(Buchpreis ~ Seitenzahl, data = Daten_Buch) +summary(fit3) + +## Alle 3 Varianten (fit, fit2, fit3) liefern exakt dasselbe Resultat. +\end{lstlisting} + +\subsubsection{Multiple lineare Regression} +\begin{lstlisting} +## Um in R ein multiples lineares Regressionsmodell anzupassen, verwendet man ebenfalls den R-Befehl lm(...). + +## Wir betrachten das Beispiel mit Buchpreis und Seitenzahl aus dem Vorlesungsskript, moechten nun jedoch +## als zweite erklaerende Variable noch das Erscheinungsjahr des Buches ins Modell aufnehmen. + +x1 <- c(50, 100, 150, 200, 250, 300, 350, 400, 450, 500) ## Seitenzahl, erklaerende Variable 1. +x2 <- c(2017, 1999, 2013, 2004, 2001, 1979, 2018, 2008, 2015, 2002) ## Erscheinungsjahr, erklaerende Variable 2. +y <- c(9.9, 10.7, 13.3, 15.2, 16.4, 23.6, 23.5, 21.1, 28.9, 29.1) ## Buchpreis, Zielvariable. + +## Das multiple lineare Regressionsmodell Y_i = beta_0 + beta_1 x_1 + beta_2 x_2 + E_i berechnet man +## mit dem Befehl: +fit <- lm(y ~ x1 + x2) + +## Die restlichen Befehle sind analog zur einfachen linearen Regression. +\end{lstlisting} + +\section{Anhang} \label{sec:anhang} \begin{figure}[H] \begin{tabular}{l|llll|c|c} @@ -1002,13 +1397,25 @@ $$R^2 = \hat{\rho}_{Y\hat{Y}}^2$$ \section*{Referenzen} \begin{enumerate} - \item "Vorlesungsskript Mathematik IV für Agrarwissenschaften, Erdwissenschaften, Lebensmittelwissenschaften und Umweltnaturwissenschaften", Dr. Jan Ernest, HS19 \\ + \item Skript "Vorlesungsskript Mathematik IV für Agrarwissenschaften, Erdwissenschaften, Lebensmittelwissenschaften und Umweltnaturwissenschaften", Dr. Jan Ernest, HS19 \\ \item Statistik\_MatheIV.pdf, scmelina, HS18 + \item ZF\_Statistik\_ClemenceBoutry.pdf ,clboutry, FS16 \end{enumerate} -\url{https://n.ethz.ch/~jannisp} \\ -Jannis Portmann, 2020 \\ -\doclicenseImage +\section*{Bildquellen} +\begin{itemize} + \item Abb. \ref{fig:poisson-approx}: Skbkekas, \url{https://upload.wikimedia.org/wikipedia/commons/1/16/Poisson_pmf.svg} + \item Abb. \ref{fig:histogram}: DanielPenfield, \url{https://upload.wikimedia.org/wikipedia/commons/c/c3/Histogram_of_arrivals_per_minute.svg} + \item Abb. \ref{fig:boxplot}: towardsdatascience.com, \url{https://towardsdatascience.com/understanding-boxplots-5e2df7bcbd5} + \item Abb. \ref{fig:scatter}: DanielPenfield, \url{https://upload.wikimedia.org/wikipedia/commons/a/af/Scatter_diagram_for_quality_characteristic_XXX.svg} + \item Abb. \ref{fig:kumulative}: Skript + \item Abb. \ref{fig:sreg}: Skript +\end{itemize} + +\doclicenseImage \\ +\faGlobe \kern 1em \url{https://n.ethz.ch/~jannisp} \\ +\faGit \kern 0.88em \url{https://git.thisfro.ch/thisfro/statistik-zf} \\ +Jannis Portmann, HS19 \end{multicols*} \end{document}