Digital-Ideation

Astat (Applied Statistics for Data Science)

This folder contains all the assets from the Astat module. It has some content covered by Yanis’s summary found here. I have my own summary which contains my lecture notes and my preperation for the final exam. It can be accessed here.

Men4: The aim of this learning portfolio is to prepare me for the exam as I failed the admission last semester. The mentoring helps me to make time for ASTAT every week and to familiarise myself with the lectures in greater depth (and also to work through them). My mentor accompanies me in this process, guides me upon questions and gives me confidence in my abilities. The “Aufgabe zum Verständnis der Vorlesung” is picked out of a few and just representative.

Content

Woche 1 - Einführung in R

Vorlesung

1) Einen Vektor mit den Zahlen 4,2,1,3,3,5,7 bilden: x <- c(4,2,1,3,3,5,7) 2) Den dritten Wert aus diesem Vektor wählen: x[3] 3) Den ersten & vierten Wert auswählen: x[c(1,4)] 4) Die Länge des Vektors x bestimmen: length(x) 5) +2 zu jedem Wert im Vektor addieren: x+2 6) Gesamtsumme des Vektors ausgeben nachdem +2 gemacht wurde: sum(x+2)


Ilias-Fragen


Aufgabe zum Verständnis der Vorlesung

Es gibt 6 Personen mit Kilogramm: 60, 72, 57, 90, 95, 72 und Meter: 1.75, 1.80, 1.65, 1.90, 1.74, 1.91. Berechne den BMI mit folgender Formel:

Gewicht/Grösse^2

# Lösung
weight <- c(60, 72, 57, 90, 95, 72)
height <- c(1.75, 1.80, 1.65, 1.90, 1.74, 1.91)
bmi <- weight/height^2
bmi

Woche 2 - Eindimensionale diskriptive Statistik

Vorlesung

# Arithmetisches Mittel
waageA <- c(79.98, 80.04, 80.02, 80.04, 80.03, 80.03, 80.04, 79.97, 80.05, 80.03, 80.02, 80.00, 80.02)

mean(waageA)
## [1] 0.02396579

# Empirische Varianz und Standartabweichung
var(waageA)
## [1] 0.000574359

sd(waageA)
## [1] 0.02396579
# Median
median(waageA)
## [1] 80.03
waageB <- c(80.02, 79.94, 79.98, 79.97, 79.97, 80.03, 79.95, 79.97)

median(waageB)
## [1] 79.97
# Syntax für das untere Quartil: p=0.25

quantile(waageA, p=0.25, type =2)
## 25%
## 80.02

quantile(waageB, p=0.25, type =2)
## 25%
## 79.96

# Syntax für das obere Quartil: p=0.75

## 75%
## 80.04
# Hälfte der Lernenden liegen innerhalb von 1.55 Noten, nämlich zwischen 3.8 und 5.35 25 % der Klasse 3.8 oder weniger; rund 25 % der Klasse 5.35 und mehr.

quantile(noten, p= c(0.25, 0.75), type = 2)
## 25% 75%
## 3.80 5.35

IQR(noten, type = 2)
## [1] 1.55
# Knapp 10 % der Messwerte sind kleiner oder gleich 79.97. Entsprechend: Knapp 70 % der Messwerte kleiner oder gleich 80.04

quantile(waageA, p = .1, type = 2)
## 10%
## 79.98

quantile(waageA, p = .7, type = 2)
## 70%
## 80.04

# Boxplot: Darstellungen von verschiedenen Gruppen
boxplot(waageA, col = "darkseagreen3")

boxplot(waageA, waageB, xlab = "Waage", col = c("orange", "lightblue")

axis(side = 1, at = c(1,2), labels = c("A", "B"))

Ilias-Fragen


Aufgabe zum Verständnis der Vorlesung

In der Datei Diet.csv sind 76 Personen aufgelistet, die jeweils einer der Diäten 1,2 oder 3 für 6 Wochen machten.

In der Datei ist das Gewicht pre.weight vor der Diät und das Gewicht weight6weeks nach 6 Wochen aufgeführt. Wir interessieren uns für den Gewichtsverlust. Dazu führen wir zu der Datei eine Spalte weight.loss hinzu. Das geht folgendermassen:

R versteht diet$weight.loss automatisch als neue Spalte und fügt die der Tabelle hinzu. Nun soll dasselbe für die Teilaufgaben weight.loss und Diet durchgeführt werden. Die Resultate sollten jeweils interpretiert werden.

# Gruppenmittel:
tapply(diet$weight.loss, diet$Diet, mean)

##     1         2         3
## -3.300000 -3.025926 -5.148148

# Resultat: Die Diäten 1 und 2 führen zu einem durchschnittlichen Gewichtsverlust von 3kg. Bei Diät 3 sind es durchschnittlich 5kg.

Woche 3 - Histogramm & zweidimensionale Statistik

Vorlesung

# Streudiagramm für Weinkonsum und Mortalität (Beispiel)
wein <- c(2.8, 3.2, 3.2, 3.4, 4.3, 4.9, 5.1, 5.2, 5.9, 5.9, 6.6, 8.3, 12.6, 15.1, 25.1, 33.1, 75.9, 75.9)

mort <- c(6.2, 9.0, 7.1, 6.8, 10.2, 7.8, 9.3, 5.9, 8.9, 5.5, 7.1, 9.1, 5.1, 4.7, 3.1, 3.2, 2.1)

plot(wein, mort, 
     xlab = "Weinkonsum (Lier pro Jahr)", 
     ylab = "Mortalität",
     col = "blue",
     pch = 20
)

# Regressionsgerade für die Beziehung zwischen Seiten und Preis eines Buches
seiten <- seq(50, 500, 50)

preis <- c(6.4, 9.5, 15.6, 17.8, 23.4, 23.4, 22.5, 26.1, 29.1)

lm(preis ~ seiten)

## 
## Call:
## lm(formula = preis ~ seiten)
##
## Coefficients:
## (Intercept)      seiten
##     6.04000     0.04673

## Der Grundpreis ohne Seiten liegt bei 6.04. Pro zusätzliche Seite steigt der Preis um 0.04673.


Ilias-Fragen


Aufgabe zum Verständnis der Vorlesung

In dieser Aufgabe werden 4 Datensätze betrachtet, die von Anscombe konstruiert wurden. In jedem der Datensätze gibt es eine Zielvariable y und eine erklärende Variable x. Die Datei ist R schon enthalten.

Stelle jeden der 4 Datensätze als Streudiagramm dar, zeichnen die Regressionsgerade ein und kommentieren die Ergebnisse.

Mit par(mfrow=c(2,2)) wird das Grafikfenster so eingeteilt, dass alle 4 Bilder nebeneinander passen.

# Betrachtet man die vier Streudiagramme, so sieht man, dass nur im ersten Fall eine lineare Regression korrekt ist. Im zweiten Fall ist die Beziehung zwischen X und Y nicht linear, sondern quadratisch. Im dritten Fall gibt es einen Ausreisser, welcher die geschätzten Parameter stark beeinflusst. Im vierten Fall wird die Regressionsgerade durch einen einzigen Punkt bestimmt.

data(anscombe)
reg <- lm(anscombe$y1 ~ anscombe$x1)
reg2 <- lm(anscombe$y2 ~ anscombe$x2)
reg3 <- lm(anscombe$y3 ~ anscombe$x3)
reg4 <- lm(anscombe$y4 ~ anscombe$x4)
par(mfrow=c(2,2))
plot(anscombe$x1, anscombe$y1, ylab = "Y1", xlab = "X1")
abline(reg)
plot(anscombe$x2, anscombe$y2, ylab = "Y2", xlab = "X2")
abline(reg2)
plot(anscombe$x3, anscombe$y3, ylab = "Y3", xlab = "X3")
abline(reg3)
plot(anscombe$x4, anscombe$y4, ylab= "Y4", xlab= "X4" )
abline(reg4)

Woche 4 - Korrelation, Wahrscheinlichkeitsmodelle

Vorlesung

# Korrelation zwischen Seiten und Preis eines Buches
cor(seiten, preis)

## [1] 0.9681122

Wahrscheinlichkeit

Mengenlehre

## Beispiel
Ereignis A: Mit fairem Würfel eine 1 oder 2 werfen
Ereignis B: Kopf beim Werfen einer fairen Münze
Werfen einer Münze keinen Einfluss auf das Resultat beim Würfelwurf
Formel oben verwenden: P(AB) = P(A) * P(B) = 1/3 * 1/2 = 1/6

## Beispiel Laplace Modell
Es werden zwei verschiedene (blau und rot) Würfel geworfen. 
Wie gross ist die Wahrschienlichkeit, dass die Augensumme 7 ergibt?
Elementarereignis beschreibt die AUgenzahlen auf beiden Würfeln.
Ergebnis in der Form 1 4 schreiben
Ergebnis 1 4 ist nicht = 4 1
Elementarereignisse: Ω = {11,12,..., 65,66}
Anzahl Elementareregnisse: |Ω| = 36
Ereignis E: Augensumme 7 wird gewürfelt
Es gibt davon 6 Elementarereignisse: E = {16, 25, 34, 43, 52, 61}
Alle Elementarereignisse gleich wahrscheinlich: Wahrscheinlihckeit für Ereignis E: P(E) = |E|/|Ω| = 6/36 = 1/6


Ilias-Fragen


Aufgabe zum Verständnis der Vorlesung

Erzeuge den Vektor t.x mit den Werten −10, −9, . . . , 9, 10 und den Vektor t.x1 mit den Werten 0, 1, . . . , 9, 10. Erzeuge dann die Vektoren t.y und t.y1, deren Elemente die Quadratwerte der entsprechenden Elemente von t.x bzw. t.x1 enthalten.

t.x <- (-10):10
t.x1 <- 0:10
t.y <- t.x^2
t.y1 <- t.x1^2

Zeichne die Streudiagramme t.y vs. t.x und t.y1 vs t.x1. Benutze die R-Funktion plot().

par(mfrow=c(1,2)) # zwei Grafiken im Grafikfenster
plot(t.x, t.y, col = "darkseagreen4", pch = 19)
plot(t.x1, t.y1, col = "darkseagreen4", pch = 19)

Berechne die Korrelationskoeffizienten zwischen t.x und t.y bzw. zwischen t.x1 und t.y1. Benutze die R-Funktion cor(). Warum sind die beiden Korrelationen so verschieden?

cor(t.x,t.y)
## [1] 0

cor(t.x1,t.y1)
## [1] 0.9631427

## Die Korrelation zwischen t.x und t.y ist 0, weil die Daten symmetrisch zur y-Achse liegen. Im zweiten Fall ist die Korrelation hoch (0.96), obwohl die Daten keine lineare Beziehung aufweisen. Der Grund dafür ist, dass x und y monoton steigen.

Woche 5 - Zufallsvariable & Wahrscheinlichkeitsverteilung

Vorlesung

Empirische und theoretische Kennzahlen


Ilias-Fragen


Aufgabe zum Verständnis der Vorlesung

Die Zufallsvariable X beschreibt die Anzahl der Haushaltsmitglieder bei einer Stichprobe und haben die Verteilung:

    k   |  1   2   3   4   5
P(X = k)| 0.4 0.2 0.2 0.1 0.1

Beschreibe die von b) – e) gesuchten Wahrscheinlichkeiten in der Form P(…), z.B. P(X ≤ 5) oder P(3 ≤ X ≤ 5).

a) Handelt es sich hier um eine Wahrscheinlichkeitsverteilung? 

## Ja, denn wie Wahrscheinlichkeiten ergeben aufaddiert 1. 0.4 + 0.2 + 0.2 + 0.1 + 0.1 = 1
b) Berechne die Wahrscheinlichkeit, bei zufälliger Auswahl einen Haushalt zu erhalten, der zwischen 2 und 4 Mitglieder hat.

## P(2 ≤ X ≤ 4) = P(X = 2) + P(X = 3) + P(X = 4) = 0.2 + 0.2 + 0, 1 = 0.5
c) Berechne die Wahrscheinlichkeit, bei zufälliger Auswahl einen Haushalt zu erhalten, der mehr als 2 Mitglieder hat.

## P(X > 2) = P(X ≥ 3) = P(X = 3) + P(X = 4) + P(X = 5) = 0.2+0.1+0.1 = 0.4
d) Berechne die Wahrscheinlichkeit, bei zufälliger Auswahl einen Haushalt zu erhalten, der höchstens 4 Mitglieder hat.

## P(X ≤ 4) = 1 − P(X = 5) = 1 − 0.1 = 0.9
e) Berechne die Wahrscheinlichkeit, bei zufälliger Auswahl einen Mehrpersonenhaushalt zu erhalten.

## P(X ≥ 2) = 1 − P(X = 1) = 1 − 0.4 = 0.6

Woche 6 - Bedingte Wahrscheinlichkeit

Vorlesung

# Beispiel

1000 Personen haben die Krankheit (1%)
90% dieser Personen werden positiv getestet: 900 Personen
99'000 haben die Krankheit nicht
10% dieser Personen werden positiv getestet 9900
Anzahl positiv Getesteter 900+ 9900 = 10'800
Unter diesem positiv getestetem sind aber bei weitem mehr Gesunde, die fälschlicherweise postiv getestet wurden
Wahrscheinlichkeit, dass eine positiv getestete Person auch wirklich krank ist: 900/10'800 = 0.833

## Beispiel mit Bayes Theorem
P(D|+) = [P(+|D)*P(D)]/P(+) = 0.9*(0.009 + 0.001)/0.009 + 0.099 = 0.009/0.009 + 0.099 = 0.08


Ilias-Fragen


Aufgabe zum Verständnis der Vorlesung

Bei einer Sportveranstaltung wird ein Dopingtest durchgeführt. Wenn ein Sportler gedopt hat, dann fällt der Test zu 99 % positiv aus. Hat ein Sportler aber nicht gedopt, zeigt der Test trotzdem zu 5 % ein positives Ergebnis an. Aus Erfahrung weiss man, dass 20 % der Sportler gedopt sind.

Bezeichnungen: D = gedopt, T = positiv getestet

P(D) = 0.2, P(T D) = 0.99, P(T D) = 0.05

a) Wie gross ist die Wahrscheinlichkeit, dass eine Dopingprobe positiv ausfällt?

Gesucht: P(T).

## P(T) = P(T|D) · P(D) + P(T|¬D) · P(¬D)
## = P(T|D) · P(D) + P(T|¬D) · (1 − P(D))
## = 0.99 · 0.2 + 0.05 · 0.8
## = 0.238 = 23.8% 

b) Wie gross ist die Wahrscheinlichkeit, dass der Test negativ ausfällt, obwohl der Sportler gedopt hat?

Gesucht: P(T|D)

## P(T|D) = 1 − P(¬T|D) = 1 − 0.99 = 0.01

c) Wie gross ist die Wahrscheinlichkeit, dass ein Sportler gedopt hat, falls seine Dopingprobe negativ ausgefallen ist.

Gesucht: P(D|¬T)

## P(D|¬T) = P(¬T|D) · P(D)/P(¬T)
## = (0.01 · 0.2)/1 − 0.238
## = 0.00262 = 0.262%

Woche 7 - Normalverteilung

Vorlesung


Ilias-Fragen


Aufgabe zum Verständnis der Vorlesung

In einem Ort gibt es einige Karpfenteiche. Die Masse der Karpfen ist normalverteilt mit dem Erwartungswert µ = 4 kg und der Standardabweichung 1.25 kg.

a) Wie gross ist die Wahrscheinlichkeit, einen Karpfen zu fangen, der höchstens 2.5 kg bzw. mindestens 5 kg wiegt?

Die Zufallvariable X misst das Gewicht der Karpfen. X ist dann wie folgt verteilt: X  N (4,1.252^2).

Gesucht ist P(X  2.5) = 0.115.
Etwa 11 % der Karpfen wiegen weniger als 2.5 kg.

pnorm(q = 2.5, mean = 4, sd = 1.25)
## [1] 0.1150697

Gesucht ist P(X ≥ 5) = 0.212
Etwa 21 % der Karpfen wiegen mehr als 5 kg.

1 - pnorm(q = 5, mean = 4, sd = 1.25)
## [1] 0.2118554

b) Wie viel Prozent aller Karpfen wiegen zwischen 3 kg und 4.5 kg?

Gesucht ist P(3  X  4.5) = 0.4436.
Etwa 44 % der Karpfen wiegen zwischen 3 kg und 4.5 kg.

pnorm(q = 4.5, mean = 4, sd = 1.25) - pnorm(3, 4, 1.25)
## [1] 0.4435663

Woche 8 - Gesetz der grossen Zahlen

Vorlesung


Ilias-Fragen


Aufgabe zum Verständnis der Vorlesung

Die Zeit, die ein Passagier an einem Flughafen Check-in Schalter verbringt ist eine Zufallsvariable mit Mittelwert 8.2 Minuten und Standardabweichung 6 Minuten. Wir beobachten zufällig 36 Passgiere.

Xi ist die Zufallsvariable der Wartezeit für den i-ten Passagier. Es gilt µ = 8.2 und σX = 6. Wir betrachten die durchschnittliche Wartezeit X36.

a) Berechnen Sie die Wahrscheinlichkeit, dass die durchschnittliche Wartezeit dieser Passagiere weniger als 10 Minuten beträgt.

Gesucht ist: P(X36  10) = 0.9640697

pnorm(q = 10, mean = 8.2, sd = 1)

## [1] 0.9640697

b) Berechnen Sie die Wahrscheinlichkeit, dass die durchschnittliche Wartezeit dieser Passagiere zwischen 5 und 10 Minuten beträgt.

Gesucht ist: P(5  X36  10) = 0.9633825

pnorm(q = 10, mean = 8,2, sd = 1) - pnorm(q = 5, 8.2, 1)

## [1] 0.9633825

c) Berechnen Sie die Wahrscheinlichkeit, dass die durchschnittliche Wartezeit dieser Passagiere mehr als 20 Minuten beträgt.

Gesucht ist: P(X36  20)  0

1 - pnorm(q = 20, mean = 8.2, sd = 1)

## [1] 0

## Hier wird die W’keit 0 angegeben, aber dies ist sie nicht. Sie ist nur so klein, dass sie mit 0 dargestellt wird.

d) Alle haben wohl schon die Erfahrung gemacht, dass man länger beim Check-in gewartet hat. Warum ist die Wahrscheinlichkeit von c) dann so klein?

## Die Wahrscheinlichkeit, dass man selber mehr als 20 Minuten warten kann, ist viel grösser.

## Die Wahrscheinlichkeit in c) beschreibt die Wahrscheinlichkeit, dass 36 zufällig beobachtete Personen durchschnittlich mehr warteten und diese ist fast 0. 

## Dass viele Personen durchschnittlich mehr als 20 Minuten warten müssen, ist kleiner als die Wahrscheinlichkeit, dass eine Person mehr als 20 Minuten warten muss.

Woche 9 - Hypothesentest

Vorlesung

## Beispiel

Das Bundesamt für Statistik behauptet, dass die durchschnittliche Körpergrösse der erwachsenen Frauen in der Schweiz bei 180cm mit einer Standardabweichung von 10cm liegt. -> Einseitiger Test

Der p-Wert ist unter dem Signifikanzniveau von 0.05. Die Nullhypothese wird somit verworfen und die Alternativhypothese angenommen.
## Beispiel

Es folgt eine zusätzliche Unsicherheit. Die t-Verteilung ist ähnlich der Normalverteilung, aber flacher, aufgrund der grösseren Unsicherheit.
Das Bundesamt für Statistik behauptet, dass die durchschnittliche Körpergrösse der erwachsenen Frauen in der Schweiz bei 180cm liegt. -> Einseitiger Test. 

## Beispiel

Wählen zufällig 10 Frauen aus und messen deren Körpergrösse. Der p-Wert ist unter dem Signifikanzniveau von 0.05. Die Nullhypothese und wird somit verworfen und die Alternativhypothese angenommen.

Ilias-Fragen


Aufgabe zum Verständnis der Vorlesung

Ein Weinhändler behauptet, dass die von ihm gefüllten Weinflaschen 70 Zentiliter enthalten. Ein skeptischer Konsument vermutet aber, dass der Weinhändler zu wenig Wein abfüllt und will diese Behauptung überprüfen. Deshalb kauft er 12 Weinflaschen und misst ihren Inhalt. Er findet:

71, 69, 67, 68, 73, 72, 71, 71, 68, 72, 69, 72 (in Zentiliter)

Nehmen wir zunächst an, dass die Standardabweichung der Abfüllung im Voraus bekannt ist. Sie beträgt σ = 1.5 Zentiliter. Da die Standardabweichung der Messungen bekannt ist, können wir einen z-Test durchführen. Führe den (einseitigen; in welche Richtung?) Test auf dem 5 %- Signifikanzniveau durch. Gebe die Modellannahmen, H0, HA, den Verwerfungsbereich, den Wert der Teststatistik und das Testergebnis explizit an. Formuliere in einem Satz die Schlussfolgerung für den kritischen Konsumenten.

(Musterlösung. Bei einem Test nach unten zu x12 ist es schon grösser als 70.)

Woche 10 - Vertrauenstest & Wilcoxontest

Vorlesung


Ilias-Fragen


Aufgabe zum Verständnis der Vorlesung

Die Aufgaben für diese Wochen waren zu gross, um sie hier abzutippen, als auch eine Kombination mit den Aufgaben aus den vorherigen Wochen.

Woche 11 - Lineare Regression

Vorlesung

# Beispiel:

Für zusätzliche CHF 1000 Werbeausgaben werden 47.5 zusätzliche Einheiten des Produktes verkauft.
Die Nullhypothese wird mit p-Wert 2*10-16 verworfen. 
Somit gibt es einen klaren Zusammenhang.
Die R2-Statistik erklärt 61.19% der Varianz durch das Modell. 
Das Modell ist somit zu 2/3 akurat.

confint(lm(Verkauf ~ TV), level = 0.95)
##                    2.5%        97.5%
## (Intercept)   6.12971927  7.93546783
## TV            0.04223072  0.05284256

Verkauf liegt ohne Werbung zwischen 6130 und 7935 Einheiten.
Für zusätzliche CHF 1000 für TV-Werbung, werden durchschnittlich zwischen 42 und 53 Einheiten mehr verkauft.


Ilias-Fragen


Aufgabe zum Verständnis der Vorlesung

In dieser Aufgabe verwenden wir den Datensatz Auto, der in der Bibliothek ISLR enthalten ist.

library(ISLR)
Bei Fehlermeldung: install.packages("ISLR")

a) Untersuchen Sie den Datensatz mit head(Auto) und ?Auto.

b) Stellen Sie das Modell für eine einfache lineare Regression mit mpg als Zielvariable und horsepower als Prädiktor auf.

mpg = β0 + β1 · horsepower

c) Verwende den lm()-Befehl um die Regression durchzuführen. Verwende den summary()-Befehl um die Resultate auszudrucken. Kommentiere diese Fragen:

i) Gibt es einen Zusammenhang zwischen der Zielgrösse und dem Prädiktor?

ii) Wie interpretieren sich die Koeffizienten (intercept) und horsepower? Ist der Zusammenhang positiv oder negativ?

iii) Bestimme die Vertrauensintervalle (mit confint()) und interpretieren diese?

iv) Interpretiere den R^2-Wert.

d) Plotte die Zielvariable und den Prädiktor mit der Regressionsgeraden (abline). Wie lässt sich dieser Plot im Vergleich zum summary()-Output interpretieren?

plot(Auto$horsepower, Auto$mpg, pch = 16, col = "lightskyblue")
abline(lm(Auto$mpg ~ Auto$horsepower), col = "orange")

Die sinkende Tendenz ist deutlich sichtbar, deshalb der tiefe p-Wert. Allerdings fällt die Punktwolke nicht linear (schwacher R^2-Wert).

Woche 12 - Multiple lineare Regression

Vorlesung

# Beispiel:

Steigung für Zeitung beschreibt die Änderung der Zielgrösse Verkauf,  wenn man CHF 1000 mehr für Zeitungswerbung ausgibt, wobei die anderen erklärenden Variablen TV und Radio gleichbleiben. R2 erhöht sich, je mehr erklärende Variablen berücksichtigt werden.

cor(data.frame(TV, Radio, Zeitung, Verkauf))
##                     TV      Radio     Zeitung    Verkauf
## TV          1.00000000  0.05480866  0.05664787  0.7822244 
## Radio       0.05480866  1.00000000  0.35410375  0.5762226
## Zeitung     0.04223072  0.35410375  1.00000000  0.2282990
## Verkauf     0.78222442  0.57622257  0.22829903  1.0000000

In Märkten, wo mehr in die Werbung fürs Radio investiert wird, ist auch die Werbung für die Zeitung grösser, aufgrund des Korrelationskoeffizienten von 0.35. Aber Zeitungswerbung beeinfluss Verkäufe nicht. Zeitung schmückt sich hier mit fremden Lorbeeren, nämlich dem Erfolg von Radio auf Verkauf.
Zuerst entscheiden, ob die erklärenden Variablen Einfluss auf die Zielgrösse haben und dann ein Modell aufstellen, welches nur diese Variablen enthält. 

Interaktionseffekt: lm(medv~lstat*age)


Ilias-Fragen


Aufgabe zum Verständnis der Vorlesung

Wir führen noch eine multiple lineare Regression für Auto aus der letzten Übung durch.

a) Produziere mit pairs Streudiagramme, die alle Variablen des Datensatzes enthält.

pairs(Auto.1, col = "darkseagreen")

b) Berechne die Korrelationsmatrix zwischen den Variablen mit cor(). Dazu müssen wir zuerst die Variable name entfernen, da diese qualitativ ist und vor allem kaum einen Einfluss auf den Verbrauch hat. Interpretiere die Werte für horsepower und displacement mit den Streudiagrammen oben.

round(cor(Auto.1), 2)

Der Korrelationskoeffizient ist 0.9. Das heisst, je grösser horsepower ist, umso grösser ist displacement. Die beiden Variablen korrelieren also. Dies ist auch aus a) ersichtlich. Das Streudiagramm zeigt deutlich einen positiven linearen Zusammenhang.