Régression linéaire simple

L’économétrie sert majoritairement à étudier l’impact d’une variable X sur Y. Une des méthodes de base pour cela est la régression linéaire simple, qui prend la forme suivante

$$ Y_t=\alpha_0 + \alpha_1 X_t +\varepsilon_t $$

On cherche, avec cette équation, à déterminer l’impact de $X_t$ sur $Y_t$, et cet impact est capturé par $\alpha_1$. Le terme $\varepsilon_t$ capture les erreurs, ou les résidus, du modèle, qu’on peut aussi lire comme étant le comportement de $Y_t$ indépendant de $X_t$ (car on peut réécrire l’équation : $\varepsilon_t=Y_t- \alpha_1X_t -\alpha_0$ ). Les hypothèses de base des régression linéaires visent à vérifier que le modèle est correctement spécifié, c’est-à-dire qu’il explique bien et de manière stable la relation entre $Y_t$ et $X_t$. Pour cela, les résidus doivent être homoscédastiques : ils doivent être répartis également autour de 0 sans changement distinct. Autrement dit, on peut faire des erreurs (c’est normal), tant que toutes les modèles sont réparties autour de 0. De manière assez mécanique, si les résidus sont autour de 0, ils doivent suivre une loi normale (être autant au-dessus qu’en-dessous de 0) et ne doivent pas être influencés par certaines valeurs. Les hypothèses classiques pour produire une estimation non biaisée avec un OLS (moindres carrés ordinaires) linéaire sont :

-absence de colinéarité entre les variables explicatives ( = les $X_t$, s’il y en a plusieurs, sont indépendants)

-les erreurs $\varepsilon_t$ ne sont pas corrélées avec les $X_t$ ( = exogénéité stricte)

-les erreurs ne sont pas auto-corrélées : $E(\varepsilon_t | \varepsilon_{t-1})=0$

-les erreurs sont homoscédastiques

On va voir ici une application basique de la régression linéaire, avec des données financières, notamment les prix de crypto-monnaies. On va utiliser les données de prix de crypto-actifs qu’on a extrait dans la page Importer des données financières depuis Yahoo Finance (et faire des beaux graphiques) avec le package quantmod avec la commande suivante :

install.packages("quantmod")
require(quantmod)

symbols <- c("BTC-USD", "ETH-USD")
getSymbols(symbols, from="2017-11-10", to="2023-06-30", src="yahoo", periodicity="daily")

Une fois les données importées, on va utiliser les rendements des prix d’actifs, qu’on peut calculer de plusieurs façons. Déjà, le package quantmod fournit la commande dailyReturn. Une façon alternative est de mesurer la différence de logarithme, qui s’apparente à mesurer le taux de croissance des prix (donc, le rendement):

BTC <- dailyReturn(`BTC-USD`)
ETH <- dailyReturn(`ETH-USD`)

dataset<-merge(BTC, ETH)
dataset<-as.zoo(dataset)
names(dataset)<-c("BTC", "ETH")

plot(dataset)

##alternative

#BTC_USD <- `BTC-USD`
#BTC2 <- diff(log(BTC_USD$`BTC-USD.Close`))

Untitled

Si on utilise les rendements, c’est pour avoir des séries stationnaires. On peut vérifier la stationnarité de chacune des séries avec le test de Dickey-Fuller, dans le package urca :

require(urca)
summary(ur.df(dataset$BTC, type="trend"))
summary(ur.df(dataset$ETH, type="trend"))

Test de Dickey-Fuller pour le Bitcoin

Test de Dickey-Fuller pour l’Ethereum

On s’intéresse à la fin des résultats du test, où on compare les valeurs de la t-statistic aux valeurs critiques. Pour le Bitcoin, la valeur (-31.2924) renvoie à tau3, la valeur (326.4076) renvoie à phi2, et la valeur (489.6101) renvoie à phi3. Les valeurs critiques sont les valeurs à dépasser pour rejeter l’hypothèse nulle de non-stationnarité. Ici, tau3, phi2 et phi3 sont supérieurs (en valeur absolu) aux valeurs critiques, donc la série est stationnaire, comme pour l’Ethereum. C’est assez logique car les deux séries ont un comportement similaire : comme on l’a vu dans la page Mesurer des corrélation, la corrélation entre Bitcoin et Ethereum est relativement haute :

cor.test(dataset$BTC, dataset$ETH)
rho <- cor(dataset$BTC, dataset$ETH)
rho^2

Corrélation BTC-ETH

rho^2

On peut également, en suivant les étapes de Box-Jenkins, observer les corrélogrammes simples et partiels pour chaque variable :