Analisi Dati e Statistica, 2024–25
Università di Trento, Dipartimento di Ingegneria Industriale
Ultimo aggiornamento: 31/03/2025
Una serie temporale è costituita da una serie di osservazioni di una variabile aleatoria tale per cui l’influenza di un’osservazione sulle seguenti non possa essere trascurata e—quindi—tale che la dipendenza dal tempo risulti essenziale
Tutti i metodi di regressione visti fin ora sono basati sull’assunzione che la variabile aleatoria sia
Quest’assunzione è, tra l’altro, alla base della raccomandazione di casualizzazione della sequenza operativa
Supponiamo di poter considerare una misura come un segnale tempo-dipendente. È evidente che riducendo l’intervallo di campionamento del segnale prima o poi ogni campione sarà correlato al precedente
Esiste quindi una frequenza di campionamento massima al di sopra della quale ogni misura risulta essere autocorrelata, cioè le osservazioni di
Questa situazione sussiste quando la dinamica propria dello strumento di misura o del misurando stesso—che sono sempre finite—sono più lente dell’intervallo temporale in cui si effettuano le misure
Consideriamo ad esempio la serie temporale in figura che riporta la differenza tra la temperatura media delle terre emerse e il corrispondente valore medio nel periodo 1951–1980
È evidente che osservazioni vicine sono più correlate di osservazioni lontane
Inoltre è evidente (ed è di interesse) valutare la dipendenza della v.a. considerata dal tempo allo scopo di effettuare delle previsioni future
Abbiamo visto come gli operatori covarianza e correlazione servano a stimare l’indipendenza di due campioni
Considerando un segnale tempo-dipendente
Definiamo la funzione autocovarianza
È evidente che
La funzione di autocorrelazione (ACF), di conseguenza, è definita come:
Se campioniamo un segnale continuo a intervalli fissi
Possiamo estendere la definizione stabilendo che sia
Per costruire il grafico ACF di una s.t. si trasla l’ascissa di
Poi si calcola l’autocorrelazione tra le due serie
Il processo viene ripetuto per
La funzione di autocorrelazione
In figura il segnale di un microfono che registra il suono “AAHH”. La serie è evidentemente periodica ogni 0.01 s
L’autocorrelogramma mostra autocorrelazione elevata fino a
Consideriamo gli stessi dati della s.t. precedente, ma campionati in istanti casuali
Allora
Come atteso, l’unico valore della ACF fuori dall’initervallo di confidenza è
In questo caso si dice anche che la s.t. è un random walk
Una s.t. può essere stazionaria o meno. Si definiscono:
Per una serie stazionaria in senso ampio si può assumere
In generale, la stabilizzazione per differenziazione dà risultati migliori ed è anche più pratica: se la ST differenziata non è stabile, è possibile aumentare l’ordine di differenziazione fino a raggiungere la stabilità
Come si differenzia una ST?
Si definiscono:
Quindi ad esempio la differenziazione
La regressione classica applicata alle serie temporali è spesso insufficiente. Ad esempio, nel caso del prezzo del pollo l’analisi della autocorrelazione mostra un comportamento ciclico che la regressione classica non riesce ad evidenziare
È quindi necessario sviluppare delle tecniche che consentano di modellare i dettagli di una serie temporale, in particolare tenendo in considerazione anche l’autocorrelazione che può caratterizzare le serie temporali
Un modello Auto-Regressivo (AR) esprime una determinata osservazione
Se la media di
Ricordando la definizione dell’operatore backshift, la definizione di
Effettuare la regressione di un modello
Alternativamente, è possibile immaginare il caso in cui la generica osservazione
Analogamente al caso
Come sopra, regredire un modello
Una ST
Quindi, data una serie temporale di tipo
Se invece la serie temporale è di tipo
In questo caso l’autocorrelogramma riporterà un decadimento esponenziale seguito eventualmente da oscillazioni armoniche
Per i modelli di tipo
In generale, quindi, se la ACF mostra una memoria infinita (modello AR) e la PACF mostra pochi picchi, il numero di picchi è l’ordine del modello AR
Attenzione: non si considerano i picchi dopo il primo cut-off, cioè il lag in corrispondenza del quale l’autocorrelazione scende sotto il limite di confidenza per la prima volta
Confrontando sia ACF che PACF
L’ovvia estensione risulta dalla combinazione dei modelli
Un modello ARMA di ordine
Confrontando sia ACF che PACF
I processi
Abbiamo visto però che un processo non stazionario può essere reso tale per differenziazione di un opportuno grado
Un processo
In generale, quando
Consideriamo un modello
Nel caso generale del modello
Per un modello
È quindi necessario scegliere una delle due forme alternative. Per individuare quale, riscriviamo la serie come
In generale, si può dimostrare che i criteri visti sopra corrispondono a imporre il requisito che le radici complesse dei polinomi
Ad esempio:
Cioè il termine AR non è causale e il termine MA non è invertibile (ma lo sarebbe
Consideriamo il processo
Moltiplichiamo entrambi i lati per
In R si può ancora usare polyroot()
Ad esempio, consideriamo il processo
In questa forma il processo sembra polyroot()
per calcolare le radici:
Come si vede, si può scrivere
Eliminando il fattore comune
Quindi ai criteri di causalità e di invertibilità si aggiunge il criterio di non ridondanza dei parametri, che si verifica eliminando ogni fattore comune dalla scomposizione in fattori dei polinomi
Per quanto detto sopra, un processo, o serie temporale,
Tuttavia, prima della regressione è necessario definire gli indici
In certi casi, inoltre, le serie sono periodiche: oltre ad un possibile trend sono soggette anche a ciclici andamenti oscillanti. In questi casi:
Inoltre, abbiamo visto che i modelli ARIMA si basano sull’ipotesi di serie temporali stazionarie in senso ampio
Quindi, è necessario che sia il valor medio che la varianza siano costanti nel tempo
Quindi, nel caso più generale il modello è
Prima di eseguire una regressione è quindi necessario definire i valori dei sette parametri, evitando sovra- e sotto-adattamento
L’indice di merito più usato nella regressione SARIMA è l’Akaike Information Criterion, o AIC
In genere la qualità di una regressione con
Tuttavia aumentando
Oltre all’AIC esistono anche l’AIC corretto e il Bayesian Information Criterion, o BIC:
Il BIC penalizza maggiormente la dimensione del modello, per cui è preferito per campioni molto grandi (migliaia di osservazioni), per i quali AIC e AICc tenderebbero a favorire modelli inutilmente complessi (troppi parametri, sovra-adattamento)
Come l’AIC, anche AICc e BIC vanno minimizzati
La libreria R forecast
fornisce la funzione auto.arima()
che valuta gli indicatori su una griglia di combinazioni dei sette parametri e fornisce la regressione migliore:
ARIMA(2,1,2)(1,1,1)[12] : -890.0522
ARIMA(0,1,0)(0,1,0)[12] : -845.0766
ARIMA(1,1,0)(1,1,0)[12] : -885.6939
ARIMA(0,1,1)(0,1,1)[12] : -896.9901
ARIMA(0,1,1)(0,1,0)[12] : -860.1426
ARIMA(0,1,1)(1,1,1)[12] : -895.2944
ARIMA(0,1,1)(0,1,2)[12] : -895.3558
ARIMA(0,1,1)(1,1,0)[12] : -889.5331
ARIMA(0,1,1)(1,1,2)[12] : Inf
ARIMA(0,1,0)(0,1,1)[12] : -880.0685
ARIMA(1,1,1)(0,1,1)[12] : -896.1031
ARIMA(0,1,2)(0,1,1)[12] : -895.698
ARIMA(1,1,0)(0,1,1)[12] : -893.2768
ARIMA(1,1,2)(0,1,1)[12] : -894.0835
Best model: ARIMA(0,1,1)(0,1,1)[12]
Series: AirPassengers
ARIMA(0,1,1)(0,1,1)[12]
Box Cox transformation: lambda= -0.2947046
Coefficients:
ma1 sma1
-0.4355 -0.5847
s.e. 0.0908 0.0725
sigma^2 = 5.856e-05: log likelihood = 451.59
AIC=-897.18 AICc=-896.99 BIC=-888.55
Una volta selezionato il modello più adatto (quello con AIC minimo) si può procedere a regressione e predizione
La predizione può essere ottenuta con la funzione forecast()
Tale funzione riporta anche le bande di confidenza al 95%
paolo.bosetti@unitn.it — https://paolobosetti.quarto.pub/ADAS