比較兩個相差幾個數據點的回歸


0

我建立了一個模型來解釋股票市場的風險(標準普爾500指數)可歸因於每個部門,其中每個部門彼此獨立(部門之間的相關係數均為0)。

例如,我有以下數據:

Period                      Consumer Discretionary    Consumer Staples    Energy    Financials    Health Care    Industrials    Information Tech    Materials    Telecommunication    Utilities
2018-04-26 to 2018-05-25    10.32%                      7.13%             7.75%      12.61%        15.21%           7.34%          27.62%            7.79%            1.76%           2.45%
2018-04-27 to 2018-05-29    7.90%                      5.22%            4.96%        20.67%        12.27%           10.97%         21.85%           9.72%             5.41%         1.01%

我使用滾動回歸(使用每日收益,滾動期為31天)來計算值。據解釋,在2018年4月26日和2018年5月25日期間,消費者自由裁量權部門解釋了總市場風險的10.32%,與其他部門無關。同樣,在2018年4月27日至2018年5月29日期間,信息技術行業解釋了總市場風險的21.85%,而與其他行業無關。

這兩個回歸的輸入數據完全相同,除外,第一個包含2018-04-26,不包含2018-05-29,而第二個不包含2018-04-26,但確實包含2018-05-29。因此,任意兩個連續行相差兩個數據點。

我的問題是,使用回歸輸出和輸入數據,是否可以確定哪些輸入數據引起值的變化?

例如,您可以看到兩行之間"財務"的風險貢獻從12.61%增加到20.67%。是否是因為2018年5月29日發生了什麼事?第二次回歸中存在但第一次回歸中沒有?還是因為2018年4月26日出現在第一次回歸中而第二次回歸中沒有?如果兩者都不是,是否意味著這兩個數據點(2018-04-26和2018-05-29)對解釋這一變化並不那麼重要?

我對這種分析很感興趣,因為在給定輸出數據的情況下,我想知道市場上實際發生的情況並定性地解釋。這種分析的名稱是什麼?

非常感謝。

3

Given your current setup, it would be hard to tell whether 2018-04-26 or 2018-05-29 is the cause of the change.

There are a variety of regression diagnostics that can be used to determine which point is significant. I would recommend starting with Cook's Distance. This is a measure of the influence of an individual point on the final regression. It works by calculating the effect of deleting an individual observation from the regression.

If you don't have access to a library for calculating Cook's Distance, then you could simply delete each observation from your regression and recalculate your stats. This is very close to a technique called JackKnife Resampling.

I would also recommend starting from a regression sample that includes both days, so that you can isolate the effect of removing one or other of the days when using these techniques. BTW, I also want to echo that you might have more luck on Cross Validated or Stats (see, e.g., https://stats.stackexchange.com/questions/8344/influence-functions-and-ols).