import pandas as pd
import numpy as np
err_pen_train = fit_pen_pred.predict(X_penalized_train)-training_sample['R1M_Usd']          # Reg.
err_tree_train = fit_tree.predict(training_sample[features])-training_sample['R1M_Usd']     # Tree
err_RF_train = fit_RF.predict(training_sample[features])-training_sample['R1M_Usd']         # RF
err_XGB_train = fit_xgb.predict(train_matrix_xgb)-training_sample['R1M_Usd']                # XGBoost
err_NN_train = model_NN.predict(training_sample[features_short])-training_sample['R1M_Usd'].values.reshape((-1,1))  # NN
E= pd.concat([err_pen_train, err_tree_train,err_RF_train,err_XGB_train,pd.DataFrame(err_NN_train)], axis=1)   # E matrix
E.set_axis(['Pen_reg','Tree','RF','XGB','NN'], axis=1, inplace=True)                            # Names
E.corr()                                                                                        # Cor. mat.


E.corr().mean()

Pen_reg    0.993649
Tree       0.994361
RF         0.989791
XGB        0.985826
NN         0.994391
dtype: float64


abs(E).mean() # Mean absolute error or columns of E

Pen_reg    0.083459
Tree       0.083621
RF         0.074806
XGB        0.084048
NN         0.083627
dtype: float64


w_ensemble = np.linalg.inv((E.T.values@E.values))@np.ones(5)                    # Optimal weights
w_ensemble /= np.sum(w_ensemble)
w_ensemble

array([ 1.02220538, -2.22814584,  3.93749133,  0.56469433, -2.29624521])


err_pen_test = fit_pen_pred.predict(X_penalized_test)-testing_sample['R1M_Usd']          # Reg.
err_tree_test = fit_tree.predict(testing_sample[features])-testing_sample['R1M_Usd']     # Tree
err_RF_test = fit_RF.predict(testing_sample[features])-testing_sample['R1M_Usd']         # RF
err_XGB_test = fit_xgb.predict(test_matrix_xgb)-testing_sample['R1M_Usd']                # XGBoost
err_NN_test = model_NN.predict(testing_sample[features_short])-testing_sample['R1M_Usd'].values.reshape((-1,1))  # NN
E_test= pd.concat([err_pen_test, err_tree_test,err_RF_test,err_XGB_test,pd.DataFrame(err_NN_test,index=testing_sample.index)], axis=1)   # E_test matrix
E_test.set_axis(['Pen_reg','Tree','RF','XGB','NN'], axis=1, inplace=True)                       # Names
abs(E_test).mean() # Mean absolute error or columns of E_test

Pen_reg    0.066182
Tree       0.066535
RF         0.067986
XGB        0.068569
NN         0.066613
dtype: float64


err_EW_test = np.mean(np.abs(E_test.mean(axis=1))) # equally weight combination
print(f'equally weight combination: {err_EW_test}')

equally weight combination: 0.06673125663086175


err_opt_test =np.mean(np.abs(E_test.values@w_ensemble)) # Optimal unconstrained combination
print(f'Optimal unconstrained combination: {err_opt_test}')

Optimal unconstrained combination: 0.08351002385399925


E_test.corr()                                                                              # Cor. mat.


from cvxopt import matrix, solvers                    # Library for quadratic programming 
sigma = E.T.values@E.values                           # Unscaled covariance matrix
nb_mods= 5                                            # Number of models
Q = 2*matrix(sigma, tc="d")                           # Symmetric quadratic-cost matrix
p = matrix(np.zeros(nb_mods),tc="d")                  # Quadratic-cost vector
G = matrix(-np.eye(nb_mods), tc="d")                  # Linear inequality constraint matrix
h = matrix(np.zeros(nb_mods), tc="d")                 # Linear inequality constraint vector
A = matrix(np.ones(nb_mods), (1, nb_mods))            # matrix for linear equality constraint
b = matrix(1.0)                                       # vector for linear equality constraint
w_const=solvers.qp(Q, p, G, h, A, b)                  # Solution
print(w_const['x']) # Solution

     pcost       dcost       gap    pres   dres
 0:  3.3445e+03  3.3656e+03  5e+01  7e+00  1e+01
 1:  3.3575e+03  3.4486e+03  2e+01  4e+00  6e+00
 2:  3.4155e+03  3.5580e+03  2e+01  2e+00  4e+00
 3:  3.5873e+03  4.1600e+03  3e+02  2e+00  3e+00
 4:  3.9350e+03  4.4186e+03  2e+02  1e+00  2e+00
 5:  5.2828e+03  4.1593e+03  2e+03  8e-01  1e+00
 6:  4.9769e+03  4.6678e+03  3e+02  3e-16  2e-11
 7:  4.7556e+03  4.7111e+03  4e+01  1e-16  3e-12
 8:  4.7238e+03  4.7233e+03  6e-01  1e-16  5e-12
 9:  4.7234e+03  4.7234e+03  6e-03  2e-16  4e-12
10:  4.7234e+03  4.7234e+03  6e-05  4e-16  4e-12
Optimal solution found.
[ 5.66e-09]
[ 5.68e-09]
[ 1.00e+00]
[ 6.34e-08]
[ 5.70e-09]


import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers
from plot_keras_history import show_history

model_stack = keras.Sequential() # This defines the structure of the network, i.e. how layers are organized
model_stack.add(layers.Dense(8, activation="relu", input_shape=(nb_mods,)))
model_stack.add(layers.Dense(4, activation="tanh"))
model_stack.add(layers.Dense(1))


model_stack.compile(optimizer='RMSprop',                        # Optimisation method (weight updating)
              loss='mse',                                       # Loss function
              metrics=['MeanAbsoluteError'])                    # Output metric
model_stack.summary()                                           # Model architecture

Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
=================================================================
 dense_3 (Dense)             (None, 8)                 48        
                                                                 
 dense_4 (Dense)             (None, 4)                 36        
                                                                 
 dense_5 (Dense)             (None, 1)                 5         
                                                                 
=================================================================
Total params: 89
Trainable params: 89
Non-trainable params: 0
_________________________________________________________________


y_tilde = E.values + np.tile(training_sample['R1M_Usd'].values.reshape(-1, 1), nb_mods)    # Train preds
y_test = E_test.values + np.tile(testing_sample['R1M_Usd'].values.reshape(-1, 1), nb_mods) # Testing
fit_NN_stack  = model_stack.fit(y_tilde,                            # Train features
                          NN_train_labels,                          # Train labels
                          batch_size=512,                           # Train parameters
                          epochs=12,                                # Train parameters
                          verbose=1,                                # Show messages
                          validation_data=(y_test,NN_test_labels))  # Test features & labels
show_history(fit_NN_stack )                                         # Show training plot

Epoch 1/12
387/387 [==============================] - 1s 2ms/step - loss: 0.0213 - mean_absolute_error: 0.0675 - val_loss: 0.0402 - val_mean_absolute_error: 0.0803
Epoch 2/12
387/387 [==============================] - 1s 1ms/step - loss: 0.0191 - mean_absolute_error: 0.0634 - val_loss: 0.0406 - val_mean_absolute_error: 0.0814
Epoch 3/12
387/387 [==============================] - 1s 1ms/step - loss: 0.0188 - mean_absolute_error: 0.0634 - val_loss: 0.0402 - val_mean_absolute_error: 0.0817
Epoch 4/12
387/387 [==============================] - 0s 1ms/step - loss: 0.0186 - mean_absolute_error: 0.0633 - val_loss: 0.0400 - val_mean_absolute_error: 0.0804
Epoch 5/12
387/387 [==============================] - 0s 1ms/step - loss: 0.0186 - mean_absolute_error: 0.0632 - val_loss: 0.0404 - val_mean_absolute_error: 0.0821
Epoch 6/12
387/387 [==============================] - 1s 1ms/step - loss: 0.0184 - mean_absolute_error: 0.0632 - val_loss: 0.0401 - val_mean_absolute_error: 0.0811
Epoch 7/12
387/387 [==============================] - 1s 1ms/step - loss: 0.0183 - mean_absolute_error: 0.0631 - val_loss: 0.0404 - val_mean_absolute_error: 0.0821
Epoch 8/12
387/387 [==============================] - 0s 1ms/step - loss: 0.0183 - mean_absolute_error: 0.0631 - val_loss: 0.0406 - val_mean_absolute_error: 0.0826
Epoch 9/12
387/387 [==============================] - 1s 1ms/step - loss: 0.0181 - mean_absolute_error: 0.0632 - val_loss: 0.0403 - val_mean_absolute_error: 0.0820
Epoch 10/12
387/387 [==============================] - 0s 1ms/step - loss: 0.0181 - mean_absolute_error: 0.0632 - val_loss: 0.0403 - val_mean_absolute_error: 0.0820
Epoch 11/12
387/387 [==============================] - 1s 1ms/step - loss: 0.0181 - mean_absolute_error: 0.0632 - val_loss: 0.0401 - val_mean_absolute_error: 0.0816
Epoch 12/12
387/387 [==============================] - 1s 1ms/step - loss: 0.0181 - mean_absolute_error: 0.0632 - val_loss: 0.0401 - val_mean_absolute_error: 0.0817


macro_cond = pd.read_csv("macro_cond.csv")                                           # Term Spred, Inflation and Consumer Price Index
macro_cond["Index"] = pd.to_datetime(macro_cond["date"]) + pd.offsets.MonthBegin(-1) # Change date to first day of month to join/merge
ens_data=pd.DataFrame()
ens_data['date'] = testing_sample["date"].values
ens_data['err_NN_test'] = err_NN_test                                        # Using the errors from previous section
ens_data["Index"] = pd.to_datetime(ens_data["date"]) + pd.offsets.MonthBegin(-1)     # Change date to first day of month to join/merge
ens_data = pd.merge(ens_data, macro_cond, how="left", left_on="Index", right_on="Index")
ens_data.head()                                                                      # Show first lines


X_ens = ens_data[['inflation','termspread']]                                         # Training macro features
y_ens = abs(ens_data['err_NN_test'])                                                 # Label, here error from previous section 
fit_ens  = tree.DecisionTreeRegressor(                                               # Definining the model
  max_depth = 2,                                                                     # Maximum depth (i.e. tree levels)
  ccp_alpha=0.00001                                                                  # complexity parameters
        )
fit_ens.fit(X_ens, y_ens)                                                            # Fitting the model
fig, ax = plt.subplots(figsize=(13, 8))                                              # resizing
tree.plot_tree(fit_ens ,feature_names=X_ens.columns.values, ax=ax)                   # Plot the tree
plt.show()


training_sample_2007 = training_sample.loc[training_sample.index[(
    training_sample['date'] > '2006-12-31') & (training_sample['date'] < '2008-01-01')].tolist()]
training_sample_2009 = training_sample.loc[training_sample.index[(
    training_sample['date'] > '2008-12-31') & (training_sample['date'] < '2010-01-01')].tolist()]
training_sample_2011 = training_sample.loc[training_sample.index[(
    training_sample['date'] > '2010-12-31') & (training_sample['date'] < '2012-01-01')].tolist()]
training_sample_2013 = training_sample.loc[training_sample.index[(
    training_sample['date'] > '2012-12-31') & (training_sample['date'] < '2014-01-01')].tolist()]


y_ens_2007 = training_sample_2007['R1M_Usd'].values                                 # Dep. var.
x_ens_2007 = training_sample_2007[features].values                                  # Predictors
model_2007 = ElasticNet(alpha=0.1, l1_ratio=0.1)                                    # Model
fit_ens_2007=model_2007.fit(x_ens_2007,y_ens_2007)                                  # fitting the model
err_ens_2007 = fit_ens_2007.predict(X_penalized_test)-testing_sample['R1M_Usd']     # Pred. errs


from sklearn.ensemble import RandomForestRegressor
fit_ens_2009 = RandomForestRegressor(n_estimators = 40, # Nb of random trees
criterion ='mse', # function to measure the quality of a split
min_samples_split= 250, # Minimum size of terminal cluster
bootstrap=False, # replacement
max_features=30, # Nb of predictive variables for each tree
max_samples=4000 # Size of (random) sample for each tree
)
fit_ens_2009.fit(training_sample_2009[features].values,training_sample_2009['R1M_Usd'].values ) # Fitting the model
err_ens_2009=fit_ens_2009.predict(pd.DataFrame(X_test))-testing_sample['R1M_Usd'] # Pred. errs


train_features_xgb_2011=training_sample_2011[features_short].values # Independent variables
train_label_xgb_2011=training_sample_2011['R1M_Usd'].values # Dependent variable
train_matrix_xgb_2011=xgb.DMatrix(train_features_xgb_2011, label=train_label_xgb_2011) # XGB format!

params={'eta' : 0.3,                          # Learning rate
  'objective' : "reg:squarederror",     # Objective function
  'max_depth' : 4,                      # Maximum depth of trees
  'subsample' : 0.6,                    # Train on random 60% of sample
  'colsample_bytree' : 0.7,             # Train on random 70% of predictors
  'lambda' : 1,                         # Penalisation of leaf values
  'gamma' : 0.1}                        # Penalisation of number of leaves
fit_ens_2011 =xgb.train(params, train_matrix_xgb_2011, num_boost_round=18) # Number of trees used
err_ens_2011=fit_ens_2011.predict(test_matrix_xgb)-testing_sample['R1M_Usd'] # Pred. errs


model = keras.Sequential()
model.add(layers.Dense(16, activation="relu", input_shape=(len(features),)))
model.add(layers.Dense(8, activation="tanh"))
model.add(layers.Dense(1))
model.compile(optimizer='RMSprop', 
              loss='mse', 
              metrics=['MeanAbsoluteError'])
model.summary()
fit_ens_2013 = model.fit(
            training_sample_2013[features].values,                  # Training features
            training_sample_2013['R1M_Usd'].values,                 # Training labels
            batch_size=128,                                         # Training parameters
            epochs = 9,                                             # Training parameters
            verbose = True                                          # Show messages
)

err_ens_2013=model.predict(X_penalized_test)-testing_sample['R1M_Usd'].values.reshape((-1,1)) # Pred. errs

Model: "sequential_2"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
=================================================================
 dense_6 (Dense)             (None, 16)                1504      
                                                                 
 dense_7 (Dense)             (None, 8)                 136       
                                                                 
 dense_8 (Dense)             (None, 1)                 9         
                                                                 
=================================================================
Total params: 1,649
Trainable params: 1,649
Non-trainable params: 0
_________________________________________________________________
Epoch 1/9
112/112 [==============================] - 1s 1ms/step - loss: 0.0253 - mean_absolute_error: 0.1083
Epoch 2/9
112/112 [==============================] - 0s 1ms/step - loss: 0.0075 - mean_absolute_error: 0.0609
Epoch 3/9
112/112 [==============================] - 0s 1ms/step - loss: 0.0072 - mean_absolute_error: 0.0595
Epoch 4/9
112/112 [==============================] - 0s 1ms/step - loss: 0.0072 - mean_absolute_error: 0.0594
Epoch 5/9
112/112 [==============================] - 0s 1ms/step - loss: 0.0072 - mean_absolute_error: 0.0594
Epoch 6/9
112/112 [==============================] - 0s 1ms/step - loss: 0.0071 - mean_absolute_error: 0.0593
Epoch 7/9
112/112 [==============================] - 0s 1ms/step - loss: 0.0071 - mean_absolute_error: 0.0593
Epoch 8/9
112/112 [==============================] - 0s 1ms/step - loss: 0.0071 - mean_absolute_error: 0.0593
Epoch 9/9
112/112 [==============================] - 0s 1ms/step - loss: 0.0071 - mean_absolute_error: 0.0591


E_subtraining = pd.concat([err_ens_2007, err_ens_2009,err_ens_2011,pd.DataFrame(err_ens_2013,index=testing_sample.index)], axis=1)         # E_subtraining matrix
E_subtraining.set_axis(['err_ens_2007','err_ens_2009','err_ens_2011','err_ens_2013'], axis=1, inplace=True)   # Names
E_subtraining.corr()


E_subtraining.corr().mean()

err_ens_2007    0.955186
err_ens_2009    0.937980
err_ens_2011    0.894568
err_ens_2013    0.955742
dtype: float64

	Pen_reg	Tree	RF	XGB	NN
Pen_reg	1.000000	0.998439	0.989132	0.982260	0.998416
Tree	0.998439	1.000000	0.990692	0.984177	0.998498
RF	0.989132	0.990692	1.000000	0.978393	0.990739
XGB	0.982260	0.984177	0.978393	1.000000	0.984303
NN	0.998416	0.998498	0.990739	0.984303	1.000000

	Pen_reg	Tree	RF	XGB	NN
Pen_reg	1.000000	0.998707	0.991539	0.966304	0.998564
Tree	0.998707	1.000000	0.993818	0.968991	0.998854
RF	0.991539	0.993818	1.000000	0.972710	0.993923
XGB	0.966304	0.968991	0.972710	1.000000	0.969315
NN	0.998564	0.998854	0.993923	0.969315	1.000000

	date_x	err_NN_test	Index	date_y	CPIAUCSL	inflation	termspread
0	2014-01-31	0.084440	2014-01-01	31/01/2014	235.288	0.002424	2.47
1	2014-01-31	0.073821	2014-01-01	31/01/2014	235.288	0.002424	2.47
2	2014-01-31	-0.254902	2014-01-01	31/01/2014	235.288	0.002424	2.47
3	2014-01-31	0.266475	2014-01-01	31/01/2014	235.288	0.002424	2.47
4	2014-01-31	-0.079414	2014-01-01	31/01/2014	235.288	0.002424	2.47

	err_ens_2007	err_ens_2009	err_ens_2011	err_ens_2013
err_ens_2007	1.000000	0.953756	0.868026	0.998962
err_ens_2009	0.953756	1.000000	0.842201	0.955961
err_ens_2011	0.868026	0.842201	1.000000	0.868046
err_ens_2013	0.998962	0.955961	0.868046	1.000000

Chapter 11 Ensemble models¶

11.1 Linear ensembles¶

11.1.1 Principles¶

11.1.2 Example¶

11.2 Stacked ensembles¶

11.2.1 Two-stage training¶

11.2.2 Code and results¶

11.3 Extensions¶

11.3.1¶

11.3.2 Shrinking inter-model correlations¶

11.4 Exercise¶

References¶