import numpy as np

from sklearn.datasets import make_regression
from sklearn.linear_model import (
    Lasso,
    LinearRegression
)
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

n = 1000  # number of observations in the data
p = 100   # number of predictors in the data
k = 10    # number of relevant predictors in the data

X, y, coef = make_regression(n_samples=n,
                             n_features=p,
                             n_informative=k,
                             noise=0.005,  # add a little gaussian noise to the data
                             coef=True,
                             random_state=42)

print('\n'.join([f'beta_{i}: {coef[i]}' for i in range(p) if coef[i] != 0.0]))

beta_6: 8.88918861576965
beta_15: 19.365117777553486
beta_47: 48.24477094388765
beta_56: 82.84660305904961
beta_66: 1.8559304095025264
beta_73: 29.506960083972224
beta_80: 68.28011328758366
beta_85: 78.46795175040386
beta_87: 25.37933359399561
beta_90: 57.00013284018336

lasso_pipeline =  make_pipeline(StandardScaler(), 
    Lasso())

alpha_candidates = np.logspace(-4.0, -2.0)

print(len(alpha_candidates))

50

alpha_search = GridSearchCV(lasso_pipeline,
             {'lasso__alpha': alpha_candidates},
             cv=2).fit(X, y)

try:
    print(np.sum(alpha_search.best_estimator_[1].coef_ != 0))
except NameError:
    print('The object `alpha_search` does not exist!')

10

try:
    print('\n'.join([f'beta_hat_{i}: {alpha_search.best_estimator_[1].coef_[i]}'
           for i in range(p)
           if alpha_search.best_estimator_[1].coef_[i] != 0.0]))
except NameError:
    print('The object `alpha_search` does not exist!')

beta_hat_6: 8.687958221359063
beta_hat_15: 19.726802408850176
beta_hat_47: 48.34738538280529
beta_hat_56: 84.70297559430581
beta_hat_66: 1.9054249244538664
beta_hat_73: 28.963729026956305
beta_hat_80: 62.93734556951447
beta_hat_85: 76.56912272269763
beta_hat_87: 25.280346286439105
beta_hat_90: 58.5058168712546

print('\n'.join([f'beta_{i}: {coef[i]}' for i in range(p) if coef[i] != 0.0]))

beta_6: 8.88918861576965
beta_15: 19.365117777553486
beta_47: 48.24477094388765
beta_56: 82.84660305904961
beta_66: 1.8559304095025264
beta_73: 29.506960083972224
beta_80: 68.28011328758366
beta_85: 78.46795175040386
beta_87: 25.37933359399561
beta_90: 57.00013284018336

linear_regression = LinearRegression().fit(X, y)

np.sum(linear_regression.coef_ != 0)

np.int64(100)

LASSO Regularization & Variable Selection via Cross-Validation¶