[Python][AI] 탐색적 데이터 분석(EDA) - 와인 품질 데이터셋 (Wine Quality Dataset)

개발 Code/인공지능 A.I.

[Python][AI] 탐색적 데이터 분석(EDA) - 와인 품질 데이터셋 (Wine Quality Dataset) - 4

5hr1rnp 2025. 2. 4. 21:35

2025.01.23 - [개발 Code/인공지능 A.I.] - [Python][AI] 탐색적 데이터 분석(EDA) - 와인 품질 데이터셋 (Wine Quality Dataset) - 1

2025.01.24 - [개발 Code/인공지능 A.I.] - [Python][AI] 탐색적 데이터 분석(EDA) - 와인 품질 데이터셋 (Wine Quality Dataset) - 2

2025.02.04 - [개발 Code/인공지능 A.I.] - [Python][AI] 탐색적 데이터 분석(EDA) - 와인 품질 데이터셋 (Wine Quality Dataset) - 3

1. 들어가며

이번 글에서는 XGBoost 회귀 모델을 활용하여 와인의 품질을 예측하고, 다양한 기법을 적용하여 성능을 비교해보겠다.
단순한 XGBoost 모델을 먼저 학습한 후,

StandardScaler를 통한 데이터 변환,
이상치 제거,
하이퍼파라미터 튜닝
등을 적용하여 성능 변화를 확인해 보겠다.

2. 데이터 준비 및 분할

와인 품질 예측을 위해 Red Wine Quality Dataset을 사용하며,
입력 변수(X)와 출력 변수(y)를 분리한 후 80:20 비율로 훈련 및 테스트 데이터로 나누겠음

from sklearn.model_selection import train_test_split

# 입력 변수(X)와 타겟 변수(y) 분리
X = red_wine.drop(columns=['quality'])
y = red_wine['quality']

# 80% 학습, 20% 테스트 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

3. XGBoost 모델을 활용한 예측

XGBoost는 부스팅(Boosting) 기반의 강력한 회귀 모델로, 와인의 품질을 예측하는 데 적합함

XGBoost 모델 학습 및 예측:

from xgboost import XGBRegressor

# XGBoost 모델 정의 및 학습
xgb_model = XGBRegressor(random_state=42)
xgb_model.fit(X_train, y_train)

# 예측 수행
y_pred_xgb = xgb_model.predict(X_test)

from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# 모델 평가 함수
def evaluate_model(y_true, y_pred, model_name="Model"):
    mae = mean_absolute_error(y_true, y_pred)
    mse = mean_squared_error(y_true, y_pred)
    r2 = r2_score(y_true, y_pred)
    print(f"{model_name} Performance:")
    print(f"Mean Absolute Error (MAE): {mae:.4f}")
    print(f"Mean Squared Error (MSE): {mse:.4f}")
    print(f"R² Score: {r2:.4f}\n")

# 성능 평가
evaluate_model(y_test, y_pred_xgb, "XGBoost (Baseline)")

# XGBoost (Baseline) Performance:
# Mean Absolute Error (MAE): 0.4175
# Mean Squared Error (MSE): 0.3513
# R² Score: 0.4625


# 	Actual Quality	Predicted Quality
# 803		6		5.230904
# 124		5		5.347796
# 350		6		5.213949
# 682		5		5.278363
# 1326		6		5.996580
# 976		5		5.008490
# 1493		5		5.004802
# 706		5		5.094469
# 613		5		6.004089
# 1587		6		5.787866

모델 평가 결과

Metric	Score
MAE	0.4175
MSE	0.3513
R² Score	0.4625

728x90

4. StandardScaler를 활용한 데이터 변환 후 성능 비교

스케일링이 필요한 이유?

XGBoost는 일반적으로 정규화 없이도 잘 작동하지만,
데이터 스케일이 큰 경우 모델 수렴 속도 개선 및 성능 향상을 기대할 수 있음

StandardScaler 적용 후 XGBoost 학습

from sklearn.preprocessing import StandardScaler

# 데이터 스케일링 적용
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# XGBoost 모델 재학습 (스케일링 적용)
xgb_model_scaled = XGBRegressor(random_state=42)
xgb_model_scaled.fit(X_train_scaled, y_train)

# 예측 및 성능 평가
y_pred_xgb_scaled = xgb_model_scaled.predict(X_test_scaled)
evaluate_model(y_test, y_pred_xgb_scaled, "XGBoost (Scaled Data)")

# XGBoost (Scaled Data) Performance:
# Mean Absolute Error (MAE): 0.4175
# Mean Squared Error (MSE): 0.3513
# R² Score: 0.4625

# 	Actual Quality	Predicted Quality (Scaled)
# 803		6		5.230904
# 124		5		5.347796
# 350		6		5.213949
# 682		5		5.278363
# 1326		6		5.996580
# 976		5		5.008490
# 1493		5		5.004802
# 706		5		5.094469
# 613		5		6.004089
# 1587		6		5.787866

스케일링 후 모델 평가 결과

Metric	Score
MSE	0.3513
R² Score	0.4625
MAE	0.4175

비교 결과:

Baseline과 동일한 성능을 보임 → 스케일링이 XGBoost 모델에는 큰 영향을 주지 않음을 확인할 수 있음

5. 이상치 제거 후 성능 비교

이상치 제거가 필요한 이유?

데이터에 극단적인 이상치가 포함될 경우 모델이 과적합(overfitting)되거나
예측 성능이 저하될 가능성이 있음

이상치 제거 후 모델 개선하기:

# IQR(Interquartile Range) 방법을 활용한 이상치 제거
import numpy as np

# IQR 계산
Q1 = X_train.quantile(0.25)
Q3 = X_train.quantile(0.75)
IQR = Q3 - Q1

# 이상치 기준 설정 (1.5 * IQR)
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# 이상치가 아닌 데이터만 선택
X_train_filtered = X_train[~((X_train < lower_bound) | (X_train > upper_bound)).any(axis=1)]
y_train_filtered = y_train.loc[X_train_filtered.index]

# XGBoost 모델 재학습 (이상치 제거 후)
xgb_model_filtered = XGBRegressor(random_state=42)
xgb_model_filtered.fit(X_train_filtered, y_train_filtered)

# 예측 및 성능 평가
y_pred_xgb_filtered = xgb_model_filtered.predict(X_test)
evaluate_model(y_test, y_pred_xgb_filtered, "XGBoost (Outliers Removed)")

# XGBoost (Outliers Removed) Performance:
# Mean Absolute Error (MAE): 0.4383
# Mean Squared Error (MSE): 0.3492
# R² Score: 0.4656

# 	Actual Quality	Predicted Quality (Scaled)
# 803		6			5.300020
# 124		5			5.235788
# 350		6			4.754515
# 682		5			5.131290
# 1326		6			5.996963
# 976		5			4.997323
# 1493		5			5.347618
# 706		5			5.048402
# 613		5			5.936689
# 1587		6			5.864721

이상치 제거 후 모델 평가 결과

Metric	Score
MAE	0.4383
MSE	0.3492
R² Score	0.4656

비교 결과

이상치 제거 후 성능 변화는 크지 않음
다만, MSE가 약간 감소(R² Score 증가) → 이상치 제거가 미세하게 성능을 향상시킴

6. 하이퍼파라미터 튜닝을 통한 최적 성능 찾기

XGBoost는 다양한 하이퍼파라미터 조정을 통해 성능을 개선할 수 있음
특히, n_estimators, max_depth, learning_rate 등의 값을 최적화하는 것이 중요함

GridSearchCV를 활용한 최적 파라미터 탐색:

from sklearn.model_selection import GridSearchCV

# 하이퍼파라미터 후보 정의
param_grid = {
    'n_estimators': [100, 300, 500, 1000],
    'max_depth': [3, 5, 7, 9],
    'learning_rate': [0.0001, 0.0005, 0.001, 0.005, 0.01, 0.05, 0.1]
}

# GridSearchCV 실행
grid_search = GridSearchCV(XGBRegressor(random_state=42),
                           param_grid, cv=5, scoring='r2', n_jobs=-1)
grid_search.fit(X_train, y_train)

# 최적 파라미터 확인
print("Best Parameters:", grid_search.best_params_)

# 최적 모델 평가
best_xgb = grid_search.best_estimator_
y_pred_xgb_tuned = best_xgb.predict(X_test)
evaluate_model(y_test, y_pred_xgb_tuned, "XGBoost (Tuned)")

최적 하이퍼파라미터 결과

# Best Parameters: {'learning_rate': 0.05, 'max_depth': 5, 'n_estimators': 300}
# XGBoost (Tuned) Performance:
# Mean Absolute Error (MAE): 0.4549
# Mean Squared Error (MSE): 0.3506
# R² Score: 0.4635

# 	Actual Quality	Predicted Quality (Scaled)
# 803		6		5.439800
# 124		5		5.003238
# 350		6		5.149049
# 682		5		5.308735
# 1326		6		5.826034
# 976		5		5.128599
# 1493		5		5.092262
# 706		5		5.184746
# 613		5		5.990964
# 1587		6		5.870989

튜닝 후 모델 평가 결과

Metric	Score
MAE	0.4549
MSE	0.3506
R² Score	0.4635

튜닝 결과

성능이 Baseline과 거의 비슷하거나 약간 낮음 → 기본값도 충분히 좋은 성능을 보였음
튜닝이 항상 성능을 개선하지는 않음 → 데이터 특성에 따라 다름

7. 최종 성능 비교 및 결론

Model	MAE	MSE	R² Score
XGBoost (Baseline)	0.4175	0.3513	0.4625
XGBoost (Scaled)	0.4175	0.3513	0.4625
XGBoost (Outliers Removed)	0.4383	0.3492	0.4656
XGBoost (Tuned)	0.4549	0.3506	0.4635

결론:

Baseline 모델이 가장 좋은 성능을 보였음
이상치 제거는 일부 개선 효과가 있었음
하이퍼파라미터 튜닝이 성능을 크게 향상시키지는 않음

저작자표시 비영리 변경금지

'개발 Code > 인공지능 A.I.' 카테고리의 다른 글

[Python][AI] Exploratory Data Analysis (EDA) - Wine Quality Dataset - 2 (0)	2025.02.10
[Python][AI] Exploratory Data Analysis (EDA) - Wine Quality Dataset - 1 (0)	2025.02.10
[Python][AI] 탐색적 데이터 분석(EDA) - 와인 품질 데이터셋 (Wine Quality Dataset) - 3 (0)	2025.02.04
[Python][AI] 탐색적 데이터 분석(EDA) - 와인 품질 데이터셋 (Wine Quality Dataset) - 2 (0)	2025.01.24
[Python][AI] 탐색적 데이터 분석(EDA) - 와인 품질 데이터셋 (Wine Quality Dataset) - 1 (1)	2025.01.23

현재글[Python][AI] 탐색적 데이터 분석(EDA) - 와인 품질 데이터셋 (Wine Quality Dataset) - 4

🐶짱구와 꾜미 집에 놀러온 용뇽이🦊

일상 속에서 발견한 작은 언어의 재미, 스쳐 지나간 풍경과 맛있는 기억들, 그리고 배움 속에서 얻은 깨달음을 나누는 공간. A place to share the joy of language, fleeting landscapes and delightful flavors, and the insights gained through learning.

250x250

🐶짱구와 꾜미 집에 놀러온 용뇽이🦊