[AI][CatBoost] CatBoost로 Wine Quality 예측하기

개발 Code/인공지능 A.I.

[AI][CatBoost] CatBoost로 Wine Quality 예측하기

5hr1rnp 2025. 2. 14. 19:11

2025.01.23 - [개발 Code/인공지능 A.I.] - [Python][AI] 탐색적 데이터 분석(EDA) - 와인 품질 데이터셋 (Wine Quality Dataset) - 1

2025.01.24 - [개발 Code/인공지능 A.I.] - [Python][AI] 탐색적 데이터 분석(EDA) - 와인 품질 데이터셋 (Wine Quality Dataset) - 2

2025.02.04 - [개발 Code/인공지능 A.I.] - [Python][AI] 탐색적 데이터 분석(EDA) - 와인 품질 데이터셋 (Wine Quality Dataset) - 3

2025.02.04 - [개발 Code/인공지능 A.I.] - [Python][AI] 탐색적 데이터 분석(EDA) - 와인 품질 데이터셋 (Wine Quality Dataset) - 4

1. 개요

와인의 품질을 예측하는 것은 머신러닝에서 흔히 다루는 문제 중 하나이다. Wine Quality Dataset은 와인의 화학적 특성을 기반으로 품질을 예측하는 데이터셋으로, 회귀 문제에 해당한다. 이번 글에서는 CatBoost를 사용하여 와인 품질을 예측하는 모델을 만들어 볼 것이다.

2. Wine Quality Dataset 소개

Wine Quality Dataset은 UCI Machine Learning Repository에서 제공하는 공개 데이터셋으로, 레드 와인과 화이트 와인에 대한 품질 정보를 포함하고 있음.

특성(features): 11개의 화학적 성분 (예: pH, 알코올, 황산염 등)
레이블(label): 0~10까지의 품질 점수 (회귀 문제)

이 데이터셋은 여기에서 다운로드 가능함.

3. CatBoost 설치

CatBoost는 다음 명령어로 간단히 설치할 수 있음.

# conda config --add channels conda-forge
# conda install catboost
pip install catboost

4. 데이터 불러오기 및 전처리

Python을 사용하여 데이터셋을 불러오고, 전처리를 진행함.

import pandas as pd
from sklearn.model_selection import train_test_split
from catboost import CatBoostRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# 데이터 로드
# 또는 디렉토리 위치에 맞게 불러오기
df = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv", sep=';')

# 입력(X)와 타겟(y) 분리
X = df.drop(columns=['quality'])
y = df['quality']

# 학습 데이터와 테스트 데이터 분리
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Train 데이터 크기: {X_train.shape}")
print(f"Test 데이터 크기: {X_test.shape}")

# Train 데이터 크기: (1279, 11)
# Test 데이터 크기: (320, 11)

728x90

5. CatBoost 모델 학습

CatBoost를 사용하여 와인의 품질을 예측하는 회귀 모델을 학습함.

# CatBoost 모델 생성 및 학습
model = CatBoostRegressor(iterations=1000, depth=6, learning_rate=0.1, loss_function='MAE', verbose=200)

model.fit(X_train, y_train)

# 예측
y_pred = model.predict(X_test)

파라미터 설명

iterations=1000: 1000번 반복 학습
depth=6: 트리 깊이 설정 (값이 클수록 복잡한 모델)
learning_rate=0.1: 학습률 설정
loss_function='MAE': Mean Absolute Error(MAE)를 손실 함수로 사용

6. 결과 분석

# 모델 평가 함수
def evaluate_model(y_true, y_pred, model_name="Model"):
    mae = mean_absolute_error(y_true, y_pred)
    mse = mean_squared_error(y_true, y_pred)
    r2 = r2_score(y_true, y_pred)
    print(f"{model_name} Performance:")
    print(f"Mean Absolute Error (MAE): {mae:.4f}")
    print(f"Mean Squared Error (MSE): {mse:.4f}")
    print(f"R² Score: {r2:.4f}\n")

evaluate_model(y_test, y_pred, "CatBoost")

# CatBoost Performance:
# Mean Absolute Error (MAE): 0.4268
# Mean Squared Error (MSE): 0.3330
# R² Score: 0.4904

위 결과에서 MAE가 0.43 수준으로 나왔음. 즉, 평균적으로 약 0.43점의 오차로 품질을 예측한다는 의미임.

7. CatBoost vs. XGBoost

이전에 진행했던 결과와 비교하면 다음과 같음.

Model	MAE	MSE	R² Score
CatBoostRegressor	0.4268	0.3330	0.4904
XGBoost (Baseline)	0.4175	0.3513	0.4625
XGBoost (Scaled)	0.4175	0.3513	0.4625
XGBoost (Outliers Removed)	0.4383	0.3492	0.4656
XGBoost (Tuned)	0.4549	0.3506	0.4635

Catboost 모델이 MAE 값은 가장 낮진 않았지만, MSE 값이 가장 높고 R² Score 값이 가장 높은것을 확인함.

8. 결론

CatBoost는 데이터 전처리를 최소화하면서도 높은 성능을 제공하는 강력한 머신러닝 라이브러리임. 이번 실험에서는 Wine Quality Dataset을 예측하는 회귀 모델을 학습하였고, 베이스라인 모델로도 높은 성능을 내는것을 확인함.

CatBoost의 장점 정리

별도 범주형 데이터 변환 없이 사용 가능
빠른 학습 및 예측 속도
기본 하이퍼파라미터로도 우수한 성능

저작자표시 비영리 변경금지

'개발 Code > 인공지능 A.I.' 카테고리의 다른 글

[Python][AI] 선형 vs 비선형, 단조 vs 비단조 데이터셋 정리 (1)	2025.02.17
[Python][AI] AI 모델 성능 지표(Metrics) 정리 (1)	2025.02.16
[Python][AI] CatBoost: 강력한 그래디언트 부스팅 라이브러리 (1)	2025.02.14
[Python][AI] AutoGluon: 쉽고 빠른 머신러닝 자동화 라이브러리 (1)	2025.02.13
[Python][AI] Exploratory Data Analysis (EDA) - Wine Quality Dataset - 4 (1)	2025.02.10

현재글[AI][CatBoost] CatBoost로 Wine Quality 예측하기

🐶짱구와 꾜미 집에 놀러온 용뇽이🦊

일상 속에서 발견한 작은 언어의 재미, 스쳐 지나간 풍경과 맛있는 기억들, 그리고 배움 속에서 얻은 깨달음을 나누는 공간. A place to share the joy of language, fleeting landscapes and delightful flavors, and the insights gained through learning.

250x250

🐶짱구와 꾜미 집에 놀러온 용뇽이🦊