[Python][AI] ํ์์ ๋ฐ์ดํฐ ๋ถ์(EDA) - ์์ธ ํ์ง ๋ฐ์ดํฐ์ (Wine Quality Dataset) - 1
ํ์์ ๋ฐ์ดํฐ ๋ถ์(EDA, Exploratory Data Analysis)๋ ๋ฐ์ดํฐ ๋ถ์์ ์ฒซ ๋จ๊ณ๋ก, ๋ฐ์ดํฐ๋ฅผ ์๊ฐ์ ์ผ๋ก ํ์ํ๊ณ ์์ฝ ํต๊ณ๋ฅผ ํ์ธํ๋ฉฐ ๋ฐ์ดํฐ์ ํน์ฑ๊ณผ ํจํด์ ํ์ ํ๋ ๊ณผ์ ์ด๋ค.. ์ด๋ฒ ๊ธ์์๋ ์์ธ
5hr1rnp.tistory.com
์ด์ ์์ ์ ์ด์ด์ ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฌ์จ ๋ค ๊ธฐ๋ณธ ์ ๋ณด ๋ฐ ์์ฝ ํต๊ณ๋ฅผ ํ์ธํ๋ ์์ ์ ์งํํ๊ฒ ๋ค.
๋ฐ์ดํฐ ๋ถ๋ฌ์ค๊ธฐ
# Library Version
# pandas : 2.2.1
# numpy : 1.26.4
# matplotlib: 3.9.2
# library import
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
# data load
# CSV ํ์ผ ๊ฒฝ๋ก ์ค์
red_wine_path = './wine+quality/winequality-red.csv'
white_wine_path = './wine+quality/winequality-white.csv'
# CSV ํ์ผ ๋ถ๋ฌ์ค๊ธฐ
red_wine = pd.read_csv(red_wine_path, sep=';')
white_wine = pd.read_csv(white_wine_path, sep=';')
# ๋ถ๋ฌ์จ data ํ์ธ
red_wine.head()
# fixed acidity volatile acidity citric acid residual sugar chlorides free sulfur dioxide total sulfur dioxide density pH sulphates alcohol quality
# 0 7.4 0.70 0.00 1.9 0.076 11.0 34.0 0.9978 3.51 0.56 9.4 5
# 1 7.8 0.88 0.00 2.6 0.098 25.0 67.0 0.9968 3.20 0.68 9.8 5
# 2 7.8 0.76 0.04 2.3 0.092 15.0 54.0 0.9970 3.26 0.65 9.8 5
# 3 11.2 0.28 0.56 1.9 0.075 17.0 60.0 0.9980 3.16 0.58 9.8 6
# 4 7.4 0.70 0.00 1.9 0.076 11.0 34.0 0.9978 3.51 0.56 9.4 5
white_wine.head()
# fixed acidity volatile acidity citric acid residual sugar chlorides free sulfur dioxide total sulfur dioxide density pH sulphates alcohol quality
# 0 7.0 0.27 0.36 20.7 0.045 45.0 170.0 1.0010 3.00 0.45 8.8 6
# 1 6.3 0.30 0.34 1.6 0.049 14.0 132.0 0.9940 3.30 0.49 9.5 6
# 2 8.1 0.28 0.40 6.9 0.050 30.0 97.0 0.9951 3.26 0.44 10.1 6
# 3 7.2 0.23 0.32 8.5 0.058 47.0 186.0 0.9956 3.19 0.40 9.9 6
# 4 7.2 0.23 0.32 8.5 0.058 47.0 186.0 0.9956 3.19 0.40 9.9 6
CSV ํ์์ ํ์ผ์ด์ง๋ง ๋ฐ์ดํฐ๋ฅผ ํ์ธํด๋ณด๋ฉด ' ; '๋ก ๋ถ๋ฆฌ๋๊ฑธ ํ์ธํ ์ ์๋ค. ๊ทธ๋์ read_csv() ํ๋ผ๋ฏธํฐ๋ก sep=';'๋ฅผ ์ ๋ ฅํด์ ๋ถ๋ฌ์จ๋ค.
๋ฐ์ดํฐ์ ํ์
1. ๋ฐ์ดํฐ ์์ฝ ์ ๋ณด
red_wine.info()
# <class 'pandas.core.frame.DataFrame'>
# RangeIndex: 1599 entries, 0 to 1598
# Data columns (total 12 columns):
# # Column Non-Null Count Dtype
# --- ------ -------------- -----
# 0 fixed acidity 1599 non-null float64
# 1 volatile acidity 1599 non-null float64
# 2 citric acid 1599 non-null float64
# 3 residual sugar 1599 non-null float64
# 4 chlorides 1599 non-null float64
# 5 free sulfur dioxide 1599 non-null float64
# 6 total sulfur dioxide 1599 non-null float64
# 7 density 1599 non-null float64
# 8 pH 1599 non-null float64
# 9 sulphates 1599 non-null float64
# 10 alcohol 1599 non-null float64
# 11 quality 1599 non-null int64
# dtypes: float64(11), int64(1)
# memory usage: 150.0 KB
white_wine.info()
# <class 'pandas.core.frame.DataFrame'>
# RangeIndex: 4898 entries, 0 to 4897
# Data columns (total 12 columns):
# # Column Non-Null Count Dtype
# --- ------ -------------- -----
# 0 fixed acidity 4898 non-null float64
# 1 volatile acidity 4898 non-null float64
# 2 citric acid 4898 non-null float64
# 3 residual sugar 4898 non-null float64
# 4 chlorides 4898 non-null float64
# 5 free sulfur dioxide 4898 non-null float64
# 6 total sulfur dioxide 4898 non-null float64
# 7 density 4898 non-null float64
# 8 pH 4898 non-null float64
# 9 sulphates 4898 non-null float64
# 10 alcohol 4898 non-null float64
# 11 quality 4898 non-null int64
# dtypes: float64(11), int64(1)
# memory usage: 459.3 KB
red wine dataset์ 1,599๊ฐ์ ๋ฐ์ดํฐ๋ก ์ด๋ฃจ์ด์ ธ์์ผ๋ฉฐ white wine dataset์ 4,898๊ฐ์ ๋ฐ์ดํฐ๋ก ์ด๋ฃจ์ด์ ธ์๋ค. quality๋ inte64 ํ์ ์ด๋ฉฐ ์ด๋ฅผ ์ ์ธํ ๋ณ์๋ค์ float64 ํ์ ์ผ๋ก ์ด๋ฃจ์ด์ ธ์๋ค. ๋ dataset ๋ชจ๋ ๊ฒฐ์ธก์น๊ฐ ์กด์ฌํ์ง ์๋๋ค.
2. ๊ธฐ์ ํต๊ณ ํ์ธ
# round(data, ndigits) ์ค์ฌ์ค์
(rounding half even) ๋ฐฉ์์ ๋ฐ์ฌ๋ฆผ ํจ์
round(red_wine.describe(), 4)
# fixed acidity volatile acidity citric acid residual sugar chlorides free sulfur dioxide total sulfur dioxide density pH sulphates alcohol quality
# count 1599.0000 1599.0000 1599.0000 1599.0000 1599.0000 1599.0000 1599.0000 1599.0000 1599.0000 1599.0000 1599.0000 1599.0000
# mean 8.3196 0.5278 0.2710 2.5388 0.0875 15.8749 46.4678 0.9967 3.3111 0.6581 10.4230 5.6360
# std 1.7411 0.1791 0.1948 1.4099 0.0471 10.4602 32.8953 0.0019 0.1544 0.1695 1.0657 0.8076
# min 4.6000 0.1200 0.0000 0.9000 0.0120 1.0000 6.0000 0.9901 2.7400 0.3300 8.4000 3.0000
# 25% 7.1000 0.3900 0.0900 1.9000 0.0700 7.0000 22.0000 0.9956 3.2100 0.5500 9.5000 5.0000
# 50% 7.9000 0.5200 0.2600 2.2000 0.0790 14.0000 38.0000 0.9968 3.3100 0.6200 10.2000 6.0000
# 75% 9.2000 0.6400 0.4200 2.6000 0.0900 21.0000 62.0000 0.9978 3.4000 0.7300 11.1000 6.0000
# max 15.9000 1.5800 1.0000 15.5000 0.6110 72.0000 289.0000 1.0037 4.0100 2.0000 14.9000 8.0000
round(white_wine.describe(), 4)
# fixed acidity volatile acidity citric acid residual sugar chlorides free sulfur dioxide total sulfur dioxide density pH sulphates alcohol quality
# count 4898.0000 4898.0000 4898.0000 4898.0000 4898.0000 4898.0000 4898.0000 4898.0000 4898.0000 4898.0000 4898.0000 4898.0000
# mean 6.8548 0.2782 0.3342 6.3914 0.0458 35.3081 138.3607 0.9940 3.1883 0.4898 10.5143 5.8779
# std 0.8439 0.1008 0.1210 5.0721 0.0218 17.0071 42.4981 0.0030 0.1510 0.1141 1.2306 0.8856
# min 3.8000 0.0800 0.0000 0.6000 0.0090 2.0000 9.0000 0.9871 2.7200 0.2200 8.0000 3.0000
# 25% 6.3000 0.2100 0.2700 1.7000 0.0360 23.0000 108.0000 0.9917 3.0900 0.4100 9.5000 5.0000
# 50% 6.8000 0.2600 0.3200 5.2000 0.0430 34.0000 134.0000 0.9937 3.1800 0.4700 10.4000 6.0000
# 75% 7.3000 0.3200 0.3900 9.9000 0.0500 46.0000 167.0000 0.9961 3.2800 0.5500 11.4000 6.0000
# max 14.2000 1.1000 1.6600 65.8000 0.3460 289.0000 440.0000 1.0390 3.8200 1.0800 14.2000 9.0000
(1) fixed_acidity (๊ณ ์ ์ฐ๋)
- Red Wine: ํ๊ท 8.32, ํ์คํธ์ฐจ 1.74
- White Wine: ํ๊ท 6.85, ํ์คํธ์ฐจ 0.84
- ํด์:
- ์ ์ ์์ธ์ด ๋ฐฑ์ ์์ธ๋ณด๋ค ๊ณ ์ ์ฐ๋๊ฐ ๋ ๋์
- ์ด๋ ์ ์ ์์ธ์ด ๋ฐฑ์ ์์ธ๋ณด๋ค ์ ๋ง(Tartness)์ด ๋ ๊ฐํ ์ ์์์ ์๋ฏธ
- ์ ์ ์์ธ์ ๊ณ ์ ์ฐ๋ ๋ถํฌ๊ฐ ๋ ๋์ด ๋ค์์ฑ์ด ํผ
(2) volatile_acidity (ํ๋ฐ์ฑ ์ฐ๋)
- Red Wine: ํ๊ท 0.53, ํ์คํธ์ฐจ 0.18
- White Wine: ํ๊ท 0.28, ํ์คํธ์ฐจ 0.10
- ํด์:
- ์ ์ ์์ธ์ ํ๋ฐ์ฑ ์ฐ๋๊ฐ ๋ฐฑ์ ์์ธ๋ณด๋ค ์ฝ ๋ ๋ฐฐ ๋์
- ์ด๋ ์ ์ ์์ธ์์ ํ๋ฐ์ฑ ์ฐ๋๊ฐ ํ์ง์ ๋ ํฐ ์ํฅ์ ๋ฏธ์น ๊ฐ๋ฅ์ฑ์ด ์์์ ์๋ฏธ
- ๋ฐฑ์ ์์ธ์ ํ๋ฐ์ฑ ์ฐ๋๊ฐ ๋ฎ์ ํ์ง์ ๋ ๋ถ์ ์ ์ธ ์ํฅ์ ์ค ์ ์์
(3) citric_acid (๊ตฌ์ฐ์ฐ)
- Red Wine: ํ๊ท 0.27, ํ์คํธ์ฐจ 0.19
- White Wine: ํ๊ท 0.33, ํ์คํธ์ฐจ 0.12
- ํด์:
- ๋ฐฑ์ ์์ธ์ ๊ตฌ์ฐ์ฐ ๋๋๊ฐ ์ ์ ์์ธ๋ณด๋ค ๋ ๋์
- ์ด๋ ๋ฐฑ์ ์์ธ์ด ์ ์ ํ๊ณ ๊ฒฝ์พํ ๋ง์ ๋ ์ ์ ์งํ๋ ๋ฐ ๊ธฐ์ฌํ ๊ฐ๋ฅ์ฑ์ด ์์
- ์ ์ ์์ธ์ ๊ตฌ์ฐ์ฐ ๋ถํฌ๊ฐ ๋ ๋์ด ๋ค์์ฑ์ด ํผ
(4) residual_sugar (์๋ฅ ๋น๋ถ)
- Red Wine: ํ๊ท 2.54, ์ต๋ 15.5
- White Wine: ํ๊ท 6.39, ์ต๋ 65.8
- ํด์:
- ๋ฐฑ์ ์์ธ์ ์๋ฅ ๋น๋ถ ๋๋๊ฐ ์ ์ ์์ธ๋ณด๋ค ํจ์ฌ ๋์
- ์ด๋ ๋ฐฑ์ ์์ธ์ด ๋จ๋ง(Sweetness)์ ๋ ๋ง์ด ๋๋ผ๊ฒ ํ ์ ์์์ ๋ํ๋
- ๋ฐฑ์ ์์ธ์ ์ต๋๊ฐ(65.8)์ ์ ์ ์์ธ์ ์ต๋๊ฐ(15.5)๋ณด๋ค ์๋ฑํ ๋์ ์ด์์น ๋ถ์์ด ํ์
(5) chlorides (์ผํ๋ฌผ)
- Red Wine: ํ๊ท 0.087, ์ต๋ 0.611
- White Wine: ํ๊ท 0.046, ์ต๋ 0.346
- ํด์:
- ์ ์ ์์ธ์ ์ผํ๋ฌผ ๋๋๊ฐ ๋ฐฑ์ ์์ธ๋ณด๋ค ์ฝ ๋ ๋ฐฐ ๋์
- ๋์ ์ผํ๋ฌผ ๋๋๋ ํ์ง์ ๋ถ์ ์ ์ธ ์ํฅ์ ์ค ์ ์์
(6) free_sulfur_dioxide (์ ๋ฆฌ ์ํฉ์ฐ)
- Red Wine: ํ๊ท 15.87, ์ต๋ 72
- White Wine: ํ๊ท 35.31, ์ต๋ 289
- ํด์:
- ๋ฐฑ์ ์์ธ์ ์ ๋ฆฌ ์ํฉ์ฐ ๋๋๊ฐ ์ ์ ์์ธ๋ณด๋ค ๋ ๋ฐฐ ์ด์ ๋์
- ์ด๋ ๋ฐฑ์ ์์ธ์ด ์ฐํ๋ฅผ ๋ฐฉ์งํ๊ณ ์ ์ ๋๋ฅผ ์ ์งํ๊ธฐ ์ํด ๋ ๋ง์ ์ํฉ์ฐ์ ํ์๋ก ํจ์ ์๋ฏธ
(7) total_sulfur_dioxide (์ด ์ํฉ์ฐ)
- Red Wine: ํ๊ท 46.47, ์ต๋ 289
- White Wine: ํ๊ท 138.36, ์ต๋ 440
- ํด์:
- ๋ฐฑ์ ์์ธ์ด ์ ์ ์์ธ๋ณด๋ค ์ฝ ์ธ ๋ฐฐ ๋ง์ ์ด ์ํฉ์ฐ์ ํฌํจ
- ๋ฐฑ์ ์์ธ์ ๋ณด์กด์ฑ๊ณผ ๊ด๋ จ๋ ์ค์ํ ์ฐจ์ด์
(8) density (๋ฐ๋)
- Red Wine: ํ๊ท 0.9967
- White Wine: ํ๊ท 0.9940
- ํด์:
- ๋ฐฑ์ ์์ธ์ด ์ ์ ์์ธ๋ณด๋ค ๋ฐ๋๊ฐ ๋ฎ์
- ์ด๋ ๋ฐฑ์ ์์ธ์ด ์์ฝ์ฌ ๋๋๊ฐ ๋ ๋๊ณ ๋น๋ถ ํจ๋์ด ๋ ๋๊ธฐ ๋๋ฌธ์ผ ๊ฐ๋ฅ์ฑ์ด ํผ
(9) pH
- Red Wine: ํ๊ท 3.31
- White Wine: ํ๊ท 3.19
- ํด์:
- ์ ์ ์์ธ์ pH๊ฐ ๋ฐฑ์ ์์ธ๋ณด๋ค ์ฝ๊ฐ ๋์ ๋ ์ฐ์ฑ์
- ์ด๋ ์ ์ ์์ธ์ด ๋ฐฑ์ ์์ธ๋ณด๋ค ์ฝ๊ฐ ๋ ๋ถ๋๋ฝ๊ณ ๋ฅ๊ทผ ๋ง์ ์ ๊ณตํ ๊ฐ๋ฅ์ฑ์ด ์์
(10) alcohol (์์ฝ์ฌ)
- Red Wine: ํ๊ท 10.42, ์ต๋ 14.9
- White Wine: ํ๊ท 10.51, ์ต๋ 14.2
- ํด์:
- ๋ ์์ธ์ ์์ฝ์ฌ ๋๋๋ ๋น์ทํ ๋ถํฌ๋ฅผ ๋ณด์
- ๋ฐฑ์ ์์ธ์ ํ๊ท ์์ฝ์ฌ ๋๋๊ฐ ์ฝ๊ฐ ๋ ๋์
(11) quality (ํ์ง ์ ์)
- Red Wine: ํ๊ท 5.64, ์ต๋ 8
- White Wine: ํ๊ท 5.88, ์ต๋ 9
- ํด์:
- ๋ฐฑ์ ์์ธ์ ํ์ง ์ ์ ํ๊ท ์ด ์ ์ ์์ธ๋ณด๋ค ์ฝ๊ฐ ๋ ๋์
- ํ์ง ์ ์์ ์ต๋๊ฐ์์๋ ๋ฐฑ์ ์์ธ์ด ๋ ๋์ ํ์ง์ ๊ธฐ๋ก
๋ฐ์ดํฐ ๋ถ์ ์์ฝ
- ์ฐ๋ (fixed_acidity & volatile_acidity): ์ ์ ์์ธ์ด ์ฐ๋๊ฐ ๋ ๋์ ์ ๋ง์ด ๊ฐํ ๊ฐ๋ฅ์ฑ์ด ํผ
- ๋จ๋ง (residual_sugar): ๋ฐฑ์ ์์ธ์ด ํจ์ฌ ๋ ๋จ๋ง์ ๋ง์ด ๊ฐ์ง
- ์ํฉ์ฐ (sulfur_dioxide): ๋ฐฑ์ ์์ธ์ด ์ฐํ ๋ฐฉ์ง๋ฅผ ์ํด ๋ ๋ง์ ์ํฉ์ฐ์ ์ฌ์ฉ
- ํ์ง (quality): ๋ฐฑ์ ์์ธ์ ํ๊ท ํ์ง์ด ์ ์ ์์ธ๋ณด๋ค ์ฝ๊ฐ ๋ ๋์