[Python][pandas] 데이터 불러오기

개발 Code/파이썬 Python

[Python][pandas] 데이터 불러오기 - CSV

5hr1rnp 2025. 1. 22. 13:42

CSV란 ?

데이터 분석에서 가장 흔히 접하는 형식 중 하나가 CSV(Comma Separated Values) 파일이다. CSV는 데이터가 쉼표(또는 다른 구분자)로 구분된 텍스트 형식으로 저장된다. Pandas의 read_csv() 함수는 이러한 파일을 간단히 읽어들일 수 있도록 강력한 기능을 제공한다. 이번 글에서는 CSV 형식에 대한 간단한 소개와 함께 Pandas로 CSV 파일을 불러오는 방법, 자주 사용하는 주요 매개변수, 그리고 에러를 예방하거나 해결하는 방법을 알아보도록 하겠다.

CSV 파일 형식이란 ?

CSV 파일은 데이터가 쉼표(,)로 구분되어 저장된 단순한 텍스트 파일이다. 각 행은 데이터의 한 레코드를 나타내며, 첫 번째 행은 일반적으로 열 이름(헤더)으로 사용된다. 예를 들어 다음과 같다.

# CSV 파일 예시
# Name,Age,City
# Alice,25,New York
# Bob,30,Los Angeles
# Charlie,35,Chicago

CSV 파일의 특성

구분자: 일반적으로 쉼표(,)로 구분되지만, 탭(\t) 또는 세미콜론(;)을 사용하는 경우도 있다.
헤더: 첫 번째 행에 열 이름이 포함되는 경우가 많다.
텍스트 인코딩: 기본적으로 utf-8이 사용되지만, 한국에서는 cp949나 euc-kr로 저장된 파일도 흔히 사용된다.

Pandas로 CSV 파일 불러오기

Pandas의 read_csv() 함수는 CSV 파일을 DataFrame으로 변환하는 데 사용된다. 기본 사용법은 다음과 같다.

# pandas는 주로 `pd`라는 이름으로 불러와서 사용한다.
import pandas as pd

# CSV 파일 읽기
df = pd.read_csv('data.csv')

# DataFrame 출력
print(df)

위 코드는 현재 디렉터리에 있는 'data.csv' 파일을 읽어 DataFrame으로 변환한 후 데이터를 출력한다.

728x90

주요 매개변수 (Parameters)

read_csv()는 다양한 옵션을 제공하여 파일의 구조에 맞게 데이터를 읽을 수 있다. 자주 사용하는 매개변수는 다음과 같다.

# index_col
# DataFrame에서 특정 열을 인덱스로 설정할 수 있도록 도와줌
# 인덱스(index)는 데이터의 고유한 식별자 역할을 하며, 효율적인 데이터 검색과
# 처리를 가능하게 함

df = pd.read_csv('data.csv', index_col=0)  # 첫 번째 열을 인덱스로 설정

# sep
# 구분자를 지정하며, default는 쉼표(,)

df = pd.read_csv('data.tsv', sep='\t') # 탭(tab)으로 구분된 파일 읽기

# encoding
# 텍트스 파일의 문자 인코딩을 지정함
# 기관에서 제공하는 데이터의 encoding 형식은 `cp949`인 경우가 많음
# default는 `utf-8` 형식

df = pd.read_csv('data.csv', encoding='cp949') # `cp949`로 인코딩된 데이터 불러오기

# header
# 헤더(열 이름)이 있는 행 번호를 지정한다. default는 0(첫 번째 행을 뜻함)

df = pd.read_csv('data.csv', header=None) # 헤더 없이 파일 읽기

# na_values
# 특정 값을 결측값(NaN, Not a Number)으로 처리
# * 참고로 null은 존재하지 않음을 뜻하며, NA는 Not Available의 줄임말
# 기본적으로 다음 값은 NaN으로 해석됨 : " ", "#N/A", "#N/A N/A", "#NA", "-1.#IND", 
# "-1.#QNAN", "-NaN", "-nan", "1.#IND", "1.#QNAN", "<NA>", "N/A", "NA", "NULL", 
# "NaN", "None", "n/a", "nan", "null "

df = pd.read_csv('data.csv', na_values=['N/A', '-'])

# usecols
# 읽고자 하는 열만 선택함

df = pd.read_csv('data.csv', usecols=['Name', 'Age'])

에러 예방 및 해결 방법

1) ParserError

파일을 구분 분석하는 동안 열의 개수가 맞지 않아 발생하는 에러입니다. 예를 들어

pandas.errors.ParserError: Error tokenizing data. C error: Expected 6 fields in line 13, saw 7

13번째 줄에서 6개의 필드 값이 있어야 하는데 7개의 값이 있어 발생하는 문제. 해당 라인에만 문제가 있을 수 있으나, 더 많은 행에서 문제가 있을 수 있으므로 문제가 발생하는 행은 'skip'으로 건너뛰는게 하나의 방법일수도 있다.

# error_bad_lines
# Pandas 1.3.0 이전 버전에서 지원
# 이 옵션을 사용하면 문제가 되는 행을 건너뛰고 나머지 데이터를 읽어올 수 있음

df = pd.read_csv('data.csv', error_bad_lines=False) # 문제가 되는 행 건너뛰기

# on_bad_lines
# Pandas 1.3.0 이후 버전에서 지원
# 최신 Pandas에서는 on_bad_lines 옵션을 사용하여 문제가 되는 행을 처리할 수 있음
# on_bad_lines 옵션
# 'error': 문제가 발생하면 오류를 발생시킴 (default)
# 'skip': 문제가 되는 행을 건너뜀
# callable 함수: 특정 행을 어떻게 처리할지 사용자 정의 함수로 지정

df = pd.read_csv('data.csv', on_bad_lines='skip') # 문제가 되는 행 건너뛰기

# skiprows
# 문제가 되는 행이 특정 행 번호에 위치해 있다면 해당 옵션을 사용해
# 명시적으로 건너뛸 수 있음

df = pd.read_csv('data.csv', skiprows=[2, 4]) # 특정 행 건너뛰기 (예: 2, 4번 행 건너뛰기)

# 문제가 되는 데이터를 사전 필터링 데이터 파일의 크기가 크거나 행의 위치를 미리 알 수 없는 경우, 
# 데이터를 한 줄씩 읽으면서 특정 조건에 따라 필터링하는 방식도 사용할 수 있음
# 이를 위해 Pandas의 `chunksize`를 사용함

# 데이터를 청크 단위로 읽기
valid_rows = []
for chunk in pd.read_csv('data.csv', chunksize=1000):
    # 필터링 조건 적용 (예: 열 개수가 맞는 행만)
    valid_chunk = chunk[chunk.apply(lambda x: len(x) == len(chunk.columns), axis=1)]
    valid_rows.append(valid_chunk)

# 유효한 행들로 데이터프레임 생성
df = pd.concat(valid_rows, ignore_index=True)

2) 인코딩 관련 문제

한국어 파일은 `utf-8` 대신 `cp949` 또는 `euc-kr`로 저장되는 경우가 많아, 다음과 같은 에러가 발생할 수 있다.

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb0 in position 0: invalid start byte

해결 방법으로는 `encoding` 형식을 명시적으로 지정하여 데이터를 읽는다.

# encoding='cp949' 또는 encoding='euc-kr'를 지정

df = pd.read_csv('data.csv', encoding='cp949')

# or

df = pd.read_csv('data.csv', encoding='euc-kr')

# 데이터 저장 시 `utf-8-sig`형식 사용

df.to_csv('output.csv', index=False, encoding='utf-8-sig')

# utf-8 	: 대부분의 운영 체제에서 널리 사용되는 인코딩 방식
# utf-8-sig : utf-8에 BOM(Byte Order Mark)을 추가하여 Windows와 Linux 모두에서 호환성을 보장

저작자표시 비영리 변경금지

'개발 Code > 파이썬 Python' 카테고리의 다른 글

[Python][numpy] Numpy 배열 저장 및 불러오기 (0)	2025.02.09
[Python][numpy] Numpy 기초부터 활용까지 (0)	2025.02.08
[Python][pandas] 데이터 정렬하기 - Sort (0)	2025.01.30
[Python][pandas] 데이터 불러오기 - Excel (1)	2025.01.22
[Python][pandas] pandas 톺아보기 (0)	2025.01.22

현재글[Python][pandas] 데이터 불러오기 - CSV

🐶짱구와 꾜미 집에 놀러온 용뇽이🦊

일상 속에서 발견한 작은 언어의 재미, 스쳐 지나간 풍경과 맛있는 기억들, 그리고 배움 속에서 얻은 깨달음을 나누는 공간. A place to share the joy of language, fleeting landscapes and delightful flavors, and the insights gained through learning.

250x250

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

🐶짱구와 꾜미 집에 놀러온 용뇽이🦊