본문 바로가기

공부/판다스(Pandas)

[Pandas] 판다스를 활용하여 데이터 분석 하는 방법

1. 판다스란 무엇인가?

판다스(Pandas)는 Python 프로그래밍 언어를 위한 오픈소스 데이터 분석 라이브러리이다. 이 라이브러리는 구조화된 데이터를 쉽고 직관적으로 작업할 수 있도록 설계되었으며, 데이터 과학 및 분석 분야에서 널리 사용된다.

2. 주요 기능

a. 데이터 구조

  • Series: 1차원 배열과 같은 데이터 구조로, 단일 데이터 타입의 데이터를 담을 수 있다.
  • DataFrame: 가장 많이 사용되는 2차원 데이터 구조로, 서로 다른 데이터 타입의 열을 포함할 수 있다.

b. 데이터 읽기 및 쓰기

  • 다양한 파일 형식(CSV, Excel, JSON 등)의 데이터를 읽고 쓸 수 있다.

c. 데이터 처리

  • 데이터 필터링, 정렬, 그룹화 등 다양한 데이터 처리 기능을 제공한다.
  • 누락된 데이터 처리를 위한 기능을 포함한다.

3. 간단한 사용 예시

import pandas as pd

# 1. CSV 파일 읽기
# 'example.csv'는 CSV 형식의 파일 이름으로, 이 파일을 판다스 DataFrame으로 읽어들인다.
df = pd.read_csv('example.csv')

# 2. 상위 5개 행 보기
# DataFrame의 'head()' 메소드를 사용하면 상위 5개 행을 볼 수 있다.
print(df.head())

# 3. 특정 열 선택
# DataFrame에서 하나의 열을 선택하려면 대괄호와 열 이름을 사용하며, 이렇게 선택된 열은 'Series'라는 판다스의 1차원 배열이다.
series_example = df['column_name']

# 4. 데이터 필터링
# 조건을 사용하여 데이터를 필터링할 수 있는데, 예를 들어 'column_name' 열의 값이 10보다 큰 행만 선택한다.
filtered_data = df[df['column_name'] > 10]

# 5. 데이터 그룹화 및 집계
# 'groupby' 메소드를 사용하여 특정 열 기준으로 데이터를 그룹화할 수 있다.
# 여기서는 'category_column'을 기준으로 그룹화하고, 각 그룹의 평균값을 계산한다.
grouped_data = df.groupby('category_column').mean()

4. 결론

판다스는 데이터 분석에 있어 필수적인 도구로,우리가 데이터를 쉽게 다루고 분석할 수 있도록 도와준다. 판다스를 잘 활용한다면 보다 복잡한 데이터 분석 작업을 효과적으로 수행할 수 있다.