본문 바로가기

공부/판다스(Pandas)

(15)
Pandas를 활용한 데이터 탐색 방법(데이터 조회, 인덱싱, 슬라이싱, 결측값 처리) 데이터 탐색은 데이터 분석 과정에서 가장 기본적이면서도 중요한 단계입니다. 이 과정에서 Pandas를 사용하면 데이터를 효과적으로 조회하고, 요약하며, 결측값을 처리할 수 있습니다. 이번 블로그 글에서는 데이터 탐색의 핵심적인 기능들을 Pandas 라이브러리를 사용하여 다루어 보겠습니다.1. 데이터 조회 및 요약1.1 데이터 조회 (head(), tail())데이터를 처음 불러왔을 때, 전체 데이터를 확인하기에는 너무 방대한 경우가 많습니다. 이때 head()와 tail() 메서드를 사용하여 상위 혹은 하위 몇 개의 데이터를 간략하게 확인할 수 있습니다.import pandas as pd# CSV 파일을 읽어 데이터프레임으로 변환df = pd.read_csv('data.csv')# 데이터 상위 5개 행 ..
Pandas의 기본 데이터 구조 이해하기/Series와 DataFrame Pandas는 데이터 분석과 처리를 위한 강력한 라이브러리로, 이 라이브러리에서 가장 중요한 두 가지 데이터 구조는 Series와 DataFrame입니다. 이 두 개념을 제대로 이해하면 Pandas의 다양한 기능을 쉽게 활용할 수 있습니다. 이번 글에서는 Series와 DataFrame을 생성하는 방법과, 데이터를 불러오고 저장하는 방법까지 구체적으로 설명하겠습니다. 1. Series와 DataFrame1-1. SeriesSeries는 1차원 데이터 구조로, 엑셀의 한 열(column)과 유사한 형태입니다. 각 데이터에 인덱스(index)가 자동으로 부여되며, 인덱스를 통해 데이터를 쉽게 접근할 수 있습니다. Series는 하나의 데이터 타입으로 이루어진 값을 다루는 데 적합합니다. 예시 1:import..
Pandas로 시작하는 데이터 분석/비전공자도 쉽게 배우는 필수 도구 데이터 분석의 필요성우리가 매일 사용하는 스마트폰 앱, 온라인 쇼핑, 금융 서비스까지, 현대 사회는 방대한 양의 데이터를 중심으로 돌아가고 있습니다. 예를 들어, 온라인 쇼핑몰은 고객의 검색 패턴과 구매 이력을 분석해 개인 맞춤형 추천 시스템을 구축합니다. 이 덕분에 우리가 원하는 상품을 더 빠르게 찾을 수 있게 되죠. 또한, 병원에서는 환자의 진료 기록을 분석해 맞춤형 치료 계획을 세우고, 새로운 질병의 패턴을 찾아내기도 합니다. 그리고 정부는 데이터를 분석해 더 나은 정책을 세우고, 사회 전반에 걸친 문제 해결을 돕습니다. 이처럼 데이터 분석은 다양한 문제를 해결하는 중요한 역할을 합니다. 하지만 데이터를 다루는 일은 그리 간단하지 않습니다. 예를 들어, 엑셀과 같은 스프레드시트 프로그램을 사용해 수..
[Pandas] 판다스를 활용하여 데이터 분석 하는 방법 1. 판다스란 무엇인가? 판다스(Pandas)는 Python 프로그래밍 언어를 위한 오픈소스 데이터 분석 라이브러리이다. 이 라이브러리는 구조화된 데이터를 쉽고 직관적으로 작업할 수 있도록 설계되었으며, 데이터 과학 및 분석 분야에서 널리 사용된다. 2. 주요 기능 a. 데이터 구조 Series: 1차원 배열과 같은 데이터 구조로, 단일 데이터 타입의 데이터를 담을 수 있다. DataFrame: 가장 많이 사용되는 2차원 데이터 구조로, 서로 다른 데이터 타입의 열을 포함할 수 있다. b. 데이터 읽기 및 쓰기 다양한 파일 형식(CSV, Excel, JSON 등)의 데이터를 읽고 쓸 수 있다. c. 데이터 처리 데이터 필터링, 정렬, 그룹화 등 다양한 데이터 처리 기능을 제공한다. 누락된 데이터 처리를 ..
[Pandas] 판다스를 이용하여 데이터 불러오기/csv 파일 읽기 판다스를 이용해서 확장자가 csv인 파일을 불러오는 코드를 만들어보겠습니다. 간단한 CSV 파일 만들기 먼저 아래와 같이 아주 간단한 csv 파일 하나를 만들어보겠습니다. 1열은 number, 2열은 values라고 명명해보겠습니다. 이 파일은 아래 첨부를 다운로드 하시면 사용하실 수 있습니다. 판다스를 이용하여 CSV 파일을 데이터프레임으로 불러오기 판다스를 이용하여 csv 파일을 불러오려면 판다스 내의 read_csv를 이용하면 됩니다. 아래 코드가 csv 파일을 불러오는 코드인데 첫 번째 줄은 내가 불러오고 싶은 파일의 이름(경로 포함)을 적어주시면 되고, 두 번째 줄은 열의 이름을 지정해주는 코드입니다. dataset = pd.read_csv('simple.csv', names=['number',..
[Pandas] pip를 이용하여 판다스 설치하기 저는 데이터를 다룰 때 판다스를 자주 사용하게 되는데요. 오늘은 pip를 이용하여 판다스를 설치해보도록 하겠습니다. cmd 창을 열어주시고 아래 코드를 입력하면 판다스가 쉽게 설치됩니다. pip install pandas 판다스가 제대로 설치되었는지 확인해보기 위해서는 판다스 모듈을 불러와서 확인해볼 수 있습니다. import pandas as pd
[이진분류] Pandas를 이용하여 DataFrame 다루는 방법 / 데이터 다운받는 방법 이번 포스팅에서는 pandas를 사용하여 Dataframe을 다루는 방법에 대해서 다루어보려고 합니다. DataFrame은 간단하게 엑셀 시트라고 생각하면 됩니다. 데이터 프레임은 행과 열로 구성되는데, 행(row)은 각 데이터, 열(column)은 속성을 의미합니다. 데이터를 시각화하기 위해서는 먼저 파일을 읽어야 하기때문에 csv 파일을 어떻게 읽는지부터 차근차근 알려드리도록 하겠습니다. 또한 데이터를 읽어들이고 데이터가 어떻게 구성되어 있는지 확인하는데 자주 사용하는 함수들도 알려드리도록 하겠습니다. 그 전에 오늘 포스팅에서 사용할 데이터는 아래 링크를 따라가서 다운 받아주시면 됩니다. 이 데이터는 '신용카드 고객의 채무불이행 가능성 예측(default of credit card clients Da..