본문 바로가기

공부

(62)
Pandas를 활용한 데이터 탐색 방법(데이터 조회, 인덱싱, 슬라이싱, 결측값 처리) 데이터 탐색은 데이터 분석 과정에서 가장 기본적이면서도 중요한 단계입니다. 이 과정에서 Pandas를 사용하면 데이터를 효과적으로 조회하고, 요약하며, 결측값을 처리할 수 있습니다. 이번 블로그 글에서는 데이터 탐색의 핵심적인 기능들을 Pandas 라이브러리를 사용하여 다루어 보겠습니다.1. 데이터 조회 및 요약1.1 데이터 조회 (head(), tail())데이터를 처음 불러왔을 때, 전체 데이터를 확인하기에는 너무 방대한 경우가 많습니다. 이때 head()와 tail() 메서드를 사용하여 상위 혹은 하위 몇 개의 데이터를 간략하게 확인할 수 있습니다.import pandas as pd# CSV 파일을 읽어 데이터프레임으로 변환df = pd.read_csv('data.csv')# 데이터 상위 5개 행 ..
Pandas의 기본 데이터 구조 이해하기/Series와 DataFrame Pandas는 데이터 분석과 처리를 위한 강력한 라이브러리로, 이 라이브러리에서 가장 중요한 두 가지 데이터 구조는 Series와 DataFrame입니다. 이 두 개념을 제대로 이해하면 Pandas의 다양한 기능을 쉽게 활용할 수 있습니다. 이번 글에서는 Series와 DataFrame을 생성하는 방법과, 데이터를 불러오고 저장하는 방법까지 구체적으로 설명하겠습니다. 1. Series와 DataFrame1-1. SeriesSeries는 1차원 데이터 구조로, 엑셀의 한 열(column)과 유사한 형태입니다. 각 데이터에 인덱스(index)가 자동으로 부여되며, 인덱스를 통해 데이터를 쉽게 접근할 수 있습니다. Series는 하나의 데이터 타입으로 이루어진 값을 다루는 데 적합합니다. 예시 1:import..
Pandas로 시작하는 데이터 분석/비전공자도 쉽게 배우는 필수 도구 데이터 분석의 필요성우리가 매일 사용하는 스마트폰 앱, 온라인 쇼핑, 금융 서비스까지, 현대 사회는 방대한 양의 데이터를 중심으로 돌아가고 있습니다. 예를 들어, 온라인 쇼핑몰은 고객의 검색 패턴과 구매 이력을 분석해 개인 맞춤형 추천 시스템을 구축합니다. 이 덕분에 우리가 원하는 상품을 더 빠르게 찾을 수 있게 되죠. 또한, 병원에서는 환자의 진료 기록을 분석해 맞춤형 치료 계획을 세우고, 새로운 질병의 패턴을 찾아내기도 합니다. 그리고 정부는 데이터를 분석해 더 나은 정책을 세우고, 사회 전반에 걸친 문제 해결을 돕습니다. 이처럼 데이터 분석은 다양한 문제를 해결하는 중요한 역할을 합니다. 하지만 데이터를 다루는 일은 그리 간단하지 않습니다. 예를 들어, 엑셀과 같은 스프레드시트 프로그램을 사용해 수..
파이썬 IDE 란 무엇인가? 파이썬 IDE 종류를 알아보자 파이썬 IDE란? 파이썬 IDE(Integrated Development Environment)는 파이썬 프로그래밍 언어를 위한 통합 개발 환경이다. IDE는 코드 작성, 디버깅, 실행 등 개발 과정의 많은 단계를 지원하는 도구로, 개발자가 보다 효율적으로 작업할 수 있도록 돕는다. 파이썬 IDE 종류 PyCharm JetBrains에서 개발한 파이썬 IDE로 코드 자동 완성, 디버깅, 프로젝트 관리 도구 등 다양한 기능을 지원한다. https://www.jetbrains.com/pycharm/download/?section=windows Download PyCharm: Python IDE for Professional Developers by JetBrains Download the latest ver..
Thonny/파이썬 IDE 추천/가볍게 코딩과 디버깅을 하기 좋은 도구 파이썬(Python)은 프로그래밍 초보자부터 전문가까지 다양한 사용자에게 인기 있는 프로그래밍 언어 중 하나이다. 그러나 파이썬을 배우고 개발하는 동안 코드를 작성하고 디버깅하는 과정은 때로 어려울 수 있다. 이에 따라, 오늘은 가볍게 코딩과 디버깅을 할 수 있는 'Thonny'라는 통합 개발 환경(IDE)을 소개한다. https://thonny.org/ Thonny, Python IDE for beginners Thonny 4 is dedicated to Ukraine fighting the Russian invasion. 🇺🇦 Please support Ukraine! 🇺🇦 Download version 4.1.4 for • • Thonny Python IDE for beginners Features..
[Pandas] 판다스를 활용하여 데이터 분석 하는 방법 1. 판다스란 무엇인가? 판다스(Pandas)는 Python 프로그래밍 언어를 위한 오픈소스 데이터 분석 라이브러리이다. 이 라이브러리는 구조화된 데이터를 쉽고 직관적으로 작업할 수 있도록 설계되었으며, 데이터 과학 및 분석 분야에서 널리 사용된다. 2. 주요 기능 a. 데이터 구조 Series: 1차원 배열과 같은 데이터 구조로, 단일 데이터 타입의 데이터를 담을 수 있다. DataFrame: 가장 많이 사용되는 2차원 데이터 구조로, 서로 다른 데이터 타입의 열을 포함할 수 있다. b. 데이터 읽기 및 쓰기 다양한 파일 형식(CSV, Excel, JSON 등)의 데이터를 읽고 쓸 수 있다. c. 데이터 처리 데이터 필터링, 정렬, 그룹화 등 다양한 데이터 처리 기능을 제공한다. 누락된 데이터 처리를 ..
공개 데이터를 볼 수 있는 사이트 총 정리 국내 사이트 1 공공데이터포털 https://www.data.go.kr/ 2 국가통계포털 https://kosis.kr/index/index.do 3 금융 빅데이터 개방시스템 https://credb.kcredit.or.kr:3446/frt/main.do 4 서울 열린데이터 광장 https://data.seoul.go.kr/index.do 5 경기데이터드림 https://data.gg.go.kr/portal/data/dataset/searchDatasetPage.do 6 한국콘텐츠진흥 https://www.kocca.kr/kocca/subPage.do?menuNo=204257 7 부산공공데이터포털 https://data.busan.go.kr/index.nm;jsessionid=0E16B2E0655E7F0..
지도학습(Supervised Learning) 알고리즘 이해와 주요 알고리즘 정리 지도학습(Supervised Learning)이란? 지도학습(Supervised Learning)은 머신 러닝의 중요한 범주 중 하나로, 주어진 입력에 대해 정확한 출력(레이블)을 예측하는 과정이다. 이 방식에서는 학습 데이터(Training Data)와 함께 정답 레이블(Label)이 제공되며, 이를 통해 알고리즘이 데이터의 패턴을 학습하고 미래 데이터에 대한 예측을 수행한다. 각 변수들을 간단하게 표현하면 다음과 같다. 레이블(Label): 각 데이터 포인트에 대한 정답 혹은 결과값 특성(Feature): 데이터의 입력 변수들 학습(Training): 모델이 데이터로부터 학습하는 과정 예측(Prediction): 학습된 모델을 사용하여 미지의 데이터에 대한 결과를 예측 지도학습의 주요 알고리즘 1. ..