본문 바로가기

공부/데이터

(10)
더티 데이터란? 데이터 전처리에서 더티 데이터 해결 방법 더티 데이터란?더티 데이터(Dirty Data)는 불완전하거나 부정확한 데이터를 의미하며, 분석에 활용하기 위해서는 반드시 정제 과정이 필요합니다. 더티 데이터는 여러 가지 형태로 나타날 수 있는데, 아래 예시를 통해 각각의 사례를 구체적으로 살펴보겠습니다.예시: 고객 정보 데이터셋고객 ID 이름나이가입 날짜구매 금액성별이메일001김철수282021-08-15500,000남성chulsoo@gmail.com002이영희252022/01/12오십만원여성yeonghee.com003박민수 2022-05-201,200,000남성minsoo@gmail.com004강호동402015-13-20300,000남성hodong@gmail.com005손예진-302023-03-012000000000여성yejin@gmail.com00..
공개 데이터를 볼 수 있는 사이트 총 정리 국내 사이트 1 공공데이터포털 https://www.data.go.kr/ 2 국가통계포털 https://kosis.kr/index/index.do 3 금융 빅데이터 개방시스템 https://credb.kcredit.or.kr:3446/frt/main.do 4 서울 열린데이터 광장 https://data.seoul.go.kr/index.do 5 경기데이터드림 https://data.gg.go.kr/portal/data/dataset/searchDatasetPage.do 6 한국콘텐츠진흥 https://www.kocca.kr/kocca/subPage.do?menuNo=204257 7 부산공공데이터포털 https://data.busan.go.kr/index.nm;jsessionid=0E16B2E0655E7F0..
지도학습(Supervised Learning) 알고리즘 이해와 주요 알고리즘 정리 지도학습(Supervised Learning)이란? 지도학습(Supervised Learning)은 머신 러닝의 중요한 범주 중 하나로, 주어진 입력에 대해 정확한 출력(레이블)을 예측하는 과정이다. 이 방식에서는 학습 데이터(Training Data)와 함께 정답 레이블(Label)이 제공되며, 이를 통해 알고리즘이 데이터의 패턴을 학습하고 미래 데이터에 대한 예측을 수행한다. 각 변수들을 간단하게 표현하면 다음과 같다. 레이블(Label): 각 데이터 포인트에 대한 정답 혹은 결과값 특성(Feature): 데이터의 입력 변수들 학습(Training): 모델이 데이터로부터 학습하는 과정 예측(Prediction): 학습된 모델을 사용하여 미지의 데이터에 대한 결과를 예측 지도학습의 주요 알고리즘 1. ..
오픈 데이터를 제공하는 사이트 정리 1. Kaggle (캐글) 데이터를 제공하는 대표적인 플랫폼으로 다양한 데이터 세트를 제공한다. https://www.kaggle.com/ Kaggle: Your Machine Learning and Data Science Community Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals. www.kaggle.com 2. UCI Machine Learning Repository (UCI 머신 러닝 리포지토리) 캘리포니아 대학교 어바인 캠퍼스에서 운영하는 데이터 제공 사이트다. https://archive.ics.uci.e..
머신러닝의 분류: 지도학습/비지도학습/강화학습 머신러닝은 데이터로부터 학습하여 예측이나 결정을 내리는 알고리즘의 집합이다. 주로 지도학습, 비지도학습, 강화학습이라는 세 가지 주요 학습 방법을 사용하는데, 각각의 방법은 다양한 하위 카테고리로 나뉘며, 어떤 문제를 해결할 지에 따라 다르다. 이 글에서는 이 세 가지 학습 방법과 그들의 하위 분류에 대해 설명한다. 지도학습 (Supervised Learning) 지도학습은 레이블이 지정된 데이터를 사용하여 모델을 학습시키는 방법으로, 주로 분류와 회귀로 두 가지 주요 유형으로 나뉜다. 분류 (Classification) 정의: 입력 데이터를 미리 정의된 여러 클래스 중 하나로 분류하는 과정 예시: 이메일 스팸 감지(스팸/비스팸), 의료 진단(질병/정상), ... 회귀 (Regression) 정의: 연속..
손실함수의 이해와 종류/파이썬으로 구현까지 손실 함수란 무엇인가? 손실 함수(Loss Function)는 머신러닝 모델의 성능을 측정하는 핵심 요소다. 간단히 말해, 손실 함수는 모델의 예측값과 실제값 사이의 차이를 수치화하는 방법을 말한다. 이 값이 작을수록 모델의 예측이 정확하다고 할 수 있다. 손실 함수는 모델이 학습 과정에서 어떻게 자신의 오류를 '인식'하고 '개선'해야 하는지를 결정하는 데 중요한 역할을 한다. 손실 함수의 종류 손실 함수는 주로 사용되는 문제 유형에 따라 다양하게 분류되며, 이 때 주요한 손실 함수의 종류는 다음과 같다. 회귀 문제의 손실 함수 평균 제곱 오차 (Mean Squared Error, MSE) 실제 값과 예측 값의 차이를 제곱하여 평균을 낸다. import numpy as np def mean_squared..
머신러닝이란? 머신러닝의 기본 개념과 적용 사례 알아보기 인공 지능의 핵심 요소 머신러닝은 인공 지능(AI)의 중요한 분야로, 컴퓨터가 데이터를 통해 학습하고, 스스로 예측하거나 결정을 내릴 수 있도록 하는 기술이다. 이는 데이터 과학, 통계, 컴퓨터 과학의 교차점에 위치하며, 현대 기술 환경에서 필수적인 역할을 한다. 머신러닝의 기본 개념 머신러닝은 알고리즘과 통계적 모델을 사용하여 컴퓨터가 특정 작업을 수행하도록 학습시키는 과정이다. 이 과정에서 명시적인 프로그래밍 없이도 패턴을 인식하고, 결정을 내릴 수 있다. 지도 학습(Supervised Learning): 레이블이 지정된 데이터를 사용하여 모델을 훈련시키고, 새로운 데이터에 대한 예측을 수행한다. 비지도 학습(Unsupervised Learning): 레이블이 없는 데이터를 사용하여 데이터의 숨겨진 ..
데이터 분석의 필요성과 적용 사례는 어떤 것이 있을까? 데이터 분석은 왜 필요한가? 현대 비즈니스 환경에서 데이터는 가장 중요한 자산 중 하나다. 기업들은 매일 엄청난 양의 데이터를 생성하고 수집한다. 이 데이터를 효과적으로 분석하고 활용하는 능력은 기업이 경쟁에서 우위를 차지하는 데 결정적인 역할을 하고 있다. 데이터 분석의 중요성 데이터 분석은 대규모 데이터 세트에서 유의미한 정보를 추출하고, 이를 통해 패턴을 식별하고, 예측을 수행하며, 전략적 결정을 내리는 과정이다. 이 과정은 다음과 같은 이유로 중요하다: 정보 기반 의사결정: 데이터 분석은 추측이나 직관에 의존하는 대신 실질적인 데이터에 기반한 의사결정을 가능하게 하는데, 이는 리스크를 최소화하고 ROI를 극대화하는 데 도움이 된다. 고객 인사이트 향상: 고객 데이터 분석을 통해 소비자 행동, 선호..