본문 바로가기
PYTHON

PANDAS-잘못된 형식의 데이터 제거,변경하기[PYTHON개발]

by cellin 2023. 11. 2.

잘못된 형식의 데이터

잘못된 형식의 데이터는 데이터 분석을 어렵게 만들거나 심지어 불가능하게 영향을 끼칠 수 있음

행을 제거하거나 열의 모든 셀을 동일한 형식으로 변환하여 해결 가능

 

 

 

잘못된 데이터 제거하기

 

 

df.dropna(subset=['Date'], inplace = True)
 

 

 

 

잘못된 데이터 형식 바꾸기

 

EXAMPLE 1

to_datetime() '날짜' 열의 모든 셀을 날짜로 변환

import pandas as pd

df = pd.read_csv('data.csv')

df['Date'] = pd.to_datetime(df['Date'])

print(df.to_string())
 

 

EXAMPLE 2

주어진 데이터

 

기간 날짜 맥박 최대 펄스 칼로리
  0 60 '2020/12/01' 110 130 409.1
  1 60 '2020/12/02' 117 145 479.0
  2 60 '2020/12/03' 103 135 340.0
  3 45 '2020/12/04' 109 175 282.4
  4 45 '2020/12/05' 117 148 406.0
  5 60 '2020/12/06' 102 127 300.0
  6 450 '2020/12/07' 110 136 374.0 
  7 60 '2020/12/08' 104 134 253.3
  8 30 '2020/12/09' 109 133 195.1
  9 60 '2020/12/10' 98 124 269.0
 

6행에서 "Duration" 을 45로 변경

df.loc[6, 'Duration'] = 45
 

더 큰 데이터 세트에 대해 잘못된 데이터를 바꾸려면 몇 가지 규칙을 만들 수 있음

 

 

 

EXAMPLE 3

"기간" 열의 모든 값을 반복합니다.

값이 120보다 높으면 120으로 설정합니다

for x in df.index:
  if df.loc[x, "Duration"] > 120:
    df.loc[x, "Duration"] = 120
 

 

 

중복된 데이터 찾기

 

print(df.duplicated())

 

EXAMPLE

import pandas as pd

df = pd.read_csv('data.csv')

print(df.duplicated())
 

 

 

중복된 데이터 제거하기

 

df.drop_duplicates(inplace = True)

 

EXAMPLE

import pandas as pd

df = pd.read_csv('data.csv')

df.drop_duplicates(inplace = True)

print(df.to_string())
 

 

 

 

 

 

 

 

사진: UnsplashBlake Connally

728x90
반응형