잘못된 형식의 데이터
잘못된 형식의 데이터는 데이터 분석을 어렵게 만들거나 심지어 불가능하게 영향을 끼칠 수 있음
행을 제거하거나 열의 모든 셀을 동일한 형식으로 변환하여 해결 가능
잘못된 데이터 제거하기
df.dropna(subset=['Date'], inplace = True)
잘못된 데이터 형식 바꾸기
EXAMPLE 1
to_datetime() '날짜' 열의 모든 셀을 날짜로 변환
import pandas as pd
df = pd.read_csv('data.csv')
df['Date'] = pd.to_datetime(df['Date'])
print(df.to_string())
EXAMPLE 2
주어진 데이터
기간 날짜 맥박 최대 펄스 칼로리
0 60 '2020/12/01' 110 130 409.1
1 60 '2020/12/02' 117 145 479.0
2 60 '2020/12/03' 103 135 340.0
3 45 '2020/12/04' 109 175 282.4
4 45 '2020/12/05' 117 148 406.0
5 60 '2020/12/06' 102 127 300.0
6 450 '2020/12/07' 110 136 374.0
7 60 '2020/12/08' 104 134 253.3
8 30 '2020/12/09' 109 133 195.1
9 60 '2020/12/10' 98 124 269.0
6행에서 "Duration" 을 45로 변경
df.loc[6, 'Duration'] = 45
더 큰 데이터 세트에 대해 잘못된 데이터를 바꾸려면 몇 가지 규칙을 만들 수 있음
EXAMPLE 3
"기간" 열의 모든 값을 반복합니다.
값이 120보다 높으면 120으로 설정합니다
for x in df.index:
if df.loc[x, "Duration"] > 120:
df.loc[x, "Duration"] = 120
중복된 데이터 찾기
print(df.duplicated())
EXAMPLE
import pandas as pd
df = pd.read_csv('data.csv')
print(df.duplicated())
중복된 데이터 제거하기
df.drop_duplicates(inplace = True)
EXAMPLE
import pandas as pd
df = pd.read_csv('data.csv')
df.drop_duplicates(inplace = True)
print(df.to_string())
사진: Unsplash의Blake Connally
728x90
반응형
'PYTHON' 카테고리의 다른 글
PANDAS 문제[PYTHON개발] (0) | 2023.11.02 |
---|---|
PANDAS - Plotting[PYTHON개발] (1) | 2023.11.02 |
PANDAS-빈 데이터 셀 제거하기[PYTHON개발] (0) | 2023.11.02 |
Pandas-Dataframe, csv 파일 읽어오기[PYTHON개발] (0) | 2023.11.02 |
PYTHON 클래스 상속[PYTHON개발] (1) | 2023.11.02 |