df.drop_duplicates(subset=['a'], keep='last')
#a 중복값 중 마지막 남기고 다 제거
df.drop_duplicates(subset=['a'], keep='first') # default
#a 중복값 중 맨 앞 남기고 다 제거
df.drop_duplicates(subset=['a'], keep=False)
#a 중복값 모두 제거
------------------------------
df.duplicated(['a'])
# 중복 데이터 여부 확인은 duplicated
'파이썬 통계 머신러닝' 카테고리의 다른 글
from scipy.stats import f_oneway : 분산분석(ANOVA) (0) | 2020.07.26 |
---|---|
df['score'].rank(method='min', ascending=False) : score 순위 구할 때 사용 (0) | 2020.07.26 |
df.sort_values(by=['a','b']) : a, b 기준으로 sorting (0) | 2020.07.25 |
from sklearn.linear_model import LinearRegression : Linear 리그레션 (0) | 2020.07.25 |
df.loc[:,'a':'b'], df.iloc[:,1:3] : loc는 문자열, iloc는 숫자 (0) | 2020.07.25 |