Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 회귀분석
- 기본가정
- by oneself
- 정규성
- 다중공선성
- 워홀
- 오류
- 자기상관
- 전처리
- VIF
- contrasts can be applied only to factors with 2 or more levels
- KNNImputer
- 엑셀
- 분류
- 디시전트리
- 코딩테스트
- cook's distance
- 예측
- post man
- 기술통계분석
- 회귀모형
- R
- 선형성
- 이변량 분석
- 등분산성
- sql
- 이상치
- 등분산검정
- 언어분석
- disgusting
Archives
- Today
- Total
excelsu의 공부 기록 블로그
[sklearn] KNN보간 결측치 채우기 본문
KNN imputer 를 사용하여 데이터 사이에 NA값을 채워주는 코드이다.
KNN은 간단하게 설명하면 NA값의 가장가까운 주변 k개의 평균을 NA값으로 대체하는 알고리즘이다.
간단하게 코드로 작성해볼 수 있다.
from sklearn.impute import KNNImputer
#임퓨터 선언(5개의 평균으로 계산하겠다)
imputer=KNNImputer(n_neighbors=5)
#임퓨터를 사용하여 filled_train으로 저장 이후 같은 임퓨터를 사용할때는 imputer.transform()으로 사용하면됨
filled_train=imputer.fit_transform(train)
#사용하면 array값으로 나오기때문에 dataframe으로 바꿔주고 컬럼을가져옴
filled_train=pd.DataFrame(filled_train, columns=train.columns)
****KNN임퓨터는 숫자로만 계산이 가능하기때문에 범주형 변수에 대해서는 가변수화 이후 진행해주어야 한다!
'파이썬 > 전처리' 카테고리의 다른 글
[정형데이터] 전처리 순서 / 전처리 파이프라인 (0) | 2022.06.23 |
---|