일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 코딩테스트
- contrasts can be applied only to factors with 2 or more levels
- 등분산검정
- post man
- 엑셀
- 회귀분석
- 회귀모형
- KNNImputer
- 예측
- 선형성
- by oneself
- 다중공선성
- R
- 자기상관
- 이상치
- 등분산성
- 전처리
- 오류
- disgusting
- 워홀
- 언어분석
- sql
- cook's distance
- 이변량 분석
- 기술통계분석
- 정규성
- 기본가정
- 디시전트리
- 분류
- VIF
- Today
- Total
목록파이썬/전처리 (2)
excelsu의 공부 기록 블로그

KNN imputer 를 사용하여 데이터 사이에 NA값을 채워주는 코드이다. KNN은 간단하게 설명하면 NA값의 가장가까운 주변 k개의 평균을 NA값으로 대체하는 알고리즘이다. 간단하게 코드로 작성해볼 수 있다. from sklearn.impute import KNNImputer #임퓨터 선언(5개의 평균으로 계산하겠다) imputer=KNNImputer(n_neighbors=5) #임퓨터를 사용하여 filled_train으로 저장 이후 같은 임퓨터를 사용할때는 imputer.transform()으로 사용하면됨 filled_train=imputer.fit_transform(train) #사용하면 array값으로 나오기때문에 dataframe으로 바꿔주고 컬럼을가져옴 filled_train=pd.DataF..
데이터를 전처리함에 있어 절대적인 기준과 순서는 없지만 논리적으로 순서가 정해져있고 그 순서를 따라 전처리하는 순서를 정리해보겠습니다. 맨처음 데이터 확인, 탐색을해보고 그에맞게 전처리 아이디어를 도출하여 아래 해당하는 전처리를 진행한다. NA값 처리 : 데이터가 비어있는곳을 확인해보고 정말 기록이 되지않은것인지, 0이 입력되지않은것인지 고민해볼 필요가 있고 데이터의 성질에따라 채워넣는 방법을 고민해보아야한다. 너무 많은 NA값이 있는 컬럼이라면 컬럼삭제를 고민해봐도 되지만 웬만하면 모든 데이터를 사용하는것이 좋은듯 하다. 이상치 처리 : 이상치라고 판단되는 값이 있다면 해당 행을 수정하거나 해당변수를 로그,루트등 변환하여보고 분석을 해본다.(제거는 과적합될수있는 우려가 있음) feature engene..