Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- 자기상관
- 전처리
- 이상치
- 다중공선성
- contrasts can be applied only to factors with 2 or more levels
- 등분산성
- disgusting
- R
- 엑셀
- sql
- KNNImputer
- post man
- 디시전트리
- 예측
- 분류
- 워홀
- 회귀분석
- cook's distance
- 기본가정
- by oneself
- 등분산검정
- 기술통계분석
- 정규성
- 코딩테스트
- 언어분석
- 오류
- 이변량 분석
- 회귀모형
- VIF
- 선형성
Archives
- Today
- Total
목록파이프라인 (1)
excelsu의 공부 기록 블로그
[정형데이터] 전처리 순서 / 전처리 파이프라인
데이터를 전처리함에 있어 절대적인 기준과 순서는 없지만 논리적으로 순서가 정해져있고 그 순서를 따라 전처리하는 순서를 정리해보겠습니다. 맨처음 데이터 확인, 탐색을해보고 그에맞게 전처리 아이디어를 도출하여 아래 해당하는 전처리를 진행한다. NA값 처리 : 데이터가 비어있는곳을 확인해보고 정말 기록이 되지않은것인지, 0이 입력되지않은것인지 고민해볼 필요가 있고 데이터의 성질에따라 채워넣는 방법을 고민해보아야한다. 너무 많은 NA값이 있는 컬럼이라면 컬럼삭제를 고민해봐도 되지만 웬만하면 모든 데이터를 사용하는것이 좋은듯 하다. 이상치 처리 : 이상치라고 판단되는 값이 있다면 해당 행을 수정하거나 해당변수를 로그,루트등 변환하여보고 분석을 해본다.(제거는 과적합될수있는 우려가 있음) feature engene..
파이썬/전처리
2022. 6. 23. 17:34