일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- sql
- 선형성
- contrasts can be applied only to factors with 2 or more levels
- 회귀모형
- 전처리
- 오류
- 분류
- VIF
- R
- disgusting
- by oneself
- 등분산검정
- KNNImputer
- 기본가정
- 이변량 분석
- 이상치
- post man
- 코딩테스트
- cook's distance
- 엑셀
- 등분산성
- 예측
- 워홀
- 디시전트리
- 정규성
- 회귀분석
- 자기상관
- 언어분석
- 다중공선성
- 기술통계분석
- Today
- Total
목록파이썬 (4)
excelsu의 공부 기록 블로그

파이썬 코드를 돌릴때 No module named 'sklearn' 문구로 사이킷런이 설치되어있지 않다고 알려준다.. 하지만 pip install sklearn으로 설치 할수 없고 pip install scikit-learn으로 설치해줘야한다........ 왜 다르게 해놨는지 매일 설치 명을 까먹어서 검색해서 설치한다 다른사람들도 그렇겠지??

KNN imputer 를 사용하여 데이터 사이에 NA값을 채워주는 코드이다. KNN은 간단하게 설명하면 NA값의 가장가까운 주변 k개의 평균을 NA값으로 대체하는 알고리즘이다. 간단하게 코드로 작성해볼 수 있다. from sklearn.impute import KNNImputer #임퓨터 선언(5개의 평균으로 계산하겠다) imputer=KNNImputer(n_neighbors=5) #임퓨터를 사용하여 filled_train으로 저장 이후 같은 임퓨터를 사용할때는 imputer.transform()으로 사용하면됨 filled_train=imputer.fit_transform(train) #사용하면 array값으로 나오기때문에 dataframe으로 바꿔주고 컬럼을가져옴 filled_train=pd.DataF..
데이터를 전처리함에 있어 절대적인 기준과 순서는 없지만 논리적으로 순서가 정해져있고 그 순서를 따라 전처리하는 순서를 정리해보겠습니다. 맨처음 데이터 확인, 탐색을해보고 그에맞게 전처리 아이디어를 도출하여 아래 해당하는 전처리를 진행한다. NA값 처리 : 데이터가 비어있는곳을 확인해보고 정말 기록이 되지않은것인지, 0이 입력되지않은것인지 고민해볼 필요가 있고 데이터의 성질에따라 채워넣는 방법을 고민해보아야한다. 너무 많은 NA값이 있는 컬럼이라면 컬럼삭제를 고민해봐도 되지만 웬만하면 모든 데이터를 사용하는것이 좋은듯 하다. 이상치 처리 : 이상치라고 판단되는 값이 있다면 해당 행을 수정하거나 해당변수를 로그,루트등 변환하여보고 분석을 해본다.(제거는 과적합될수있는 우려가 있음) feature engene..
TF-IDF(단어 빈도-역 문서 빈도, Term Frequency-Inverse Document Frequency) TF-IDF는 단어의 빈도와 역 문서 빈도(DF에 특정 식을 취함)를 사용하여 DTM 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법입니다. 우선 DTM을 만든 후, TF-IDF 가중치를 부여합니다. TF-IDF는 주로 문서의 유사도를 구하는 작업, 검색 시스템에서 검색 결과의 중요도를 정하는 작업, 문서 내에서 특정 단어의 중요도를 구하는 작업 등에 쓰일 수 있습니다. TF-IDF는 TF와 IDF를 곱한 값을 의미합니다. 가상의 음성인식 데이터를 분류해야하는 문제 컬럼 : contents, label import os import numpy as np import pandas as ..