일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 워홀
- 디시전트리
- 예측
- 정규성
- 전처리
- R
- 선형성
- 다중공선성
- 회귀모형
- cook's distance
- 기본가정
- 회귀분석
- 언어분석
- 오류
- 엑셀
- contrasts can be applied only to factors with 2 or more levels
- 코딩테스트
- VIF
- by oneself
- 이변량 분석
- 이상치
- 등분산검정
- 기술통계분석
- disgusting
- 등분산성
- post man
- 분류
- KNNImputer
- 자기상관
- sql
- Today
- Total
목록전체 글 (35)
excelsu의 공부 기록 블로그
상관분석(Corr) : 상관분석은 연구하고자 하는 변수들 간의 관련성을 분석하기 위해 사용하는 분석이다. 한 변수가 다른 변수와의 관련성이 있는지 여부와 관련성이 있다면 어느정도 관련성이 있는지를 알고자 할때 사용한다. (보통 |0.3|이상인 값은 음의상관이든 양의상관이든 상관이 있다고 생각한다.) 두 변수가 연속형일때만 주로 사용한다. 회귀분석을 할때 다중공선성 체크를 하기 위해 상관분석을 하기도 한다. 교차분석(Crosstab) : 교차분석은 명목 및 서열척도의 범주형 변수들을 분석하기위한 것으로써 한 범주를 다른 범주에 따라 빈도를 교차분류하는 교차표를 먼저 작성하고 두 변수간의 독립성과 관련성을 분석한다.
단변량데이터를 분석할때 간단히 요약하여 알려주는 분석 데이터 통계량 시각화 빈도분석 범주형 데이터 변수의 빈도, 누적 퍼센트, 최빈값 등 barchart, piechart, histogram 기술통계분석 연속형 데이터 평균, 중앙값, 표준편차, 사분위수 등 histogram, boxplot, qqplot, 밀도함수그래프, 산포도

KNN imputer 를 사용하여 데이터 사이에 NA값을 채워주는 코드이다. KNN은 간단하게 설명하면 NA값의 가장가까운 주변 k개의 평균을 NA값으로 대체하는 알고리즘이다. 간단하게 코드로 작성해볼 수 있다. from sklearn.impute import KNNImputer #임퓨터 선언(5개의 평균으로 계산하겠다) imputer=KNNImputer(n_neighbors=5) #임퓨터를 사용하여 filled_train으로 저장 이후 같은 임퓨터를 사용할때는 imputer.transform()으로 사용하면됨 filled_train=imputer.fit_transform(train) #사용하면 array값으로 나오기때문에 dataframe으로 바꿔주고 컬럼을가져옴 filled_train=pd.DataF..

분류와 군집의 차이는 사진 하나로 간단하게 설명할 수 있다. *분류(classification)는 정답(label)가 있는 지도학습이며 학습하여 new data가 어느분류인지 맞추는 방법이다. *군집(clustering)은 정답(label)가 없는 비지도학습이다. 그렇기때문에 어떠한 기준이나 규칙에 의해 임의로 나누어 묶어보는것이다. 대표적으로 분류기법에는 knn이 있고, 군집기법에는 k-means알고리즘이 있다. *knn은 new data의 최근접 k개를 참조하여 new data의 label을 정하는 방법 *k-means알고리즘은 k개 임의의 군집 중심점끼리의 거리합이 최소가 될때까지 이동하여 묶는 방법 사진 출처 : http://www.datamarket.kr/xe/board_BoGi29/9880
데이터를 전처리함에 있어 절대적인 기준과 순서는 없지만 논리적으로 순서가 정해져있고 그 순서를 따라 전처리하는 순서를 정리해보겠습니다. 맨처음 데이터 확인, 탐색을해보고 그에맞게 전처리 아이디어를 도출하여 아래 해당하는 전처리를 진행한다. NA값 처리 : 데이터가 비어있는곳을 확인해보고 정말 기록이 되지않은것인지, 0이 입력되지않은것인지 고민해볼 필요가 있고 데이터의 성질에따라 채워넣는 방법을 고민해보아야한다. 너무 많은 NA값이 있는 컬럼이라면 컬럼삭제를 고민해봐도 되지만 웬만하면 모든 데이터를 사용하는것이 좋은듯 하다. 이상치 처리 : 이상치라고 판단되는 값이 있다면 해당 행을 수정하거나 해당변수를 로그,루트등 변환하여보고 분석을 해본다.(제거는 과적합될수있는 우려가 있음) feature engene..
엑셀의 피벗테이블을 활용하여 수식없이 간단하게 그룹별 통계량을 확인 할 수 있다. 하지만 피벗테이블에서 기본으로 제공해주는 계산은 count, average, min, max, 편차, 분산등 정해져있다. 중앙값을 표시하기 위해서는 데이터 테이블의 옆에 중앙값 컬럼을 추가하여 피벗테이블에서 해당컬럼 그룹의 평균값으로 추가해주는 형태로 중앙값을 추가할 수 있다. 참조 : https://ko.extendoffice.com/documents/excel/4815-excel-pivot-table-median.html Excel 피벗 테이블에서 중앙값을 계산하는 방법은 무엇입니까? Excel 피벗 테이블에서 중앙값을 계산하는 방법은 무엇입니까? 예를 들어 아래 스크린 샷과 같이 음료 판매량을 통계하기 위해 피벗 테이..
TF-IDF(단어 빈도-역 문서 빈도, Term Frequency-Inverse Document Frequency) TF-IDF는 단어의 빈도와 역 문서 빈도(DF에 특정 식을 취함)를 사용하여 DTM 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법입니다. 우선 DTM을 만든 후, TF-IDF 가중치를 부여합니다. TF-IDF는 주로 문서의 유사도를 구하는 작업, 검색 시스템에서 검색 결과의 중요도를 정하는 작업, 문서 내에서 특정 단어의 중요도를 구하는 작업 등에 쓰일 수 있습니다. TF-IDF는 TF와 IDF를 곱한 값을 의미합니다. 가상의 음성인식 데이터를 분류해야하는 문제 컬럼 : contents, label import os import numpy as np import pandas as ..
0. z-test - 모집단의 분산을 알때 사용 (잘 사용하지 않음) 1. t-test (주로 범주형->연속형 데이터에 사용) - 두 집단의 평균이 차이가 있는지 0.05이하 -> 두 집단간 차이가 있다. 1)독립표본 : 독립된 두집단의 차이 2)대응표본 : 한집단의 두가지 경우 3)일표본 : 한집단의 특정값과 비교 - 선행조건 : 등분산, 독립성, 정규성 2. 분산분석(ANOVA/F-test) (주로 범주형->연속형 데이터에 사용) - 세개 이상의 '집단'(세개의변수x) 평균이 차이가 있는지 -> 0.05이하 차이가 있다. 1)일원배치 분산분석 : 하나의 독립변수x->종속변수y 2)이원배치 분산분석 : 두개의 독립변수x->종속변수y 3)다원배치 분산분석 : 세개이상의 독립변수x->종속변수y - 선행조건..