통계 표본추출방법 (단순랜덤, 계통추출법, 집락추출법, 층화추출법 차이점)
통계는 사회의 여러 현상을 설명하는 숫자이다. 최근에는 데이터 처리속도와 기술의 발달로 표본이 아닌 전수조사도 가능해졌다고 하지만, 전통적인 통계는 모집단 전체를 대표하는 표본을 추출하여서 특징을 살펴 봄으로써, 모집단의 특징을 이해하는 것이라고 볼 수 있다. 즉, A회사에 근무하는 직원 50,000명을 대상으로 근무 만족도 조사를 한다고 할 때, 전체 설문조사가 어려우니 대표로 1,000명 쯤을 골라내서 설문조사를 한 뒤, 이들의 만족도가 곧 50,000명을 대표하는 것이라고 가정하는 것이다. 물론, 50,000명에 달하는 인원의 전체 조사가 가능하다면, 정확성은 좀 더 높은 수준으로 보장 받겠지만 결코 시간과 비용의 투자가 효율적이지 못할 수 있다. 무엇보다도 그렇게 하는 것이 얼마나 의미가 있냐는 ..
python - pd.concat() 데이터프레임 합치기 / table merge, stack
테이블 열이나 행의 인덱스가 같은 경우에, 여러 개의 표를 합쳐서 보고 싶은 경우가 있다. pd.concat() 기능을 활용하면 쉽게 표를 합칠 수 있다. 예제 #Pandas불러오기 import pandas as pd #데이터프레임 만들기 data1 = pd.DataFrame({'date':['2021-10-03','2021-10-04','2021-10-05'], 'category':['transportation','coffee','meal'], 'amount':['7500','5000','19000'], 'payment method':['cash','cash','card']}, ) data2 = pd.DataFrame({'date':['2021-09-04','2021-09-06','2021-09-07'..
F1 Score, Roc곡선, Auc 계산방법 / scikit-learn 코드로 구현하기
정밀도와 재현율을 구했다면, 이번엔 F1 Score, ROC, AUC를 구해볼 차례이다. 역시나 어려운 개념은 아니므로, 단어에 기죽지 말자. [↓↓정밀도와 재현율 개념 학습이 필요하신 분들↓↓] 정밀도(precision)와 재현율(recall)의 오차행렬 헷갈리지 않는 방법, 분류모델 평가지표 1. F1 Score: 정밀도와 재현율의 조화 평균 계산방법: F1 Score = 2 x (정밀도 x 재현율) / (정밀도 + 재현율) 정밀도와 재현율을 구하다보면, 한 쪽으로 치우친 결과를 만들 수 있도록 모델을 조작할 수 있으므로 무조건 한 쪽 수치가 높은 것보다는 조화 평균도 함께 고려를 해야 한다. 위의 계산식을 보면, F1 Score에서 높은 점수를 받으려면, 정밀도와 재현율 둘 다 어느 정도 높은 수치..