본문 바로가기

전체 글

(14)
지니계수와 로렌츠 곡선의 개념과 공식, 쉽게 이해하기 지니계수와 로렌츠 곡선에 대해서 잘 모른다고 하더라도, 경제기사에서 한 번쯤은 지니계수로 국가별 경제지수를 비교하는 내용을 스친 적이 있을 것이다. 용어에 대한 배경지식이 없다보니 기사내용을 이해하기가 어렵다. 지니계수가 낮은 것이 좋다는 것인지, 높은 것이 좋다는 것인지에 대한 개념을 익히고, 아는만큼 보인다는 말을 느껴보자. 지니계수를 구하려면, 로렌츠 곡선부터 알아야 한다. 로렌츠 곡선은 주로 경제소득의 불균형 현상을 설명할 때 사용된다. 가로 축은 인구비율을 이야기하고, 배열 순서는 저소득층에서 고소득층으로 점차 누적시키는 형태이다. 개발자 : 미국의 경제학자 Max O. Lorenz (1905년) x축 : 인구의 비율 y축 : 소득의 비율 모든 곡선의 시작은 (0, 0) 끝은 (1, 1) A마을..
1/n이 평균의 전부가 아니다, 산술평균+기하평균+조화평균의 공식과 예시 보통 우리가 아는 평균은 1/n이다. 6개월 동안 12권의 책을 읽었다면, 우리는 한 달에 평균 2권의 책을 읽었다는 결론에 쉽게 다다른다. 이게 우리가 알던 '산술평균'이었다. 일상에서 너무나 쉽게 사용했던 ‘평균’이라는 단어 앞에 ‘산술’이 붙으니 왠지 모르게 거리감이 느껴진다. 그런데, 평균은 산술평균이 전부가 아니었다. 산술평균의 한계를 보완해 줄 기하평균과 조화평균이 있다. 두 가지 평균은 어떻게 계산을 하고, 어떤 경우에 활용을 할 수 있을지 예시를 통해 알아보자. a, b라는 두 개의 양수로 평균을 구해보겠다. (공식을 쉽게 표현하기 위해서, 숫자가 아닌 a/b형태의 문자로 표현함) 1. 만만한 산술평균부터 시작해보자. 일반적으로 평균은 모든 수를 다 더한 다음에(a+b) 전체 갯수(2개)로..
여전히 사람이 필요한 무인매장, 무인창업의 현실과 AI무인매장 접촉에 민감한 with Corona 시대 상황에 걸맞게 무인매장으로 전환하는 곳이 심심치 않게 눈에 띈다. 얼마전 눈여겨봤던 무인카페(Kim's Coffee)에 들어가서 편리함을 경험하고서 긍정지수가 올라가기도 했다. 심지어 그 카페의 경우에는 사람이 없으니 규제시간 이후로는 take-out 전제로 24시간 운영이 가능하다는 점이 상당히 장점으로 여겨졌다. 물건을 구매할 때 타인과 전혀 접촉할 필요가 없다는 건, 정 없이 들릴지 몰라도 편리한 것이 사실이다. 단순히 누군가를 마주치지 않아서가 아니라, '내가 무엇을 샀는지'에 대한 구매목록을 타인과 공유를 할 필요가 없다는 것이다. 라면 하나를 사더라도 누군가가 알지 않았으면 싶은 마음이 어느 상황에서인가는 존재하고 그런 기대를 충족시켜주는 것이다. 인건..
F1 Score, Roc곡선, Auc 계산방법 / scikit-learn 코드로 구현하기 정밀도와 재현율을 구했다면, 이번엔 F1 Score, ROC, AUC를 구해볼 차례이다. 역시나 어려운 개념은 아니므로, 단어에 기죽지 말자. [↓↓정밀도와 재현율 개념 학습이 필요하신 분들↓↓] 정밀도(precision)와 재현율(recall)의 오차행렬 헷갈리지 않는 방법, 분류모델 평가지표 1. F1 Score: 정밀도와 재현율의 조화 평균 계산방법: F1 Score = 2 x (정밀도 x 재현율) / (정밀도 + 재현율) 정밀도와 재현율을 구하다보면, 한 쪽으로 치우친 결과를 만들 수 있도록 모델을 조작할 수 있으므로 무조건 한 쪽 수치가 높은 것보다는 조화 평균도 함께 고려를 해야 한다. 위의 계산식을 보면, F1 Score에서 높은 점수를 받으려면, 정밀도와 재현율 둘 다 어느 정도 높은 수치..
정밀도(precision)와 재현율(recall) 오차행렬 안 헷갈리는 방법, 분류모델 평가지표 머신러닝의 모델을 구축하는 것만큼이나 중요한 작업이 바로 모델 평가작업이다. 모델 별로 평가하는 방법도 여러가지가 존재하는데, 오늘은 분류 모델 평가방법 중의 기본이 되는, 정밀도와 재현율에 대해서 알아보고자 한다. 일단, 정밀도와 재현율은 용어를 정말 잘못 선택한 것 같다. 개념이 어려운 것은 아닌데, 도무지 직관적이지 않아서 두고두고 헷갈린다. 차근차근 시작해보자 -   정확도(Accuracy)로만 평가할 순 없을까? 정확도는 단순하지만 유용한 도구이다. 그런데, 다음과 같은 점을 유의하지 않으면, 정확도의 함정에 빠지기 쉽다.  기상예보를 예로 들어 보겠다. 우리나라의 날씨에는 '맑음'과 '비' 두 가지만 있으며, 맑을 확률이 70%이고 비가 올 확률이 30%라고 가정해보자.  Tom과 Jerry는..
사례를 통해 P-value, 유의확률 쉽게 이해해보기 통계(Statistics)는 상식을 숫자로 옮겨놓은 것쯤으로 쉽게 생각했는데, 공부를 해볼수록 어렵다. 그러나 통계는 강력하다. 수백만 달러 거래성사의 근거가 되기도 하고 국가정책 결정의 기반이 되기도 한다. 최근에는 인공지능과 데이터분석의 근간이 되는 학문으로써 더욱이 주목받고 있다. 우선 통계를 시작하는 단계에서, P-value(P값)를 빠뜨릴 수 없다. 흔히 어떠한 통계를 검정하는 과정에서 정말 의미가 있는 것인지, 아니면 크게 의미가 없는 것인지를 판단하는 척도가 되기 때문이다. 통계적 표현으로 이야기하자면, 전자를 '유의하다(의미가 있다)'로 표현하고, 후자를 '어쩌다 일어난, 우연일 뿐이다(의미가 없다)'라고 할 수 있다. 즉, 어떠한 가설이 유의한 것인지, 우연히 일어난 일인지 판단함으로써 ..