본문 바로가기

All about Data

(9)
한국 무역, 수출입 통계를 품목별로 조회하는 방법 자료 조사 및 데이터 분석을 하려다보면, 우리나라의 수출입 통계 수량과 금액에 대한 데이터가 필요한 경우가 종종 있다. 조사하다보니 방법도 꽤나 다양화되었고, 손쉽게 구할 수 있는 방법이 많아서 공유해보고자 한다.  1. 관세청 수출입 무역 통계* 링크 : https://tradedata.go.kr/cts/index.do 관세청 수출입무역통계수출입 현황, 물류통계 등 관세청 무역통계정보를 종합적으로 제공tradedata.go.kr 메인 페이지 > 수출입통계 > 수출입실적 메뉴로 접속해서 HS CODE(국제 표준 품목번호)를 조회하면 된다. 내가 조회하고 싶은 항목의 HS CODE를 모른다면 ChatGPT에 물어보는 방법이 있다. 일반 검색으로도 알아낼 수 있지만, 가공 형태에 따라서 HS CODE가 여러..
통계 표본추출방법 (단순랜덤, 계통추출법, 집락추출법, 층화추출법 차이점) 통계는 사회의 여러 현상을 설명하는 숫자이다. 최근에는 데이터 처리속도와 기술의 발달로 표본이 아닌 전수조사도 가능해졌다고 하지만, 전통적인 통계는 모집단 전체를 대표하는 표본을 추출하여서 특징을 살펴 봄으로써, 모집단의 특징을 이해하는 것이라고 볼 수 있다. 즉, A회사에 근무하는 직원 50,000명을 대상으로 근무 만족도 조사를 한다고 할 때, 전체 설문조사가 어려우니 대표로 1,000명 쯤을 골라내서 설문조사를 한 뒤, 이들의 만족도가 곧 50,000명을 대표하는 것이라고 가정하는 것이다. 물론, 50,000명에 달하는 인원의 전체 조사가 가능하다면, 정확성은 좀 더 높은 수준으로 보장 받겠지만 결코 시간과 비용의 투자가 효율적이지 못할 수 있다. 무엇보다도 그렇게 하는 것이 얼마나 의미가 있냐는 ..
python - pd.concat() 데이터프레임 합치기 / table merge, stack 테이블 열이나 행의 인덱스가 같은 경우에, 여러 개의 표를 합쳐서 보고 싶은 경우가 있다. pd.concat() 기능을 활용하면 쉽게 표를 합칠 수 있다. 예제 #Pandas불러오기 import pandas as pd #데이터프레임 만들기 data1 = pd.DataFrame({'date':['2021-10-03','2021-10-04','2021-10-05'], 'category':['transportation','coffee','meal'], 'amount':['7500','5000','19000'], 'payment method':['cash','cash','card']}, ) data2 = pd.DataFrame({'date':['2021-09-04','2021-09-06','2021-09-07'..
구글 드라이브 파일을 코랩(Colab)으로 연동하는 방법 구글 코랩은 정말 활용도가 높고 편리한데, 딱 한 가지 불편한 것은 로컬pc에 저장된 파일을 매번 업데이트해야 하는 것이다. 완전하게 편리해지는 것은 아니지만, 구글 드라이브에 파일을 저장해두고 코랩에서 연동하면 조금 더 수월하게 작업을 할 수 있다. 더군다나 PC를 옮겨도 손 쉽게 작업할 수 있다는 것은 엄청난 장점이다. 1. 구글 드라이브 연결 코드 from google.colab import auth auth.authenticate_user() from google.colab import drive drive.mount('/content/drive') 2. 코드실행 후 링크 클릭 위의 코드를 실행하면, 파란색 링크와 함께 "Enter verification code: ______"라고 네모박스가 뜬..
지니계수와 로렌츠 곡선의 개념과 공식, 쉽게 이해하기 지니계수와 로렌츠 곡선에 대해서 잘 모른다고 하더라도, 경제기사에서 한 번쯤은 지니계수로 국가별 경제지수를 비교하는 내용을 스친 적이 있을 것이다. 용어에 대한 배경지식이 없다보니 기사내용을 이해하기가 어렵다. 지니계수가 낮은 것이 좋다는 것인지, 높은 것이 좋다는 것인지에 대한 개념을 익히고, 아는만큼 보인다는 말을 느껴보자. 지니계수를 구하려면, 로렌츠 곡선부터 알아야 한다. 로렌츠 곡선은 주로 경제소득의 불균형 현상을 설명할 때 사용된다. 가로 축은 인구비율을 이야기하고, 배열 순서는 저소득층에서 고소득층으로 점차 누적시키는 형태이다. 개발자 : 미국의 경제학자 Max O. Lorenz (1905년) x축 : 인구의 비율 y축 : 소득의 비율 모든 곡선의 시작은 (0, 0) 끝은 (1, 1) A마을..
1/n이 평균의 전부가 아니다, 산술평균+기하평균+조화평균의 공식과 예시 보통 우리가 아는 평균은 1/n이다. 6개월 동안 12권의 책을 읽었다면, 우리는 한 달에 평균 2권의 책을 읽었다는 결론에 쉽게 다다른다. 이게 우리가 알던 '산술평균'이었다. 일상에서 너무나 쉽게 사용했던 ‘평균’이라는 단어 앞에 ‘산술’이 붙으니 왠지 모르게 거리감이 느껴진다. 그런데, 평균은 산술평균이 전부가 아니었다. 산술평균의 한계를 보완해 줄 기하평균과 조화평균이 있다. 두 가지 평균은 어떻게 계산을 하고, 어떤 경우에 활용을 할 수 있을지 예시를 통해 알아보자. a, b라는 두 개의 양수로 평균을 구해보겠다. (공식을 쉽게 표현하기 위해서, 숫자가 아닌 a/b형태의 문자로 표현함) 1. 만만한 산술평균부터 시작해보자. 일반적으로 평균은 모든 수를 다 더한 다음에(a+b) 전체 갯수(2개)로..
F1 Score, Roc곡선, Auc 계산방법 / scikit-learn 코드로 구현하기 정밀도와 재현율을 구했다면, 이번엔 F1 Score, ROC, AUC를 구해볼 차례이다. 역시나 어려운 개념은 아니므로, 단어에 기죽지 말자. [↓↓정밀도와 재현율 개념 학습이 필요하신 분들↓↓] 정밀도(precision)와 재현율(recall)의 오차행렬 헷갈리지 않는 방법, 분류모델 평가지표 1. F1 Score: 정밀도와 재현율의 조화 평균 계산방법: F1 Score = 2 x (정밀도 x 재현율) / (정밀도 + 재현율) 정밀도와 재현율을 구하다보면, 한 쪽으로 치우친 결과를 만들 수 있도록 모델을 조작할 수 있으므로 무조건 한 쪽 수치가 높은 것보다는 조화 평균도 함께 고려를 해야 한다. 위의 계산식을 보면, F1 Score에서 높은 점수를 받으려면, 정밀도와 재현율 둘 다 어느 정도 높은 수치..
정밀도(precision)와 재현율(recall) 오차행렬 안 헷갈리는 방법, 분류모델 평가지표 머신러닝의 모델을 구축하는 것만큼이나 중요한 작업이 바로 모델 평가작업이다. 모델 별로 평가하는 방법도 여러가지가 존재하는데, 오늘은 분류 모델 평가방법 중의 기본이 되는, 정밀도와 재현율에 대해서 알아보고자 한다. 일단, 정밀도와 재현율은 용어를 정말 잘못 선택한 것 같다. 개념이 어려운 것은 아닌데, 도무지 직관적이지 않아서 두고두고 헷갈린다. 차근차근 시작해보자 -   정확도(Accuracy)로만 평가할 순 없을까? 정확도는 단순하지만 유용한 도구이다. 그런데, 다음과 같은 점을 유의하지 않으면, 정확도의 함정에 빠지기 쉽다.  기상예보를 예로 들어 보겠다. 우리나라의 날씨에는 '맑음'과 '비' 두 가지만 있으며, 맑을 확률이 70%이고 비가 올 확률이 30%라고 가정해보자.  Tom과 Jerry는..