본문 바로가기

전체 글

(14)
한국 무역, 수출입 통계를 품목별로 조회하는 방법 자료 조사 및 데이터 분석을 하려다보면, 우리나라의 수출입 통계 수량과 금액에 대한 데이터가 필요한 경우가 종종 있다. 조사하다보니 방법도 꽤나 다양화되었고, 손쉽게 구할 수 있는 방법이 많아서 공유해보고자 한다.  1. 관세청 수출입 무역 통계* 링크 : https://tradedata.go.kr/cts/index.do 관세청 수출입무역통계수출입 현황, 물류통계 등 관세청 무역통계정보를 종합적으로 제공tradedata.go.kr 메인 페이지 > 수출입통계 > 수출입실적 메뉴로 접속해서 HS CODE(국제 표준 품목번호)를 조회하면 된다. 내가 조회하고 싶은 항목의 HS CODE를 모른다면 ChatGPT에 물어보는 방법이 있다. 일반 검색으로도 알아낼 수 있지만, 가공 형태에 따라서 HS CODE가 여러..
Filter Bubble, 편향적 알고리즘의 노예를 피하는 법 요즘들어 많이 헷갈린다. 뭘 하나 클릭하면 그 keyword와 관련된 정보만 쏟아지는 SNS, Youtube, 검색엔진 탓에, 이게 정말 인기이고 유행이라 화제인 것인지 아니면 온 세상에 나에게 편향적 정보만 제공하는 것인지 도무지 판단이 어렵다. 특히 유행이 둔감한 나와 같은 사람에게는 더더욱 분간이 안 간다.  생각해보면 정말 무섭다. 문득 든 생각의 꼬리 하나가 나의 일상을 지배할 수도 있고, 나의 스치는 의견 하나가 세상의 전부라고 믿어버릴 수도 있지 않냐는 말이다.. 이런 현상을 Filter Bubble이라고 표현한다. 주로 소셜 미디어와 검색 엔진에서 발생하는데, 알고리즘이 사용자의 이전 활동을 분석하여 맞춤형 콘텐츠를 제공함으로써 발생한다. 사용자가 편향된 정보에 노출되게 하여 다양한 시각을..
제3회 빅데이터 분석기사 실기 python 합격후기, 2022년 시험일정 빅데이터 분석기사 제 3회 실기 시험(12/4일 시행)에서 합격했다. 시험에 참고할 만한 후기나 정보들이 많지 않아서 달리 준비는 못 했지만 합격해서 다행이다. 시험 결과가 발표된 뒤(12/31일) 한참이 지난 뒤늦은 후기지만, 준비할 때 정보가 워낙 없었던 점을 감안해서 공유해보기로 했다. 시험 시간 & 문제 유형 시험 시간은 3시간이 주어진다. 필기 시험에서 공부했던 내용들이 단답형으로 10문항 출제되는데, 문제 하나에 3점이다. 필기 시험이 끝난 후로 2달 뒤 시점이기 때문에 대부분이 기억이 잘 안 났지만, 꾸역꾸역 풀어봤다. 사실상 다 틀려도 나머지 코딩에서 잘 맞추면 합격할 순 있다. 신뢰도, 정규화, 표준화 등의 기본적인 대답을 묻는 문제이지만 죽어도 생각이 안 나는 것도 많았다.. 반타작 했..
빅데이터 분석기사 필기 합격후기 (응시자격, 시험준비방법) 제3차 빅데이터 분석기사 필기시험(10/2일)에 합격했다. 10/22일 오전 10시에 발표되었다. 시험 내용이 어렵게 느껴져서 간당간당 합격할 것으로 예상했는데 역시 간신히 68.75점으로 합격점을 넘었다. 예상했던대로 가장 어려웠던 2과목 점수가 제일 낮다. 4과목은 심지어 쉽게 느껴졌는데 방심한 것인지 고득점은 아니었다. 처음에 시험 과목별로 상세한 점수내역 보여주기 전 페이지에서 '합격예정' 저 부분에 '불합격'이 떠서 심장이 철렁하는 마음으로 눌러보았는데 점수가 합격 점수라 안심했다. 몇 시간 지나고 보니, 합격예정으로 바뀌어 있었다. 점수는 높지 않지만 그래도 1개월 반 동안 공부한 결과가 긍정적으로 나와서 아주 기쁘다. 시험 칠 때 확실하게 정답일 것 같은거만 체크를 해보니, 평균 점수가 60..
통계 표본추출방법 (단순랜덤, 계통추출법, 집락추출법, 층화추출법 차이점) 통계는 사회의 여러 현상을 설명하는 숫자이다. 최근에는 데이터 처리속도와 기술의 발달로 표본이 아닌 전수조사도 가능해졌다고 하지만, 전통적인 통계는 모집단 전체를 대표하는 표본을 추출하여서 특징을 살펴 봄으로써, 모집단의 특징을 이해하는 것이라고 볼 수 있다. 즉, A회사에 근무하는 직원 50,000명을 대상으로 근무 만족도 조사를 한다고 할 때, 전체 설문조사가 어려우니 대표로 1,000명 쯤을 골라내서 설문조사를 한 뒤, 이들의 만족도가 곧 50,000명을 대표하는 것이라고 가정하는 것이다. 물론, 50,000명에 달하는 인원의 전체 조사가 가능하다면, 정확성은 좀 더 높은 수준으로 보장 받겠지만 결코 시간과 비용의 투자가 효율적이지 못할 수 있다. 무엇보다도 그렇게 하는 것이 얼마나 의미가 있냐는 ..
python - pd.concat() 데이터프레임 합치기 / table merge, stack 테이블 열이나 행의 인덱스가 같은 경우에, 여러 개의 표를 합쳐서 보고 싶은 경우가 있다. pd.concat() 기능을 활용하면 쉽게 표를 합칠 수 있다. 예제 #Pandas불러오기 import pandas as pd #데이터프레임 만들기 data1 = pd.DataFrame({'date':['2021-10-03','2021-10-04','2021-10-05'], 'category':['transportation','coffee','meal'], 'amount':['7500','5000','19000'], 'payment method':['cash','cash','card']}, ) data2 = pd.DataFrame({'date':['2021-09-04','2021-09-06','2021-09-07'..
제3회 빅데이터 분석기사 필기시험 데이터에듀로 공부한 비전공자 후기, 기출 문제복원 10/2일에 시행된 제3회 빅데이터 분석기사 필기시험을 쳤다. Long story short, 일단은 어렵게 느껴졌고 시행한지 얼마 안 된 시험이다보니 문제집이 시험 범위를 다 못 담은 느낌이었다. 시험에서 떨어질 수준으로 못 담은건 아니지만, 그래도 확실히 당황스러웠다. 모의고사보다는 훨씬 어렵게 느껴졌다. 오늘의 리뷰항목은 다음과 같이 요약해보겠다. 빅데이터 분석기사 준비하시는 분들에게는 도움이 될 수도 있겠다! 시험장, 준비물 생각나는 기출문제 내용, 교재 공부했던 방법, 기간, 자료 공유 1. 시험장 환경, 준비물 10시부터 시험이 시작됐는데, 9시 40~45분 정도부터 책상에 있는 것 다 집어넣으라고 했고, 전자기기도 전부 off하라고 한다. 의도하지 않았더라도 전자기기가 울릴 경우에는 실격처리..
구글 드라이브 파일을 코랩(Colab)으로 연동하는 방법 구글 코랩은 정말 활용도가 높고 편리한데, 딱 한 가지 불편한 것은 로컬pc에 저장된 파일을 매번 업데이트해야 하는 것이다. 완전하게 편리해지는 것은 아니지만, 구글 드라이브에 파일을 저장해두고 코랩에서 연동하면 조금 더 수월하게 작업을 할 수 있다. 더군다나 PC를 옮겨도 손 쉽게 작업할 수 있다는 것은 엄청난 장점이다. 1. 구글 드라이브 연결 코드 from google.colab import auth auth.authenticate_user() from google.colab import drive drive.mount('/content/drive') 2. 코드실행 후 링크 클릭 위의 코드를 실행하면, 파란색 링크와 함께 "Enter verification code: ______"라고 네모박스가 뜬..