본문 바로가기

Berry talks

제3회 빅데이터 분석기사 필기시험 데이터에듀로 공부한 비전공자 후기, 기출 문제복원

10/2일에 시행된 제3회 빅데이터 분석기사 필기시험을 쳤다. Long story short, 일단은 어렵게 느껴졌고 시행한지 얼마 안 된 시험이다보니 문제집이 시험 범위를 다 못 담은 느낌이었다. 시험에서 떨어질 수준으로 못 담은건 아니지만, 그래도 확실히 당황스러웠다. 모의고사보다는 훨씬 어렵게 느껴졌다.

오늘의 리뷰항목은 다음과 같이 요약해보겠다. 빅데이터 분석기사 준비하시는 분들에게는 도움이 될 수도 있겠다!

  • 시험장, 준비물
  • 생각나는 기출문제 내용, 교재
  • 공부했던 방법, 기간, 자료 공유


1. 시험장 환경, 준비물
10시부터 시험이 시작됐는데, 9시 40~45분 정도부터 책상에 있는 것 다 집어넣으라고 했고, 전자기기도 전부 off하라고 한다. 의도하지 않았더라도 전자기기가 울릴 경우에는 실격처리 된다. 10시 이후로는 입장도 불가능하다. 시험 시작 후 1시간 동안은 화장실 가거나 퇴실 불가하고(퇴실 시에 0점처리), 1시간이 지나면 마치는대로 퇴실 가능하다. 예비마킹은 금지다. 답안지 읽는 과정에서 오류가 많이 발생한다고 하니, 주의해야한다.

[준비물]

  • 신분증 (없으면 퇴실해야 함)
  • 검정펜, 수험용 검정싸인펜



2. 기출문제
일단 난이도로 따지면 2과목이 어려웠고 4과목이 제일 쉬웠다. 4과목은 조금 보너스 문제가 많았다. 위에서 언급했던대로 당황스러웠던건 공부했던 범위와 난이도가 좀 달랐다는 점이다. 본래 자격증 공부라면, 교재들이 대부분 시험범위를 다루는데, 조금 더 심화된 문제들이 많았달까? 그래도 아예 적중을 못한 건 아니었고, 큰 그림에서는 범위가 같다고 봐야하고, 꽤나 비슷한 문제도 있었다. 교재를 완벽하게 공부하면 떨어질 수준은 결코 아니다. 아무래도 시행초기이다보니 이런 부분은 어느 출판사나 커버하기 어려운 부분으로 봐진다. 내가 공부한 교재는 데이터에듀의 빅데이터분석기사 1,2권이다. 데이터에듀가 ADsP교재로 유명하기도 했고, 리뷰에서 이거로 공부하고 합격했다는걸 보고 크게 고민없이 다른 출판사랑 비교하지 않고 구매했다. 단원마다 연습문제가 있고, 모의고사 3회에 1~2과목과 3~4과목이 분권되어 있어서 가지고 다니기에도 가벼운 점도 좋았다.

빅데이터분석기사-교재-데이터에듀



시험 문제에 대해서는, 생각나는대로 적어보고자 한다.

1) MAPE
회귀모델 평가기준 중 하나인, MAPE의 수식이 문제로 나왔다. 약간 형태는 달랐지만, 데이터에듀에서도 연습문제로 나왔었다. 아무래도 MAPE의 활용도가 특이하다보니 문제로 내기가 좋겠다곤 싶었다. 수식을 자세히는 보지 않았지만 이름에서 Absolute가 들어갔으므로 제곱합이 아닌 절대값이 들어간 공식을 골랐고, 100%를 곱해줬던 것을 기억해내서 정답을 고른 것 같다. 회계평가방식 수식도 한 번씩 봐주면 좋겠다. Square가 들어가면 제곱합 공식, Absolute가 들어가면 절대값이 들어가는 공식임을 참고해보면 좋겠다.

2) 정밀도, 재현율, 특이도 계산방법 2~3문제
정밀도와 재현율을 두개 다 계산하는 방법을 묻는 문제가 1문제 나왔고, 특이도 계산문제도 4과목에서 등장했다. 어렵지 않게 풀 수 있었다.
정밀도와 재현율에 대해서 작성했던 포스팅이 공부가 많이됐다. 특히, TP, TN, FP, FN와 같은 혼란스러운 용어도 쉽게 구분할만한 방식을 찾아뒀던게 문제 푸는데 도움이 됐다. 필요하신 분들은 아래 링크 참고해주시길.

정밀도(precision)와 재현율(recall) 오차행렬 안 헷갈리는 방법, 분류모델 평가지표

머신러닝의 모델을 구축하는 것만큼이나 중요한 작업이 바로 모델 평가작업이다. 모델 별로 평가하는 방법도 여러가지가 존재하는데, 오늘은 분류 모델 평가방법 중의 기본이 되는, 정밀도와

jennainsight.tistory.com


3) 신뢰도, 지지도 계산방법
쇼핑리스트에서 A항목을 구매할 때 B항목 구매가 어떤식으로 연결되는지에 대해서 신뢰도와 지지도를 실제로 계산하는 문제가 등장했다. 복잡한 계산은 아니라서 어렵지는 않았다고 생각한다. 대신 용어가 조금 헷갈리기 때문에, 확실하게 알고 넘어가는게 좋을 것 같다. 향상도도 계산방법 함께 알아두면 도움이 될 듯하다.

4) 전수조사 대상찾기
통계분석 사례들이 보기로 나왔고, 어떤 것이 전수조사 대상에 해당하는지 고르는 문제가 등장했다.

5) 데이터웨어하우스의 특징
데이터웨어하우스의 특징이 아닌 것을 고르라는 문제가 출제되었다. 데이터웨어하우스의 특징을 따로 외운 것은 아니지만, 상식으로 풀 수 있는 수준이었다. 나중에 백과사전을 검색해보니 공식적인 특징이 나타난 것이 있었다. 주제지향적, 시간의 흐름에 따라 변화하는 특징, 비소멸성, 통합성이었다.

6) Auc 문제
Auc 면적이 어떤 의미인지, Roc곡선이 어떤 형태일 때 모델 성능이 좋은 것인지 나쁜 것인지, 다소 쉽게 출제된 문제였다고 본다.

F1 Score, Roc곡선, Auc 계산방법 / scikit-learn 코드로 구현하기

정밀도와 재현율을 구했다면, 이번엔 F1 Score, ROC, AUC를 구해볼 차례이다. 역시나 어려운 개념은 아니므로, 단어에 기죽지 말자. [↓↓정밀도와 재현율 개념 학습이 필요하신 분들↓↓] 정밀도(prec

jennainsight.tistory.com


7) 중심극한정리에 관한 문제
중심극한정리에 대한 설명 중 틀린 것을 고르는 문제가 출제됐다.

8) 딥러닝 관련문제
Relu함수가 기울기 소실문제를 해소해준다는 보기가 있던 문제가 있었고, 분석할 대상을 보기에 여러 개 작성한 뒤 각각 분석에 맞는 딥러닝 알고리즘을 고르라는 문제도 있었다. 예를 들어서 이런 경우에는 RNN, CNN 중에 무엇이 맞을지 연결하는 형태이다. 시그모이드 함수에 대한 문제도 있었고, 경사하강법에 관련된 것이 아닌 것을 고르는 문제도 있었다. 생각보다 딥러닝 부분에 대한 문제 비중이 높았다고 보여지는데, 간단하긴 했지만 계산하는 문제도 있었다. 딥러닝 쪽으로 이해도가 높지 않아서 난이도가 느껴지긴 했다.

9) 데이터과학자의 업무영역 (기존의 전문가와 다른 부분)
상당히 쉽게 넘어갈 줄 알고, 대충봤던 부분인데 은근 객관식 보기가 헷갈렸다.

10) ETL 개념을 묻는 문제
데이터에듀 교재에서 ETL 관련내용을 여러페이지로 다루고 내용도 꽤 있어서, 어느 정도 공들여서 공부한 부분이었는데 비교적 간단하게 출제됐다.

11) 박스콕스
박스콕스는 처음 들어봤는데, 관련해서 2문제나 등장했다. 내용은 몰랐지만 문맥을 보고 대략 끼워맞추기는 가능했다.

12) 왜도 그래프
왜도 그래프를 보여주고, 왜도의 크기가 양성인지 음성인지, 최빈값/평균/중앙값의 크기가 어떤지를 고르는 문제였다. 교재에서 풀어봤던 문제라서 쉽게 통과했다, yey~~

13) 카토그램
공간데이터 시각화 부분에서 카토그램 부분 문제내기 좋겠다는 생각이 들었는데, 간단하게 출제됐다. 카토그램에 대한 설명이 문제로 나오고 보기 중에서 어떤 것인지 고르는 문제였다.

14) 데이터 분석 순서
이런 문제가 은근 헷갈린다. 확실히 보고가는 걸 추천한다. 말 되는걸로 고르다보면 놓치는 부분이 있다. 유사하게 분석 순서에 관련해서 묻는 문제가 1~2개 등장했다.

15) 앙상블 기법
보팅, 배깅, 부스팅, 랜덤포레스트 중 하나를 고르는 문제었다.

16) 상관계수
상관계수 수치 범위, -1이 갖는 의미 등에 대한 내용이었다. 혹시 이 문제 답 2개라고 생각하시는 분..

17) 관계시각화 문제
2문제가 연달아 출제되었는데, 한 문제를 보고 다른 문제의 답을 유추할 수 있는? 형태였던 것 같다. 다변량 데이터에서 연관성을 찾아내는 것이 어떤 것인지에 대한 내용이었던 듯하다.

18) 비모수 통계기법의 특징
비모수 통계기법으로 분석했을 경우에 모수추정이 가능한지에 대한 문제었던 것으로 기억한다.

19) 데이터 정제의 개념
데이터 정제 단계에서는 어떤 작업을 하는 것인지 옳은 것을 고르는 문제었다.

20) 평균 관련한 문제
산술평균, 기하평균, 조화평균의 개념에 대해서 묻는 문제가 1문제 출제됐다. 다행히 이 것도 포스팅으로 작성했던 부분이라서 확실히 이해하고 있었고 쉽게 오답을 골라낼 수 있었다. 아래 내용만 봐도 충분하니, 필요하신 분들은 아래링크로 접속하여 확인 바란다.

1/n이 평균의 전부가 아니다, 산술평균+기하평균+조화평균의 공식과 예시

보통 우리가 아는 평균은 1/n이다. 6개월 동안 12권의 책을 읽었다면, 우리는 한 달에 평균 2권의 책을 읽었다는 결론에 쉽게 다다른다. 이게 우리가 알던 '산술평균'이었다. 일상에서 너무나 쉽게

jennainsight.tistory.com


21) 시계열 데이터 분석
ARIMA 특징을 묻는 문제, 시계열 데이터의 추세, 순환과 연관된 문제가 출제되었다.



3. 공부했던 방법, 기간, 자료 공유
비전공자이지만 인공지능에 대한 공부를 어느 정도 해오던 차였다. 다른 데이터진흥원 관련 시험은 경험이 없다. 빅데이터 분석기사 교재에 충실하게 공부했고, 통계 부분들은 교재로 충분하지 않다고 느껴져서 유투브 강의 찾아보고 하면서 공부했다. 아마 전공자들은 쉽게 풀지 않았을까 생각한다. 직장인이기 때문에 full time 공부는 못했지만 주말에 공부는 1개월 반정도 준비를 했고, 데이터 공부를 아예 해보지 않으신 분들은 조금 더 시간을 두는게 좋을 것 같다. 1차원적인 답을 요구하는 문제도 꽤 있긴 했지만, 조금 더 심화문제를 묻기도 했기 때문에 안정권으로 합격하고 싶으시다면 조금 더 공부할 필요가 있다.

교재 위주로 공부하면서, 외워야 될 부분은 아이패드 굿노트에 짧게 짧게 기록했다. 나중에 키워드만 보면서 다시 기억을 상기시키기 위한 수준이고, 내용 전부를 기록한 필기는 아니었다. 마지막 즈음에는 아이패드에 기록된 내용을 보면서, 모르는 부분은 다시 찾아보고 공부하는 식으로 준비했다. 전체 노트 필기를 다 하면서 정리하면 좋겠지만, 그렇게 할만큼 여유가 많지는 않아서 키워드식으로 기록해두고 복기하는 방법이 괜찮았던 것 같다.

빅데이터분석기사-노트필기



기출은 정보가 없기도 했지만 따로 찾아보지 않았고, 모의고사 3회 정답풀이를 2회했고, 연습문제는 오답풀이정도만 1회 진행했다. 조금 더 깊게 공부할 것 싶은 후회도 남는다.




실기시험 합격 후기는 아래 포스팅 참조!

제3회 빅데이터 분석기사 실기 python 합격후기, 2022년 시험일정 - https://jennainsight.tistory.com/m/entry/%EC%A0%9C3%ED%9A%8C-%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%84%9D%EA%B8%B0%EC%82%AC-%EC%8B%A4%EA%B8%B0-python-%ED%95%A9%EA%B2%A9%ED%9B%84%EA%B8%B0-2022%EB%85%84-%EC%8B%9C%ED%97%98%EC%9D%BC%EC%A0%95