카테고리 없음

[16일차] 부트 캠프 테크 노트

evangeline1245 2024. 7. 26. 00:04

데이터 분석 프로젝트 

크롤링을 기반으로한 자유주제 분석 팀과제 발표 날이다.

 

우리 조는 고용노동부의 보도자료 페이지를 모두 크롤링하여 2009년부터 2024년까지 동향과 자료수 등을 분석하는 프로젝트를 정했다.

 

 

먼저 모든 데이터속 연도를 뜻하는 문자열을 첨부하여 각 연도별 데이터 프레임에 적용시켜준다.

그런다음 리스트화 하여 데이터프레임형태로 관찰하게 한다.

예로 2023년의 보도 자료를 조회수로 별로 내림차순해준 코드문

2023년의 보도자료를 시각화하였고 워드 벨류는 조회수로 매겼다.

해당 시각화는 제목에 사용되는 반복된 단어 즉 단어의 강조성을 표현하기 위한 워드 클라우드 이다.

 

2024년의 단어 빈도 수 상위 10개의 단어이며

이는 5년주기로 묶어 단어의 빈도수를 가늠한 값이다.(상위 10가지)

보면 공단이라는 단어는 2009년~2014년 사이 10번째의 빈도 수에 해당 하지만 다음 5년동안 3번째에 위치할 만큼 언급 빈도가 높아졌다. 그후 20년대에 들어서면 빈도 순위가 떨어짐을 확인 할 수 있다.

 

위 크라우드는 2009년 부터 2024년 현재까지 가장 많이 언급된 단어 10가지를 시각화하였고

아래는  2023년에 해당하는 언급 단어 20가지를 시각화한 작업이다.

위는 단어 빈도를 추이선으로 표현해 봤는 데

코로나 처럼 특정 시점을 기준으로 갑작스럽게 나온 단어의 증감세와 전체적인 흐름들을 파악할 수 있게 됐다.