카테고리 없음

[13일차] 부트 캠프 테크 노트

evangeline1245 2024. 7. 23. 01:00

오전 강의에는 저번주 과제로 냈던 개인 프로젝트를 교수님이 시연하여 주셨다.

위 코드문은 공감종류를 list화 하여 하나씩 대입하면서 공감별 기사를 끌어 모으는 작업이다.

위 코드는 공감종류들을 리스트화 하지 않고 for문으로 반복하여 태그문을 읽어와 리스트없이 공감 종류를 읽어오는 과정이다. 만약 공감종류가 많다면 아래 방법이 조금 더 유용하지 않을까 싶다.

 

크롤링한 데이터를 csv파일로 저장한후 시각화를 하는 코드문이다.

시각화 결과

 

 

이제는 유튜브 댓글 크롤링 하는 방법이다.

동적으로 데이터를 크롤링하기 위해서 꽤 많은 라이브러리와 임포트를 챙겨와야한다.

그런 보안 기능인 샌드박스를 비활성 시켜주며

dev/shm 디렉토리를 사용하지 않을 것을 명시해준다.

위 코드에서 렌더링을 기다리는 코드를 넣어주는 이유는 읽힌 화면을 기준으로 크롤링 하기에 질 좋은 데이터를 확보하기 위해서는 충분한 데이터를 렌더링 할 시간을 주는 것이 좋다.

 

위는 스크롤 내리는 행위를 코드문으로 작성하여 동적인 움직임을 취하게 해주고 적절한 액션을 취해야 사람으로 인지하여 인터넷 밴을 피할 수 있기에 10초의 딜레이를 일부러 걸어줘 10초마다 스크롤행위 할 수 있게 해준다.

이런 식으로 코드문을 작성하면 원하는 유튜브 영상 댓글 코드문이 완성된다.

중요한 점은 동적인 행위인 스크롤 다운을 코드값으로 입력해주는 것과 딜레이를 걸어 마치 매크로가 아닌 사람이 하는 행위처럼 위장시켜 주는 것이다.

# 위 위장을 안하면 본사에서 트래픽 공격으로 치부하여 인터넷 접속밴을 때리며 상황이 난감해질 수 있으니 주의하자.

스파이더 프로그램으로 만들어온 데이터 프레임이다.

단어들을 추출해보면 1012개의 행이 나온다.

위 단어들의 그룹별로 묶어 단어들을 집계해준다

 

집계한 데이터 시각화 자료이다.

 

 긁어온 데이터를 워드 클라우드로 만들어 준 형태이다.