2024/07/23 2

[14일차] 부트 캠프 테크 노트

멜론 인기차트 크롤링 프로젝트를 진행했다.저번에 진행한 언론 뉴스 크롤링보다 좀더 다양한 내용을 담을 수 있는 실무적인 학습단계를 배운다. 해당 페이지는 우리가 조사할 대상이 2020년 연간 멜론차트를 표시한 것이다. 우선 크롤링에 앞서 필요한 라이브러리와 임포트 및 기능등을 비/ 활성화 해주고 크롤링 준비 단계를 마쳐준다. def함수로 시작고,url주소를 get하는 함수를 만들 때는 타임 딜레이를 걸어 매크로 밴을 피하는 부분을 유의하자.노래 제목과 가수 이름 을 추출하는 코드문인데저번 뉴스 프로젝트와는 다른 코드문을 작성했다.저번 프로젝트에서는 주로 .find_all('div'{'class':'ellipsis rank01'})  이러면 형태의 긁어오는 함수를 주로 봤지만오늘은 다른 형태로 원하는 정보..

카테고리 없음 2024.07.23

[13일차] 부트 캠프 테크 노트

오전 강의에는 저번주 과제로 냈던 개인 프로젝트를 교수님이 시연하여 주셨다.위 코드문은 공감종류를 list화 하여 하나씩 대입하면서 공감별 기사를 끌어 모으는 작업이다.위 코드는 공감종류들을 리스트화 하지 않고 for문으로 반복하여 태그문을 읽어와 리스트없이 공감 종류를 읽어오는 과정이다. 만약 공감종류가 많다면 아래 방법이 조금 더 유용하지 않을까 싶다. 크롤링한 데이터를 csv파일로 저장한후 시각화를 하는 코드문이다.시각화 결과  이제는 유튜브 댓글 크롤링 하는 방법이다.동적으로 데이터를 크롤링하기 위해서 꽤 많은 라이브러리와 임포트를 챙겨와야한다.그런 보안 기능인 샌드박스를 비활성 시켜주며dev/shm 디렉토리를 사용하지 않을 것을 명시해준다.위 코드에서 렌더링을 기다리는 코드를 넣어주는 이유는 읽..

카테고리 없음 2024.07.23