abc부트캠프 #유클리드소프트 #고용노동부 #대한상공회의소 #미래내일일경험사업 38

[19일차] 부트 캠프 테크 노트

인공지능 학습 2일차 파이썬 코드로 학습을 적용하는 함수 fit()를 알게 됐다. 여기서  X의 변수를 독립변수로 생각해야한다.독립변수는 한 결과 값에 영향을 끼치는 변수들을 칭한다. Y 는 결과 및 타겟 레이블인 종속변수로 생각하자.종속변수는 결과 값이라고 칭하지만 예시를 들면 좀더 이해하기 쉽다. 와인 품질에 관한 데이터를 상상해보자와인의 상태에 따라 품질 등급을 A,B,C,D 로 나눌 수 있다.그러면 이 와인 등급을 매길만한 변수들은 무엇이 있을까?포도의 품종, 산도, 온도, 물 등 여러가지 변수들이 등급의 척도가 가능할 것이다.그럼 여기서 와인의 품질을 정하는 여러 척도들이 독립변수가 될테고그 척도들의 총 값을 고려하여 품질등급을 정한 A,B,C,D값들이 종속변수가 되는 것이다.  그럼 앞선 코드..

카테고리 없음 2024.08.01

[18일차] 부트 캠프 테크 노트

18일차 부트 캠프 인공지능 챕터에 들어서게 됐다.저번주.. 매우 어려운 강의 임을 언질해 주셨기에 마음을 좀 단디 먹고 인공지능의 강의 포문을 열게 됐다.강의실에 들어가며 수령받은 교재 2권이다. 딥러닝과 머신러닝.. 뉴스와 신문으로 접해봤던 생소한 기술이다.책장을 펼쳐 간단히 훑어봤지만 역시 쉽게 이해되는 부분 하나 없었다.. 이번 강의에서 사용하는 프로그램 언어 플랫폼은 pycham을 사용한다.이 세팅 창에서 라이브러리를 다운받는다.코렙과 스파이더에서 사용했던 konpy와 pandas와 같은 라이브러리 종류들을 필요한 버전을 다운로드가 가능하다. 우선 초반부는 처음 파이썬을 배운 것을 복습을 하면서 차원의 개념으로 설명을 해주셨다.또한 ctrl+ d는 진행 줄 코드를 복사하여 다음 행에 자동으로 붙..

카테고리 없음 2024.07.29

[17일차] 부트 캠프 테크 노트

인공지능 학습 전 부트캠프에서 건양대학교 메디컬 캠퍼스 견학을 가게 됐다. 7개조의 조를 2개로 나눠 시뮬레이션 센터와 약박사 교수님의 강의를 나눠 듣는 계획으로 짜여졌다. 우리 조는 먼저 시뮬레이션 센터를 방문해 실습동을 찾게 됐다. 위 는 실습동으로 국가고시는 2 차례 통해 진행되는 여기서 실기를 시뮬레이션 하면서 학습을 하는 실습동이다.실제 진료실을 바탕으로 이루어져있고 여기서 환자와 상담과 기본 진찰등 여러가지 등을 시뮬레이션 해볼 수있고  뒤쪽 비치는 거울을 통해 감독관이 실습을 지켜볼 수 있다. 학생 때 봤 던 반사 관찰 망치..실습하는 학생들의 점수는 바깥에 모니터에 달린 컴퓨터로 책정되면 자연스럽게 서버에 입력이되면 데이터화해서 학생에게 배포 및 보관을 하고있다. 원래는 점수지를 들고 수기..

카테고리 없음 2024.07.27

[16일차] 부트 캠프 테크 노트

데이터 분석 프로젝트 크롤링을 기반으로한 자유주제 분석 팀과제 발표 날이다. 우리 조는 고용노동부의 보도자료 페이지를 모두 크롤링하여 2009년부터 2024년까지 동향과 자료수 등을 분석하는 프로젝트를 정했다.  먼저 모든 데이터속 연도를 뜻하는 문자열을 첨부하여 각 연도별 데이터 프레임에 적용시켜준다.그런다음 리스트화 하여 데이터프레임형태로 관찰하게 한다.예로 2023년의 보도 자료를 조회수로 별로 내림차순해준 코드문2023년의 보도자료를 시각화하였고 워드 벨류는 조회수로 매겼다.해당 시각화는 제목에 사용되는 반복된 단어 즉 단어의 강조성을 표현하기 위한 워드 클라우드 이다. 2024년의 단어 빈도 수 상위 10개의 단어이며이는 5년주기로 묶어 단어의 빈도수를 가늠한 값이다.(상위 10가지)보면 공단이..

카테고리 없음 2024.07.26

[15일차] 부트 캠프 테크 노트

멜론 차트 분석 팀프로젝트에 있어우리 조는 6월 월간 차트를 분석하는 방향으로 잡았다. 월간 차트를 보면 전월대비 등락률과 신규진입 및 순위 동일인 총 4변수로 등락률를 표현하고 있기에각 변수들을 이용하여 데이터 분석을 진행 해보려고 한다.먼저 월간 차트의 현황은 이러하다 이런 짜임의 데이터 구조에서 꽤 다양한 분석 인사이트를 도출됐다.가장 먼저 6월의 100곡들중 상승과 하락 진입 동일 들의 빈도를 체크 해봤다.100곡 중 69곡들이 전월대비 순위에서 하락을 맞이했다. 유행의 속도를 체감 할 수 있는 부분? 이번 막대그래프는 가수별 월간 차트 100위에 올라간 곡중 상승세를 보이는 곡 수를 표현한 차트이다.뉴진스의 곡이 4곡이 100곡에 랭크 돼 있다. 위 막대는 전월대비 하락을 맞이한 69곡들의 가수..

카테고리 없음 2024.07.25

[14일차] 부트 캠프 테크 노트

멜론 인기차트 크롤링 프로젝트를 진행했다.저번에 진행한 언론 뉴스 크롤링보다 좀더 다양한 내용을 담을 수 있는 실무적인 학습단계를 배운다. 해당 페이지는 우리가 조사할 대상이 2020년 연간 멜론차트를 표시한 것이다. 우선 크롤링에 앞서 필요한 라이브러리와 임포트 및 기능등을 비/ 활성화 해주고 크롤링 준비 단계를 마쳐준다. def함수로 시작고,url주소를 get하는 함수를 만들 때는 타임 딜레이를 걸어 매크로 밴을 피하는 부분을 유의하자.노래 제목과 가수 이름 을 추출하는 코드문인데저번 뉴스 프로젝트와는 다른 코드문을 작성했다.저번 프로젝트에서는 주로 .find_all('div'{'class':'ellipsis rank01'})  이러면 형태의 긁어오는 함수를 주로 봤지만오늘은 다른 형태로 원하는 정보..

카테고리 없음 2024.07.23

[13일차] 부트 캠프 테크 노트

오전 강의에는 저번주 과제로 냈던 개인 프로젝트를 교수님이 시연하여 주셨다.위 코드문은 공감종류를 list화 하여 하나씩 대입하면서 공감별 기사를 끌어 모으는 작업이다.위 코드는 공감종류들을 리스트화 하지 않고 for문으로 반복하여 태그문을 읽어와 리스트없이 공감 종류를 읽어오는 과정이다. 만약 공감종류가 많다면 아래 방법이 조금 더 유용하지 않을까 싶다. 크롤링한 데이터를 csv파일로 저장한후 시각화를 하는 코드문이다.시각화 결과  이제는 유튜브 댓글 크롤링 하는 방법이다.동적으로 데이터를 크롤링하기 위해서 꽤 많은 라이브러리와 임포트를 챙겨와야한다.그런 보안 기능인 샌드박스를 비활성 시켜주며dev/shm 디렉토리를 사용하지 않을 것을 명시해준다.위 코드에서 렌더링을 기다리는 코드를 넣어주는 이유는 읽..

카테고리 없음 2024.07.23

[12일차] 부트 캠프 테크노트

제 2회차 ESG 특강이 있는 날이다. 가장 먼저 오전 특강으로 사이버 보안 회사 NSHC의 윤선희 강사님의 강연이였다.생소한 회사 이름 이였지만, 삼성페이를 이용하면 백그라운드에 자동으로 실행되는 보안 프로그램 Droid-x를 개발한 회사이다.강사님의 모토 ' 인생은 딱 우리가 꿈꾸는 것만큼 현실로 이루어진다.' 대부분을 회사의 창업스토리와 전반적인 활동 이야기들을 들었는 데 이 회사는 대전 산내동에 한 산골에서뜻이 맞는 청년들 4명이서 창업을 단행하며 회사 시작하게됐다.  창업 초창기 돈되는 일이 하기위해 웹 호스팅부터 현재의 보안회사로 발전하기까지 다양하고 신기했던 일화들을 듣게 되며 뜻깊은 시간을 보내게 됐다. 사실 사이버 보안회사에 관심이 깊진 않았지만 사이버 피해 규모의 증가와 사이버 보험 상..

카테고리 없음 2024.07.21

[11일차] 부트캠프 테크노트

금일부터 데이터 분석강의에 들어감에 있어서 강사님도 바뀌게 됐다. abc부트캠프 데이터 분석을 책임져주실 오소진 교수님이 교수님은 한밭대학교에서 교수로 재직하고 계시며 이번에 크롤링에 관하여 교육을 진행해주시기로 하셨다. 오전에는 5장의 교안을 통해 빠르게 중요 부분만 체크해주면서 진도를 나가주셨다. 처음 접하는 html의 시스템이라 이해가 쉽지는 않았지만 실습을 통해 서서히 알게 될거라 생각하며 빠른 진도에 발 맞춰5장의 교안 속강을 마쳤다.  점심식사 후 실습 실습주제는 네이버 뉴스에서 랭킹 뉴스에 관한 데이터 분석이였다. 네이버 랭킹 뉴스는 가장많이본 뉴스와 /댓글이 많이본 뉴스가 언론사별로 랭킹순위가 매겨 있다.우리는 이 웹사이트를 크롤리하여 데이터를 추출한 후 분석을 실습을 진행하는 것이다. 가..

카테고리 없음 2024.07.21

[10일차] 부트캠프 테크노트

데이터 전처리 마지막 과정.미니 프로젝트를 진행했다.   가장 먼저 데이터 불러오기여기서 중요한점은 skiprows와 encoding이다가져올 csv파일에는 한글변수가 존재하기에 올바르게 읽어 오려면 encoding=cp949를 넣어줘야하고가져와야 할 데이터는 17행부터 시작하기에 skiprows로 불필요한 16개의 행을 날린 후 읽어왔다.  올바르게 읽어온 데이터 파일이다.    다음 문제 결측값과 파생변수 생성이다.먼저  해제사유발생일에 결측값이 나타난다는 것은 해제사유발생일이 아직 발생하지 않았다는 의미이기에계약이 가결된 것을 의미한다. 반대로 값이 존재한다면 그 계약은 해제 됐음을 의미한다.우리는 가결된 아파트 실거래가을 가져오고 싶은 것임을 명심하자먼저 isnull함수를 이용해 해제사유발생일에 ..

카테고리 없음 2024.07.17