카테고리 없음

[8일차] 부트 캠프 테크노트

evangeline1245 2024. 7. 16. 00:05

8일차 수집해온 데이터를 집계와 시각화하는 데 도움이 되는 함수를 여럿 알게 됐다. 

차근차근 나열해보자

 

먼저 불러온 데이터의 원형태이다.

이 중 속성 이름을 가지고 원하는 데이터만을 추출할 수 있다.

우선 속성이름을 기준으로 추출할 때는 filter함수를 이용해야 한다.

위 filter함수의 괄호 속 regex는 정규 표현식을 뜻하며 내가 원하는 속성이 "age"라면 그 자체를 기입하여 "age"만 특정 하여 추출 가능하다.

또한 원하는 글자열이 포함된 속성들만 필터링 이 가능하며 표현 형식은 이러하다.

위 속성 중 e로 마쳐지는 'age'와'exercise'를 문자열 끝으로 하여금 추출한 기능이다.

만약 성적관련 데이터를 받았을 떄 'SCORE$'를 regex에 기입한다면 점수만 보여지도록 필터링이 될것이다.

위는 데이터 중 숫자로만 이루어진 데이터들의 속성들만 고른 함수 표현이다.

당연히 문자 데이터만 출력도 가능하다. 이건 필터링하는 작업이 아닌 데이터타입으로 구별을 하기에 select_dtype을 잊지말자.

#######

조건 설정으로 데이터를 출력할수있다.

먼저 bool타입 true / false 값의 식을 만들어진다.

위처럼 'age' 행의 데이터들 중 30 이하 값들은 모두 TRUE값을 가지게 된다.

그후  변수에 넣어서 loc 함수로 응용하면 30이하 나이의 데이터들만 출력하게 된다.

 

두 조건을 만들고 & 을 이용하여 결합하는 형태도 있으며 

좀더 길게 중괄호 안에 두 조건문을 넣는 형태도 존재한다.

 

위 함수는 숫자열 변수인 속성 'math score' 에서 80~90사이 값을 포함한 데이터를 출력하는 함수이다.

inclusive=방향은 , 를 기준으로 포함하는 수를 표시한다 생각하자.

 

위 함수들은 상위 관측치 하위 관측치를 출력하는 함수이며, 앞쪽 n은 표시할 갯수를 의미한다.

 

위는 중복값들을 없애고 출력하는 함수이며 생략할 중복값은 뒤차례값들을 가려준다,

 

위 함수는 데이터 정렬을 돕는 함수이며 유의점은 오름차순의 함수가 있지만 내림차순의 함수는 없어 ascending 으로 내림차순을 지정해줘야한다.

 

이제 수치형  관측 들을 집계하는 함수를 알아보자

먼저 평균, 합계, 분산 및 표준편차, 중간값, 관측치 수 등을 집계 가능하다.

 

새로운 라이브러리 seaborn 은 시각화에 있어서 효과적인 라이브러리로  알아두면 용이하다.

seaborn 라이브러리 로 표현한 히스토그램 식이다. 등간격과 막대의 분간 경계선이 표현돼 가독성이 매우 좋다.

 

4분위수로 표현한 수치 데이터

 

위는 박스플랏이며 유의할 점은 , 뒤쪽 x 와 y=으로 표현할 축을 지정할 수있다.