데이터 전처리 마지막 과정.
미니 프로젝트를 진행했다.
가장 먼저 데이터 불러오기
여기서 중요한점은 skiprows와 encoding이다
가져올 csv파일에는 한글변수가 존재하기에 올바르게 읽어 오려면 encoding=cp949를 넣어줘야하고
가져와야 할 데이터는 17행부터 시작하기에 skiprows로 불필요한 16개의 행을 날린 후 읽어왔다.
올바르게 읽어온 데이터 파일이다.
다음 문제 결측값과 파생변수 생성이다.
먼저 해제사유발생일에 결측값이 나타난다는 것은 해제사유발생일이 아직 발생하지 않았다는 의미이기에
계약이 가결된 것을 의미한다. 반대로 값이 존재한다면 그 계약은 해제 됐음을 의미한다.
우리는 가결된 아파트 실거래가을 가져오고 싶은 것임을 명심하자
먼저 isnull함수를 이용해 해제사유발생일에 true/false값을 구별한다.
아마 가결된 항목들은 null의 형태 이기에 true 값이 나오고 해제발생일 값이 존재하면 false으로 표현 될테다.
value_count() 를 이용하여 가결된 실거래 아파트들은 총 11963채 임을 알 수 있다.
이제 이 가결된아파트로 데이터를 다루면 된다.
위가 가결된 아파트 데이터들이다. 행갯수 11963개 가결된 숫자와 동일하다.
이제 새로운 속성('평당거래 금액')을 만들어 준다.
target의 조건은 시군구 별* '평균거래금액'의 평균이 높은 지역 5가지이다.
target의 조건을 만들기위해 먼저 시군구*그룹별 평당거래금액에 평균값을 구해준다.
그런다음 nlargest로 상위 5개를 뽑고 target에 적용하면 target조건은 만들어지게 된다.
그런다음 isin함수를 통하여 먼저 원 데이터의 시군구에서 target의 '시군구'에 속하는 관측치인지 추려내주고
거래유형역시 같은 방법으로 중거거래에 속한 관측치를 추려 &로 함수로 묶어 복합 조건문을 간단히 도출해주면 된다.
다음 데이터 집계로 단지명을 기준으로 새로운 열속성들을 만들고 해당 집계값을 넣어주는 작업이다.
번거롭게 일일히 count로 집계값을 할당해줬지만, agg함수로 한번에 깔끔하게 추리는 방법 또한 존재하다
그런다음 merge()함수로 통해 열방향으로 데이터를 붙여주고
colums로 열이름을 재정의 해준 뒤 sort valuers로 조건부 정렬을 도와주면 프로젝트 작업이 끝나게된다.
이것이 2022년 서울 아파트 가장 많이 팔린 15개의 단지의 평당 거래가와 최대거래금액 최소금액을 전처리한 결과 물이다.
정말 내가 몇 천개의 데이터를 정제하여 유의미한 결과물을 만들거라고 생각치 못했다..
프로젝트를 하면서도 막히는 부분이 있고 정체된 구간이 생겼다.
하지만 결과물을 보니 열심히 따라가고 있음을 확인받은 기분이 든다.