카테고리 없음

[19일차] 부트 캠프 테크 노트

evangeline1245 2024. 8. 1. 18:22

인공지능 학습 2일차 

파이썬 코드로 학습을 적용하는 함수 fit()를 알게 됐다.

 

여기서  X의 변수를 독립변수로 생각해야한다.

독립변수는 한 결과 값에 영향을 끼치는 변수들을 칭한다. 

Y 는 결과 및 타겟 레이블인 종속변수로 생각하자.

종속변수는 결과 값이라고 칭하지만 예시를 들면 좀더 이해하기 쉽다.

 

와인 품질에 관한 데이터를 상상해보자

와인의 상태에 따라 품질 등급을 A,B,C,D 로 나눌 수 있다.

그러면 이 와인 등급을 매길만한 변수들은 무엇이 있을까?

포도의 품종, 산도, 온도, 물 등 여러가지 변수들이 등급의 척도가 가능할 것이다.

그럼 여기서 와인의 품질을 정하는 여러 척도들이 독립변수가 될테고

그 척도들의 총 값을 고려하여 품질등급을 정한 A,B,C,D값들이 종속변수가 되는 것이다.

 

 

그럼 앞선 코드에서는 구해놓은 독립,종속변수 값의 학습데이터를 FIT()함수로 인공적으로 학습시키는 것이다.

 

위 코드는 기울기와 Y절편을 구해주는 함수이다. 

직선의 방정식 수학 모델은 Y=ax+b    #a=기울기 #b=y절편

기울기는 1.25 y절편은 2.75 값이 나왔다. 

이제 y=(1.25*x)+(2.75) 형태가 나왔으니 어떤 독립변수x값을 부여해주면 종속변수 y값이 나올테다.

위 코드문에서는 y 값이 9가 나왔으며 위 인공지능 데이터 코드에서는 이제 독립변수 x 값 5을 기입하면 종속변수 y  9를 예측해주는 모델이 만들어진것이다.

 

위 역시 큰틀에 있어서는 전 코드와 비슷한 맥락이다.

하지만 여기서 차이점은 이전과 달리 훈련데이터와 테스트 데이터를  '적절한' 비율로 나눈 것이다.

불러온 와인 csv파일에서 numpy형식으로 바꿔 독립변수와 종속변수로 할당 한것을 볼 수 있다.

그리고  sklearn.model_selection 라이브러리로 모델을 나누는 기능을 가져왔고 훈련데이터와 테스트할 데이터를 나눠주는 데 여기서 적절한 비율인 테스트데이터 0.2로 설정해줘야 적합성이 유지할 수 있다.

이제 해당 라이브러리를 통해전체 데이터 0.8부분의 훈련데이터와 0.2 부분의 테스트데이터를 학습시켜 보는것이다.

 

 

이번에  배운 모델 프로세스가 크게 변하지 않는 인공지능 학습 모델의 큰틀일 것이다. 만약 이해가 쉽지 않는다면 이 부분을 좀더 유심히 살펴볼 필요가 있다.