인공지능 학습 2일차
파이썬 코드로 학습을 적용하는 함수 fit()를 알게 됐다.
여기서 X의 변수를 독립변수로 생각해야한다.
독립변수는 한 결과 값에 영향을 끼치는 변수들을 칭한다.
Y 는 결과 및 타겟 레이블인 종속변수로 생각하자.
종속변수는 결과 값이라고 칭하지만 예시를 들면 좀더 이해하기 쉽다.
와인 품질에 관한 데이터를 상상해보자
와인의 상태에 따라 품질 등급을 A,B,C,D 로 나눌 수 있다.
그러면 이 와인 등급을 매길만한 변수들은 무엇이 있을까?
포도의 품종, 산도, 온도, 물 등 여러가지 변수들이 등급의 척도가 가능할 것이다.
그럼 여기서 와인의 품질을 정하는 여러 척도들이 독립변수가 될테고
그 척도들의 총 값을 고려하여 품질등급을 정한 A,B,C,D값들이 종속변수가 되는 것이다.
그럼 앞선 코드에서는 구해놓은 독립,종속변수 값의 학습데이터를 FIT()함수로 인공적으로 학습시키는 것이다.
위 코드는 기울기와 Y절편을 구해주는 함수이다.
직선의 방정식 수학 모델은 Y=ax+b #a=기울기 #b=y절편
기울기는 1.25 y절편은 2.75 값이 나왔다.
이제 y=(1.25*x)+(2.75) 형태가 나왔으니 어떤 독립변수x값을 부여해주면 종속변수 y값이 나올테다.
위 코드문에서는 y 값이 9가 나왔으며 위 인공지능 데이터 코드에서는 이제 독립변수 x 값 5을 기입하면 종속변수 y 9를 예측해주는 모델이 만들어진것이다.
위 역시 큰틀에 있어서는 전 코드와 비슷한 맥락이다.
하지만 여기서 차이점은 이전과 달리 훈련데이터와 테스트 데이터를 '적절한' 비율로 나눈 것이다.
불러온 와인 csv파일에서 numpy형식으로 바꿔 독립변수와 종속변수로 할당 한것을 볼 수 있다.
그리고 sklearn.model_selection 라이브러리로 모델을 나누는 기능을 가져왔고 훈련데이터와 테스트할 데이터를 나눠주는 데 여기서 적절한 비율인 테스트데이터 0.2로 설정해줘야 적합성이 유지할 수 있다.
이제 해당 라이브러리를 통해전체 데이터 0.8부분의 훈련데이터와 0.2 부분의 테스트데이터를 학습시켜 보는것이다.
이번에 배운 모델 프로세스가 크게 변하지 않는 인공지능 학습 모델의 큰틀일 것이다. 만약 이해가 쉽지 않는다면 이 부분을 좀더 유심히 살펴볼 필요가 있다.