-
Linear Regression: Modeling and Evaluation with Advertising Dataset 선형회귀 모델다변량 데이터 2023. 5. 7. 17:03
Linear Regression
Linear Model
선형 모델 : 전형적인 모수 모델
f(x) = ax + b
선형모델은 x를 이용해 y를 예측하는 것이고 여러개의 점을 대표할 수 있는 line 을 찾는 것
1. Linear Regression
-기본적인 트레이닝과 테스트 케이스의 학습구조
실제 데이터 - 예측모델의 값이 최소화가 되는 선을 찾아야 한다. 선형 모델을 우리는
다음과 같은 식으로 정리하는데, 차이를 최소화 시킬 수 있는 B0 과 B1을 찾는것이 목표
식 유도 과정을 통해 다음과 같이 정리할 수 있다.
Multiple Linear Regression
선형 모델이 아닌 고차함수를 통해서 구현하고자 할때, 행렬의 연산을 사용해서 식을 일반화 시킨다.
식을 유도하는 과정은 다음과 같다.
다양한 오류 측정
1.MSE : Mean Squared Error
2.RMSE : 루트 ( MSE)
3.R-squared
X가 Y를 얼마나 잘 설명하는지 나타내는 지표. 결정 계수는 0~1 사이의 값을 가지며, 1에 가까울수록 모델이 더 잘 예측한다는 것을 의미
이 지표들은 훈련세트와 테스트 세트 모두 적용 가능
example : 광고 매체를 통한 데이터 set
Advertising 데이터 세트
Advertising 데이터셋은 라디오, TV 및 신문 등 다양한 채널에 대한 광고 비용과 관련된 매출 수익을 포착한다. 광고 예산이 전반적인 판매에 미치는 영향을 이해하는 것이 필요. TV, 라디오 및 신문 광고 비용에 따라 제품의 판매를 설명하는 회귀 문제이다.
식은 "Sales = beta0 + beta1 * TV + beta2 * Radio + beta3 * Newspaper + error" 로 나타낼 수 있으며, 총 200개의 샘플이 있다. 100개의 샘플은 학습용으로 임의로 선택되고, 나머지 100개의 샘플은 테스트용으로 사용된다. 이 데이터셋은 회귀 모델링을 연습하고 성능 지표인 MSE와 R2를 계산하는 데 유용합니다.a.Linear Model 1
b.Multiple Model 2
- 모델 2가 모델 1보다 더 유연한 모델이다. 즉, TV 광고 비용 외에도 Radio와 Newspaper 광고 비용을 더 고려한다는 의미이다.
- 모델 2가 모델 1보다 훈련 세트에서 더 나은 성능을 보였다. MSE 값이 더 작고 R2 값이 더 높았다.
- 모델 2가 테스트 세트에서도 더 나은 성능을 보였다. MSE 값이 더 작고 R2 값이 더 높았다.
- 모델 선택은 테스트 세트를 보지 않고 어떤 모델이 더 좋은 성능을 보일지 결정하는 것이다. 이는 모델 선택 기법을 사용하여 수행할 수 있다.
MSE 는 0에 가까울수록 예측 성능이 높고 , R2는 1에 가까울수록 예측성공이 높다.
One - hot Encoding
기계 학습에서 class 나 범주형 값들을 표현하는 기본 방법중 하나.
더미변수 표현과 유사 , 딥러닝등, 인공지등 분야에서 많이 사용
해당 단어의 위치에 해당하는 인덱스를 1로 표현해 범주형 데이터를 수치형으로 변환'다변량 데이터' 카테고리의 다른 글
기초 통계와 T-통계: 가설 검정과 신뢰구간의 이해 (0) 2023.05.07 MSE, KNN, 비모수알고리즘, (1) 2023.04.27 다변량 데이터 분석 - population , sample, complexity model , Types of Machine Learing (0) 2023.04.27