ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Linear Regression: Modeling and Evaluation with Advertising Dataset 선형회귀 모델
    다변량 데이터 2023. 5. 7. 17:03

    Linear Regression

    Linear Model

    선형 모델 : 전형적인 모수 모델

    f(x) = ax + b

    선형모델은 x를 이용해 y를 예측하는 것이고 여러개의 점을 대표할 수 있는 line 을 찾는 것

    1. Linear Regression

    -기본적인 트레이닝과 테스트 케이스의 학습구조

    실제 데이터 - 예측모델의 값이 최소화가 되는 선을 찾아야 한다. 선형 모델을 우리는

    다음과 같은 식으로 정리하는데, 차이를 최소화 시킬 수 있는 B0 과 B1을 찾는것이 목표

    식 유도 과정을 통해 다음과 같이 정리할 수 있다.

    Multiple Linear Regression

    선형 모델이 아닌 고차함수를 통해서 구현하고자 할때, 행렬의 연산을 사용해서 식을 일반화 시킨다.

    식을 유도하는 과정은 다음과 같다.

    다양한 오류 측정

    1.MSE : Mean Squared Error

    2.RMSE : 루트 ( MSE)

    3.R-squared

    X가 Y를 얼마나 잘 설명하는지 나타내는 지표. 결정 계수는 0~1 사이의 값을 가지며, 1에 가까울수록 모델이 더 잘 예측한다는 것을 의미

    이 지표들은 훈련세트와 테스트 세트 모두 적용 가능

     

    example : 광고 매체를 통한 데이터 set

     

    Advertising 데이터 세트

    Advertising 데이터셋은 라디오, TV 및 신문 등 다양한 채널에 대한 광고 비용과 관련된 매출 수익을 포착한다. 광고 예산이 전반적인 판매에 미치는 영향을 이해하는 것이 필요. TV, 라디오 및 신문 광고 비용에 따라 제품의 판매를 설명하는 회귀 문제이다.
    식은 "Sales = beta0 + beta1 * TV + beta2 * Radio + beta3 * Newspaper + error" 로 나타낼 수 있으며, 총 200개의 샘플이 있다. 100개의 샘플은 학습용으로 임의로 선택되고, 나머지 100개의 샘플은 테스트용으로 사용된다. 이 데이터셋은 회귀 모델링을 연습하고 성능 지표인 MSE와 R2를 계산하는 데 유용합니다.

     

    a.Linear Model 1

    b.Multiple Model 2

    • 모델 2가 모델 1보다 더 유연한 모델이다. 즉, TV 광고 비용 외에도 Radio와 Newspaper 광고 비용을 더 고려한다는 의미이다.
    • 모델 2가 모델 1보다 훈련 세트에서 더 나은 성능을 보였다. MSE 값이 더 작고 R2 값이 더 높았다.
    • 모델 2가 테스트 세트에서도 더 나은 성능을 보였다. MSE 값이 더 작고 R2 값이 더 높았다.
    • 모델 선택은 테스트 세트를 보지 않고 어떤 모델이 더 좋은 성능을 보일지 결정하는 것이다. 이는 모델 선택 기법을 사용하여 수행할 수 있다.

    MSE 는 0에 가까울수록 예측 성능이 높고 , R2는 1에 가까울수록 예측성공이 높다.

    One - hot Encoding

    기계 학습에서 class 나 범주형 값들을 표현하는 기본 방법중 하나.

    더미변수 표현과 유사 , 딥러닝등, 인공지등 분야에서 많이 사용
    해당 단어의 위치에 해당하는 인덱스를 1로 표현해 범주형 데이터를 수치형으로 변환

Designed by Tistory.