본문 바로가기
카테고리 없음

로지스틱 회귀분석이란 무엇인가요?

by 이찬아빠 2023. 7. 12.

 

목 차

로지스틱회귀분석
로지스틱회귀분석

통계 분석의 세계가 궁금하세요? 그렇다면 잘 찾아오셨습니다. 이 블로그 게시물에서는 로지스틱 회귀 분석의 매혹적인 세계를 탐구합니다. 이 통계 기술에 대한 입문을 원하는 초보자이든, 복습을 원하는 숙련된 데이터 과학자이든 상관없이 모든 것을 알아보겠습니다. 기계 학습 및 예측 모델링 분야에서 로지스틱 회귀는 범주형 결과를 분석하고 예측하는 강력한 도구입니다. 의료, 금융, 마케팅, 사회과학 등 다양한 분야에서 널리 사용되고 있습니다. 이 글에서, 우리는 로지스틱 회귀의 기초를 분해하고, 그 근본적인 개념을 설명하고, 그 실용적인 응용을 설명할 것입니다.

 

1. 로지스틱 회귀 분석이란 무엇 입니까?

로지스틱 회귀 분석은 하나 이상의 독립 변수와 이항 또는 범주형 종속 변수 사이의 관계를 분석하는 데 사용되는 통계 모형화 기법입니다. 연속적인 결과를 예측하는 선형 회귀 분석과 달리 로지스틱 회귀 분석은 사건이 발생할 확률을 예측합니다. 종속 변수는 종종 0 또는 1로 인코딩 되어 각각 결과의 부재 또는 존재를 나타냅니다.

 

 

로지스틱 회귀 분석을 이해하기 위해 예를 들어 보겠습니다. 고객이 연령, 성별, 사용 패턴 등 다양한 고객 속성을 기반으로 구독 서비스를 포기(탈퇴)할지 여부를 예측하려고 합니다. 로지스틱 회귀 분석은 이러한 변수와 변동 가능성 사이의 관계를 모형화하는 데 도움이 됩니다. 로지스틱 회귀 분석에서는 로지스틱 함수(Sigmoid 함수라고도 함)를 사용하여 출력을 0과 1 사이의 확률 점수로 변환합니다. 이 확률은 입력 변수가 주어졌을 때 특정 결과가 발생할 가능성을 나타냅니다. 적절한 임계값을 설정함으로써 예측된 확률에 따라 관측치를 다른 범주로 분류할 수 있습니다.

 

2. 로지스틱 회귀 분석의 가정

다른 통계적 기법과 마찬가지로 로지스틱 회귀 분석에서는 신뢰할 수 있는 결과를 얻기 위해 충족해야 하는 일련의 가정을 제공합니다. 이러한 가정을 이해하는 것은 정확한 해석과 의사 결정에 매우 중요합니다. 로지스틱 회귀 분석의 주요 가정을 살펴 보겠습니다.

 

2-1. 세개 이상의 범주 필요

로지스틱 회귀 분석에는 이항 또는 범주형 종속 변수가 필요합니다. 결과 변수에 세 개 이상의 범주가 있는 경우 다항식 또는 순서형 로지스틱 회귀 분석이 적합할 수 있습니다.

2-2. 관측치의 독립성

로지스틱 회귀 분석에서는 관측치가 서로 독립적이라고 가정합니다. 관측치가 군집화되거나 상관 관계가 있는 경우 혼합 효과 로지스틱 회귀 분석과 같은 특수 기술을 사용할 수 있습니다.

2-3. 예측 변수-로짓 관계의 선형성

로지스틱 회귀 분석에서는 결과의 로짓(로짓)과 예측 변수 사이의 선형 관계를 가정합니다. 선형성을 확인하는 것이 필수적이며, 이를 위반할 경우 적절한 변환 또는 비선형 모형이 필요할 수 있습니다.

2-4. 다중 공선성 없음

로지스틱 회귀 분석에서는 독립 변수 간에 높은 상관 관계가 없다고 가정합니다. 다중 공선성은 불안정한 계수 추정치를 초래하고 모형의 해석 가능성에 영향을 미칠 수 있습니다. 적절한 표본 크기: 신뢰할 수 있는 모수 추정을 보장하기에 충분한 표본 크기로 로지스틱 회귀 분석이 가장 잘 수행됩니다. 경험에 비추어 볼 때 과적합을 방지하려면 예측 변수당 10개 이상의 사건이 권장됩니다.

 

3. 로지스틱 회귀 분석의 실용적 적용

로지스틱 회귀 분석의 기본 사항과 가정을 이해했으므로, 이제 서로 다른 영역에 걸쳐 적용되는 실용적인 방법을 알아보겠습니다.

 

 

로지스틱 회귀 분석에서 광범위하게 사용되는 항목은 다음과 같습니다.

3-1 마케팅에서의 예측 분석

로지스틱 회귀 분석은 마케팅 담당자가 제품을 구매하거나 캠페인에 대응할 가능성과 같은 고객 행동을 예측하는 데 도움이 됩니다. 이는 적절한 고객을 대상으로 하고 마케팅 전략을 최적화하며 투자 수익률을 극대화하는 데 도움이 됩니다.

3-2. 의료 연구 및 의료

로지스틱 회귀는 질병 결과를 예측하거나 위험 요소를 식별하는 등 의료 연구에서 중요한 역할을 합니다. 의료 전문가가 정보에 입각한 의사 결정을 내리고, 치료 효과를 평가하고, 환자 관리를 개선할 수 있도록 지원합니다.

3-3. 신용위험평가

로지스틱 회귀모형은 금융에서 신용위험을 평가하기 위해 널리 사용됩니다. 소득, 신용 이력 및 인구 통계와 같은 다양한 요인을 분석하여 대출 기관은 채무 불이행의 가능성을 판단하고 정보에 입각한 대출 결정을 내릴 수 있습니다.

 

이 블로그 글에서는 로지스틱 회귀 분석의 기초를 살펴봤습니다. 로지스틱 회귀 분석이 선형 회귀 분석과 어떻게 다른지, 그리고 어떻게 범주형 결과의 확률을 예측하는지 알아봤습니다.