의약품 제제공정 DoE 연구에는 통계프로그램이 이용된다. 나는 주로 JMP프로그램을 이용한다.

통계 프로그램을 이용하여 통계 분석을 진행할 때 자주 마주치는 통계용어들을 정리해 볼 것이다.

통계 관련 용어를 알아두면 제약 연구와 통계분석을 진행할때 유용하다.



참고할 사항은.. 통계 전문가가 아니기 때문에, 업무에서 사용할 정도의! 딱 그 수준의 용어 정리이다. 계속 공부하며 업데이트 할 것이지만, 전문적으로 깊이있는 지식은 아니다.

 

DoE

design evaluation

Power analysis

: Power analysis 는 continuous-response model에서 적용 가능하며 Design의 검정력에 대한 분석이다. 변수(parameter)가 DoE design에서 참이 아니라는 귀무가설을 기각할 확률을 나타냅니다.

Fraction of design space plot

: Fraction of Design Space plot 은 예상 Design space 내 예측분산의 분포 비율이며, 예측분산은 좁을수록 DoE design이 적절하게 구성되었다고 판단할 수 있다. fraction space가 0.95일 때 예측분산이 1 이내에 들어오지 않는다면 예측분산이 너무 커진다는 의미이며 분산이 넓은 모델은 DoE Design의 신뢰도가 낮아진다.

 

Statistic analysis

Distribution analysis

: Distribution의 분포(막대그래프의 전체 분포 모양)를 보고 PP(Process parameter) 및 Response의 분포를 알 수 있다. I-Optimal design, D-Optimal design 등.

Scatter-plot Matrix

: Multivariate analysis(Correlation and Scatter-plot matrix)를 통한 경향성 분석. parameter와 결과값 사이의 경향성을 확인한다.

Outlier analysis

: Outlier analysis를 통하여 outlier 확인(이는 통계분석 시 고려하여 분석한다). Design space를 많이 벗어나는 결과값들을 확인한다.

 

Modeling

R square(결정계수)

추정한 회귀선, 즉 모델식에 유의한 정도.

adjusted R square(수정된 결정계수)

표본의 크기를 고려한 결정계수라고 생각하면 된다. 표본이 커졌을 때, 결정계수가 높아져서 모델이 유의한 것으로 착각하는 것을 견제할 수 있는 지표.

Root Mean Square Error (RMSE)

사전적 의미: 관측값의 불일치도를 나타내기 위해 오차의 제곱을 산술 평균한 값의 제곱근.

모델식을 만들면 예측값을 구할 수 있는데, 그 예측값과 실제값의 차이를 나타내는 지표이다.

P-value

P-Value란 관찰된 데이터의 검정통계량이 귀무가설을 지지하는 정도를 확률로 표현한 것

Analysis of variance

각 집단의 평균과 분산을 비교하여 집단 간에 통계적으로 유의한 차이가 있는지 알 수 있다.  즉, 집단내 평균들의 분산과 관측치들의 분산을 비교하여 모델링의 유의성 확인.

Parameter estimate

표본 집단의 통계량으로 모집단의 특성을 추리하는 절차이다.

VIF(Variance Inflation Factor)-분산팽창지수

다중공선성(multicollinearity)을 측정하는 지표 중 하나이다. 다중공선성이란 회귀분석에서 사용된 모형의 일부 독립변수(설명변수)가 다른 독립변수와 상관 정도가 높아, 데이터 분석 시에 부정적인 영향을 미치는 것을 의미한다. VIF 값이 높으면(10이상, 안전하게는 7이상) 그 변수를 제외하고 재분석을 실시해야 한다.

CQA: Critical quality attribute

CPP (critical process parameter)

: 일반적으로 Response(제약연구에서는 CQA와 연관된 값) 에 영향력을 20% 이상 나타내는 factor 를 로 설정한다.

 

Simulation

OOS

Out of spec

Normal operating ranges (NORs)

3σ에 해당하는 범위를 NOR로 설정한다.

Proven acceptable ranges (PARs)

4.5σ에 해당하는 범위를 PAR로 설정한다

 

통계 프로그램을 이용하여 통계 분석을 진행할 때 자주 마주치는 용어들을 정리해 보았다.

인터넷과 통계관련 자료를 통해 자습한 내용이라 내용이 매우 짧고, 정확하지 않을 수 있다. (교정해야 할 내용은 댓글로 달아주시면 감사하겠습니다.)

통계 관련 용어를 알아두면 제약 연구와 통계분석을 진행할때 유용하다.

통계 용어에만 국한하지 않고, 제약 연구를 진행할 때 품질 관리에 사용되는 전체적인 용어도 정리하면 좋을 것 같다.

의약품 제제 공정 DoE 연구시 사용되는 JMP 프로그램 통계용어 정리