scikit-learn에는 모델을 학습시킬 때 fit 이라는 메소드를 사용합니다.
문득 왜 fit 이라는 단어를 사용하지 궁금해져서 찾아봤습니다. fit이라는 말이 별로 와닿지 않았거든요. 'fit이 좋다 할 때 그 fit인가..' 이런 생각이나 하면서
scikit-learn 공식 홈페이지에 가면 이런 말이 있습니다.
"Scikit-learn provides dozens of built-in machine learning algorithms and models, called estimators. Each estimator can be fitted to some data using its fit method."
scikit-learn은 estimator라고 하는 머신러닝 알고리즘과 모델을 제공합니다. estimator는 fit 메소드를 사용해 데이터에 estimator를 맞추게 됩니다.
estimator를 데이터에 맞추었다면 estimator는 새로운 데이터에 대한 예측에 사용할 수 있게 됩니다. 이 때 scikit-learn에선는 predict 메소드를 사용합니다.
결론
scikit-learn은 머신러닝이 데이터에 머신러닝 모델을 맞추는 것(fit)임을 말하고 싶은 거 같습니다. fit, estimator, predict와 같은 용어가 scikit-learn이 머신러닝을 바라보는 관점을 말하고 있습니다.
머신러닝에는 일반화 선형 모델(GLM), 의사 결정 트리(Decision trees), Deep Learning과 같은 다양한 모델이 있습니다. 머신러닝 모델을 학습시킨다는 것은 정답을 최대한 맞출 수 있도록(estimate) 최적화한다는 의미입니다. 데이터에 맞는 모델을 선택하는 게 중요하고 무엇보다 중요한 건 데이터라는 생각이 듭니다. 모델로 부터 데이터 그 이상의 것은 나올 수 없으니까요.
'Machine Learning' 카테고리의 다른 글
딥러닝 개발 환경 구축하기 (0) | 2022.01.07 |
---|---|
테슬라가 데이터를 다루는 법, 딥러닝을 차별화 하는 데이터 품질 (0) | 2021.04.28 |
딥러닝에서 중요한 것 (0) | 2021.02.01 |