Lab & Research26 TabNet Introduction TabNet은 2019년에 Google Research에서 발표한 딥러닝 기반의 트리 구조 모델로, 특히 Tabular Data 형태의 데이터에 최적화된 모델. TabNet은 Gradient-based Learning을 통해 최적화되며, 주요 특징으로 해석 가능성과 효율성을 들 수 있음 이름생년월일국어 점수영어 점수수학 점수홍길동1992년7월17일100점90점70점희동이1992년4월3일90점100점100점Tabular Data 예시 Tabular Data과 딥러닝은 다른 데이터 셋 ( Raw형 데이터 셋, 이미지, 영상 .. ) 과 비교하여 효과적인 성능을 보여주지 못하는 추세로, 비정형 데이터를 활용한 딥러닝을 사용하거나 feature engineering에 집중하여 머신 러닝.. 2024. 8. 4. 머신러닝 알고리즘 - KNN & SVM KNN KNN은 사례 기반 학습 중 하나로 별도의 모델 생성 없이 인접 데이터를 분류/예측하는데 사용할 수 있다.Lazy Learning : 모델을 미리 만들지 않고, 새로운 데이터가 들어오면 계산을 시작KNN, Native Bayes데이터로부터 모델을 생성하고 분류/예측하는 것은 Model-Based Learning 이라고 한다. K-Nearest Neighbors : K 개의 가까운 이웃을 찾고, 학습 데이터 중 K개의 가장 가까운 사례를 사용하여 분류 및 수치를 예측한다. 알고리즘 동작 방식새로운 데이터를 입력모든 데이터들과의 거리를 계산가장 가까운 K개의 데이터를 선택K개의 데이터의 클래스를 확인함다수의 클래스를 새로운 데이터의 클래스로 예측함 KNN에서는 알맞은 K를 선정하는 것이 KN.. 2024. 6. 21. 머신러닝 알고리즘 - Boosting Boosting 부트스트랩 샘플(무작위 표본 추출 시행)을 추출하는 과정에서 각 자료에 동일한 확률을 부여하는 것이 아니라 분류가 잘못된 데이터에 더 큰 가중을 주어 표본을 추출한다.약 분류기를 순차적으로 학습하는 앙상블 기법예측을 반복하면서 잘못 예측한 데이터에 가중치를 부여하여 오류를 개선 > Bagging : 무작위 복원 추출로 부트스랩 샘플을 추출함> Boosting : 부트스트랩 샘플을 추출하는 과정에서 각 자료의 동일한 확률을 부여하는 것이 아니라 분류가 잘못된 데이터에 더 큰 가중을 두어 표본을 추출함 Boosting의 종류AdaBoostGradient BoostXG Boost [1] AdaBoost ( Adaptive Boosting )간단한 약 분류기들이 상호보완하도록 순차적으로 학.. 2024. 6. 21. 머신러닝 알고리즘 - Naive Bayes Naive Bayes 나이브 베이즈(Naive Bayes)는 베이즈 정리를 기반으로 하는 확률적 분류 알고리즘 중 하나입니다. 주로 텍스트 분류, 스팸 필터링, 감성 분석 등의 문제에 많이 사용됩니다. 이름에 "Naive(순진한)"라는 말이 붙은 이유는 모든 특성이 독립이라고 가정하기 때문입니다. 확률 (Probability) 확률은 어떤 사건이 발생할 가능성을 나타내는 수치입니다. 일반적으로 0부터 1까지의 값을 가지며, 0은 사건이 발생하지 않을 확률이고, 1은 사건이 반드시 발생할 확률을 의미합니다. 확률은 주어진 상황에서 특정 사건이 일어날 가능성을 수학적으로 표현하는 데 사용됩니다. 조건부확률 (Conditional Probability) 조건부확률은 어떤 사건이 특정 조건 아래에서 일어날 확률.. 2023. 12. 29. 이전 1 2 3 4 ··· 7 다음 반응형