분류 전체보기156 [ Spark ] 빅데이터의 분산 처리와 Map Reduce Data Mining : 대규모 데이터셋에서 패턴, 규칙, 트랜드 등의 유용한 정보를 추출하기 위해 사용되는 과정 지식을 추출하기 위해 데이터는 저장, 관리, 그리고 분석이 수행되어야 함 → 데이터 마이닝의 필요성 데이터 마이닝 ≈ 예측 분석 ≈ 데이터 과학 ≈ 머신 러닝 ≈ 데이터 중심 AI 매우 큰 데이터셋에서 의미 있는 정보를 추출하는 것이 어렵기 때문에 현재 관심받는 연구 분야 주로 확장가능한 알고리즘에 중점을 두는데, 이 때 병렬처리가 필수적으로 요구됨 Descriptive methods ▪ 데이터를 설명하는 사람이 해석할 수 있는 패턴 찾기 ▪ 예: 클러스터링 Predictive methods ▪ 일부 변수를 사용하여 다른 변수의 알려지지 않은 값 또는 미래 값 예측 ▪ 예: 추천 시스템 데이.. 2024. 4. 20. 머신러닝 알고리즘 - Naive Bayes Naive Bayes 나이브 베이즈(Naive Bayes)는 베이즈 정리를 기반으로 하는 확률적 분류 알고리즘 중 하나입니다. 주로 텍스트 분류, 스팸 필터링, 감성 분석 등의 문제에 많이 사용됩니다. 이름에 "Naive(순진한)"라는 말이 붙은 이유는 모든 특성이 독립이라고 가정하기 때문입니다. 확률 (Probability)확률은 어떤 사건이 발생할 가능성을 나타내는 수치입니다. 일반적으로 0부터 1까지의 값을 가지며, 0은 사건이 발생하지 않을 확률이고, 1은 사건이 반드시 발생할 확률을 의미합니다. 확률은 주어진 상황에서 특정 사건이 일어날 가능성을 수학적으로 표현하는 데 사용됩니다. 조건부확률 (Conditional Probability) 조건부확률은 어떤 사건이 특정 조건 아래에서 일어날 확률.. 2023. 12. 29. 머신러닝 알고리즘 - Logistic Regression Logistic Regression [ 비 선형 회귀 ] Linear Regression은 연속형 변수 예를 들어, 주택 가격이나 온도와 같은 연속적인 값을 예측하는데 사용되었다면 Logistic Regression은 불연속적인 데이터 주로 이진 분류 문제에 사용된다. 이진 분류 문제 ? 주어진 입력 변수에 대해 두 개의 클래스 중 하나에 속할 확률을 예측하는 것을 목표로 한다. 예를 들어, 이메일이 스팸인지 아닌지를 예측하는 데 사용된다. 범주형 데이터와 선형 회귀 단순 선형 회귀의 예측 범위가 -inf ~ inf 에 반해 범주형 데이터인 경우 정답의 범위가 0과 1사이 0과 1사이를 벗어나는 예측은 예측의 정확도를 낮추게함 따라서 예측의 결과가 0과 1사이에 위치해야 함 Logistic Regress.. 2023. 12. 18. 머신러닝 알고리즘 - Linear Regression 1. Linear Regression 예측 값을 직선으로 표현하는 모델 예측값 = 편향 + { 계수 * 입력값 } 회귀 직선으로 나타낼 경우, x값의 증감에 따라 예측 값이 증가하는 정도를 알 수 있어서, 해석하기에 용이함 선형 회귀의 평가 실제 값과 예측 값의 차이가 작은 직선이 데이터를 더 잘 표현한다고 할 수 있다. 1. 평균제곱오차-MSE ( Mean Squared Error ) 실제값과 예측값의 차이를 제곱한 후 평균화함 예측값과 실제값 차이의 면적의 평균과 같음 특이값이 많이 존재할 수록 수치가 많이 늘어난다. 2. 평균절대오차 MAE는 예측값과 실제값 간의 절대적인 차이를 나타냄 각 데이터 포인트에서 예측값과 실제값의 차이를 모두 더하고, 그 값을 전체 데이터 포인트 수로 나누어 구함. MA.. 2023. 12. 17. 이전 1 2 3 4 5 6 ··· 39 다음 반응형