본문 바로가기

빅데이터분석10

[빅데이터분석] 7장. 클러스터링 클러스터링클러스터 분석(Cluster Analaysis)클러스터: a collection of data objects서로 유사한 데이터 객체들은 같은 그룹(클러스터)에 속함서로 유사하지 않는 객체들은 서로 다른 그룹(클러스터)에 속함클러스터 분석데이터 간 유사도(distance)를 측정하여 유사한 데이터 객체들을 같은 클러스터에 할당하는 작업사전 정의된 클래스가 없는 대표적인 비지도 학습 기법 중 하나전처리 목적의 클러스터링요약(Summarization): Preprocessing for regression, PCA, classification, and associate analysis이상치 발견(Outlier detection): Outliers are often viewed as those "far .. 2024. 6. 9.
[빅데이터분석] 6장. 분류(2) 베이즈 분류(Bayes Classification)Bayes Classifier (베이즈 분류기)가장 단순한 지도 학습(supervised learing) 중 하나분류 문제를 해결하기 위한 확률적 프레임워크(probabilistic framework)베이즈 정리에 기반한 방법으로, 사후확률 계산 시 조건부 독립을 가정하여 계산을 단순화한 방법조건부 독립의 가정이 비현실적임 → hard assumption조건부 확률(Conditional probability)베이즈 정리(Bayes theorem)두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리베이즈 확률론 해석에 따르면 베이즈 정리는 사전확률로부터 사후확률을 구할 수 있음베이지안 분류기 (Bayesian Classifiers)각 속성과 .. 2024. 6. 8.
[빅데이터분석] 5장. 분류(1) 분류의 개념 분류training data set의 속성들의 값을 입력으로 받아 class를 출력으로 하는 모델을 발견하는 작업(각 레코드는 속성들의 집합으로 구성되며, 속성 중 하나는 class 임)목표: class가 없는 레코드를 대상으로 class를 부여하는 것test data set은 모델의 정확도를 평가하는데 사용, training data set은 모델을 훈련시키는 데 사용.일반적으로 전체 data set을 traning data set과 test data set으로 분류하여 사용classification techniques: decision trees, naive bayes, k-Nearest neighbor methods, support vector machines, rule-based me.. 2024. 6. 8.
[빅데이터분석, R] 연관 분석 Grocery Data Set Grocery Data Set 개요 10개의 아이템 Shopping bags, milk, vegetables, bread, soda, yogurt, water, tropical fruit, sausage, pastry 100개의 트랜잭션 데이터 로딩 read.transaction() arules 패키지 내에서 데이터는 트랜잭션으로 처리 파일로부터 트랜잭션 형태로 데이터를 로딩하는 함수 inspect(): 트랜잭션 데이터의 내용을 출력하는 함수 groceries 2024. 4. 21.
[빅데이터분석, Python] 연관 분석 (Assocination Analysis) 연관분석 실습 목적 목적: 트랜잭션 데이터에서 상품 간의 관계를 찾아낸다. 알고리즘: Apriori 알고리즘 데이터셋: Online Retail Dataset은 온라인 소매점에서의 거래 데이터를 가진 데이터셋으로, 각 거래는 고객이 구매한 상품의 목록을 포함하고 있다. 사용 예시: 주로 장바구니 분석 (Market Basket Analysis)에 사용되며, 상품 추천 시스템 등 라이브러리 가져오기 import pandas as pd from mlxtend.preprocessing import TransactionEncoder from mlxtend.frequent_patterns import apriori from mlxtend.frequent_patterns import association_rules.. 2024. 4. 21.
[빅데이터분석, Python] 전처리(Data-Preprocessing) 데이터셋 다운로드 import pandas as pd import numpy as np df = pd.read_csv( 'https://raw.githubusercontent.com/TeamLab/machine_learning_from_scratch_with_python/master/code/ch12/titanic/train.csv') 타이타닉 데이터셋: 전처리 연습에 많이 사용한다. 문자열 치환 머신러닝 알고리즘은 문자열을 처리하지 못하기 때문에 문자열을 수치형으로 변환해줄 필요가 있다. 문자열 치환 방법 라벨 인코딩: 특정 문자열 데이터를 정수와 매칭하여 단순 변환하는 방식으로 대소 관계에 영향을 주기 때문에 설명 변수에는 잘 사용하지 않는다. 원핫 인코딩: 유일한 문자열의 개수만큼 컬럼을 생성하여 .. 2024. 4. 21.