Fashion Recommendation System [Data Information] Data Source: https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=78 Raw Data Type :...
군집분석(Cluster Analysis)
군집분석 군집분석은 각 객체의 유사성을 측정하여 유사성이 높은 대상의 집단을 분류하는 분석 방법이다. 사전에 집단을 모른채로 진행하기 때문에 비지도학습에 속한다. 계층적 군집방법 전통적인 군집분석 방법으로 군집의 개수를 마지막에 선정한다. 가장 유사한 개체를 묶어 나가는 과정을 반복하여 원하는 개수의 군집을 형성하는 방법이다. 계층적 군집을 형성하는...
SVM(Support Vector Machine)
서포트벡터머신 서포트 벡터 머신은 선형이나 비선형 분류, 회귀, 이상치 탐색에 사용할 수 있는 다목적 머신러닝 모델이다. 복잡한 분류 문제에 특히 유용하며 작거나 중간 크기의 데이터에 적합하다. 또한 서포트 벡터 머신은 비확률적 이진 선형 분류 모델을 생성한다. 데이터가 사상된 공간에서 경계로 표현되며, 공간상에 존재하는 여러 경계 중 가장 큰 폭을 ...
앙상블(Ensemble)
앙상블 여러 개의 예측모형들을 만든 후 예측모형들을 조합하여 하나의 최종 예측모형을 만드는 방법으로 다중 모델 조합, 분류기 조합이 있다. 앙상블 기법 배깅(Bagging) 주어진 자료에서 여러 개의 붓스트랩(bootstrap)을 생성하고 각 붓스트랩 자료에 예측모형을 만든 후 결합하여 최종 예측모형을 만드는 방법이다. ...
주성분분석(Principal Component Analysis)
주성분분석 여러 특성(feature) 가운데 대표 특성을 찾아 분석하는 방식으로, 자료의 차원을 고차원에서 하위 차원으로 축소하는 차원축소 기법을 활용한다. 분산, 차원축소를 위한 주성분의 선택 기준 차원축소를 위한 정사영의 시작은 무엇을 기준으로 선택되는 걸까? 선택에 따라 데이터의 실제 특성을 보존할 수도 있고, 잃을 수도 있다. 주성분 선택에 ...
K-NN(K-Nearest Neighbors)
최근접 이웃 최근접 이웃 알고리즘은 예측하려고 하는 임의의 데이터와 가장 가까운 거리의 데이터 K개를 찾아 다수결에 의해 데이터를 예측하는 방법이다. 그룹으로 나뉜 데이터가 있을 때 주어진 임의의 데이터가 어느 그룹에 속할 것인지를 K-NN 알고리즘으로 풀 수 있다. 임의의 데이터로부터 가장 가까운 K개 데이터들이 더 많이 속한 그룹으로 임의의 데이...
의사결정나무(Decision Tree)
의사결정나무 전체 집단을 계속 양분하는 분류기법으로써 분기가 발생하는 노드에는 기준이 되는 질문이 있어 기준 질문에 부합하냐, 부합하지 않느냐에 따라 노드 이동의 방향이 결정된다. 분류(classification)와 회귀(regression) 예측이 모두 가능한 알고리즘이다. 분류나무 모형은 불연속적(이산형)인 값을 예측한다. 회귀나무 모형은 연속적인...
연관규칙분석(Association Rule Analysis)
연관분석 대량의 트랜잭션 정보로부터 개별 데이터 사이에서 연관규칙(x면 y가 발생)을 찾는 것이다. 가령 슈퍼마켓의 구매내역에서 특정 물건의 판매 발생 빈도를 기반으로 ‘A 물건을 구매하는 사람들을 B 물건을 구매하는 경향이 있다’ 라는 규칙을 찾을 수 있다. 다른 말로는 장바구니 분석(Market Basket Analysis)라고 한다. 연관규...
정규 표현식을 활용한 패턴 매칭과 대체
정규 표현식을 활용한 패턴 매칭과 대체 PostgreSQL은 정규식 일치의 경우 ~를 사용하며 정규식 형식은 POSIX 정규식 표준을 따른다. ~는 similar to를 의미한다. 정규표현식 0~9 숫자 중 하나 이상의 숫자를 포함한 경우 light, light, lights, light, lights, 문자가 포함된 경우 SEL...
IN, NOT IN
Red, Orange, Yellow, Green, Blue, Purple, White UFO를 목격한 설명이 담긴 description 컬럼에서 각 문장의 첫 단어가 색상으로 시작하는 값들만을 조회한다. SELECT * FROM ( SELECT SPLIT_PART(description, ' ', 1) AS first_word...