전체 글

방문해 주셔서 감사합니다.
boostcamp AI Tech/추천 시스템

[RecSys] 추천 시스템에 Deep Learning 활용하기 1

앞서 포스팅한 내용처럼 추천 시스템에는 여러가지 이유로 고전적인 ML 모델을 주로 활용했음 실제로 현재도 ML 모델들이 많이 활용되고 있음 그럼에도 불구하고 추천시스템에서 딥러닝을 활용하는 이유 1. Nonlinear Transformation - 복잡한 user-item 상호작용을 효과적으로 모델링하고 user의 선호도 예측 (XOR 해결 가능) 2. Representation Learning - 사람이 직접 feature design 안 해도 됨, 텍스트/이미지/오디오 등 활용 가능 3. Sequence Modeling - 딥러닝은 NLP, 음성 신호 처리 등 Sequential modeling Task에 잘 적용됨 - 이는 추천 시스템에서 next-item prediction, session-bas..

boostcamp AI Tech/추천 시스템

[RecSys] Item2Vec and ANN

Item2Vec은 NLP 분야에서 활용된 Word2Vec에서 Word 대신 Item을 사용해서 추천 시스템에 적용시킨 기법이다. 따라서, Word2Vec 먼저 살펴보고, Item2Vec을 보자 Word2Vec Embedding 임베딩 주어진 데이터를 낮은 차원의 Vector로 만들어서 표현하는 방법이다. 앞서 학습한 Latent Factor Model과 비슷한 개념이다. Sparse Representaion: 아이템의 전체 가짓수와 차원 수가 동일 예) One-Hot Encoding, Mult-Hot Encoding 차원의 저주 위험이 있음 Dense Representation: 아이템의 전체 가짓수보다 훨씬 작은 차원으로 표현 예) 면도기 = [0.2, 1.4, -0.2, 0.5], 가위 = [-0.2..

boostcamp AI Tech/주차별 회고

부스트캠프 AI Tech 5기 4주차 회고

boostcamp AI Tech 강주형_T5008 4주차 회고 잘했던 것! 강의 수강 때 최대한 집중하고, 이해 안 되는 내용도 최대한 이해하기 위해 노력하고 넘어감 나름대로 강의 내용에 흥미를 붙임 정보처리기사 실기 집 앞 접수 성공함 아쉬운 것! 유산소 운동 횟수 감소.. 학습 내용을 소화하기 위한 절대적인 시간이 조금 부족했음 개선 방향 취침 시간 개선하기 평일에 약속 지양하기 도전할 것! 정보처리기사 실기 공부 시작 알고리즘 문제 풀이 조금 더 꾸준히.. 키워드 Matrix Factorization Collaborative Filtering 지난주와 비교했을 때 나름대로 집중력 있게 들어서 만족스럽다. 새로운 내용을 시작해서 그럴 수도 있을 거라고 생각해서, 강의 내용이 더 심화되더라도 지금 상태..

boostcamp AI Tech/추천 시스템

[RecSys] 추천 시스템 - 협업 필터링 (Collaborative Filtering) - MBCF

Model Based Collaborative Filtering 모델 기반 협업 필터링 NBCF와 비교 NBCF 문제 1. Sparsity: 데이터가 부족하면 추천 성능이 떨어지고, 부족하거나 없는 유저는 추천 불가능 2. Scalability: 유저와 아이템이 늘어날수록 연산량도 증가해서 시간이 오래걸림 이런 문제들을 보완하고자 MBCF는 데이터에 숨겨진 유저-아이템 관계의 잠재적 특성/패턴을 이용해서 추천 Parametric Machine Learning 사용 NBCF 대비 MBCF 장점 1. 모델 학습/서빙 유저-아이템 데이터는 학습에만 사용되고, 학습된 모델은 압축 형태로 저장 이미 학습된 모델을 통해 추천하기 때문에 서빙 속도 빠름 2. Sparsity / Scalability 문제 개선 NBC..

boostcamp AI Tech/추천 시스템

[RecSys] 추천 시스템 - 협업 필터링 (Collaborative Filtering) - NBCF

Collaborative Filtering (CF) 1. CF 문제 정의 '많은 유저들로부터 얻은 기호 정보'를 이용해 유저의 관심사를 자동으로 예측하는 방법 더 많은 유저/아이템 데이터가 축적될수록 협업의 효과는 커지고, 추천은 정확해질 것이라는 가정에서 출발 → DL에서 데이터가 많으면 좋다는 거랑 같은 의미로 봐도 됨 예시1) "노트북"을 본 유저에게 "다른 노트북 상품"들을 추천 예시2) "노트북"을 구매한 유저들이 구매한 "노트북 악세사리 상품"을 추천 CF의 최종 목적: 유저 u가 아이템 i에 부여할 평점을 예측하는 것 주어진 데이터를 활용해 유저-아이템 행렬 생성 유사도 기준을 정하고, 유저 혹은 아이템 간의 유사도를 구함 주어진 평점과 유사도를 활영하여 행렬의 비어 있는 값(평점)을 예측 ..

boostcamp AI Tech/추천 시스템

[RecSys] 추천 시스템 - TF-IDF를 활용한 컨텐츠 기반 추천

컨텐츠 기반 추천 컨텐츠 기반 추천 (Content-based Recommendation) 한 유저가 과거에 선호한 아이템과 비슷한 아이템을 그 유저에게 추천 예시 영화: 배우, 감독, 영화 장르 음악: 아티스트, 장르, 리듬, 무드 장점 1. 유저에게 추천을 할 때 다른 유저의 데이터가 필요하지 않음 2. 새로운 아이템 혹은 인기도가 낮은 아이템을 추천할 수 없음 3. 추천 아이템에 대한 설명이 가능함 단점 1. 아이템의 적합한 피쳐를 찾는 것이 어려움 → 아이템의 종류별로 부가 정보가 달라서 각각에 맞는 feature processing이 달라짐 2. 한 분야/장르의 추천 결과만 계속 나올 수 있음 (overspecialization 3. 다른 유저의 데이터를 활용할 수 없음 TF-IDF TF-IDF..

boostcamp AI Tech/추천 시스템

[RecSys] 추천 시스템 - 연관 분석 (Association Analysis)

사실 사실 추천 시스템 분야는 현업에서 딥러닝보다 클래식한 ML을 더 많이 사용한다고 함 딥러닝을 통해서 엄청난 성능 향상이 없었고, 분야 특성상 많은 트래픽을 요하는 등의 이유 따라서, 다양한 엔지니어링 등의 능력이 더 중요시 되고 있음 사실 요즘에는 지금 포스팅하는 연관 분석과 TF-IDF보다는 협업 필터링을 더 많이 사용하는데, 그래도 이론을 탄탄히 하기 위해 학습해보자 연관 분석 개요 추천 시스템의 가장 고전적인 방법론임 연관 규칙 분석 (= 장바구니 분석, 서열 분석) 상품의 구매나 조회 등 하나의 연속된 거래들 사이의 규칙을 발견하기 위해 적용함 주어진 transaction(거래) 데이터에 대해, 하나의 상품이 등장했을 때 다른 상품이 같이 등장하는 규칙을 찾는 것 예시1) 맥주와 기저귀를 같..

boostcamp AI Tech/추천 시스템

[RecSys] 추천 시스템 (Recommender System) 이론

추천 시스템이란 1. 개요 과거에는 유저가 접할 수 있는 컨텐츠가 TV, 영화, 신문 등 극히 제한적이었지만, 요즘은 오히려 넘치는 정보의 시대이다. 따라서 유저가 원하는 걸 어떤 키워드로 찾아야 하는 지 모를 수 있음 기존에 사용자가 Search한 내용을 기반으로 추천해주는 것을 넘어서, 유저가 모르는 유저가 필요로 하는 item을 유저보다 더 잘 알고 추천한다. 이에따라, 이전에는 소수의 인기있는 아이템 (Popular products)가 주류였지만 최근에는 Long-Tail products에 대한 추천의 필요성이 대두됨 예시: Popular products: 조회수가 엄청 높은 소수의 동영상 Long Tail products: 아직은 조회수가 낮은 다수의 동영상 조회수가 급상승한 영상이 나왔을 때,..

boostcamp AI Tech/기타 정리

[DL Basic] Generative Models - Autoregressive Models

Generative Models 인트로 Generative Model을 학습한다는 것이 어떤 의미일까? → input에 대한 distribution을 학습하는 것 만약 우리가 강아지 사진들에 대한 분포를 학습했다면 생성한 샘플 이미지는 강아지처럼 생겨야 함 그 이미지가 얼마나 강아지 같은지를 추정 분포의 파라미터 수? 우리가 분포를 활용할 때, 그 분포의 경우의 수와 필요한 파라미터 수를 확인하는 것은 중요함. 예를들어, 베르누이 분포이면 경우의 수는 2, 파라미터 수는 1 1. RGB Image의 Pixel 하나를 관찰해보자 경우의 수: $ 256 \times 256 \times 256 $ 필요한 파라미터 수: $ 256 \times 256 \times 256 - 1 $ 2. MNIST 이미지의 Pix..

boostcamp AI Tech/주차별 회고

부스트캠프 AI Tech 5기 3주차 회고

boostcamp AI Tech 강주형_T5008 3주차 회고 잘했던 것! 주 3회 7시 기상 후 유산소 운동 부가적인 공부 (알고리즘, 리눅스) 아쉬운 것! 캠프 시작하고 주간 집중도 최악.. 개선 방향 생활 루틴 점검 강의만으로 부족한 내용을 어떻게 보충할 것인가? 도전할 것! 강의에서 간단히만 훑고 지나간 모델들 복습하기 키워드 R-CNN, Fast R-CNN, Faster R-CNN, YOLO Transformer, Attention Generative Models 이번 주는 DL Basic을 주제로 딥러닝의 기본적인 모델들을 리뷰하는 강의와 Data Visualization을 주제로 하는 파이썬 라이브러리 matplotlib을 다루는 강의로 이루어져 있었다. 이번 주는 앞서 언급했듯이 강의에 대..

강주형
BLESTORY