임베딩 자연어를 숫자나 벡터 형태로 변환할 필요가 있음 임베딩이란 단어나 문장을 수치화해 벡터 공간으로 표현하는 과정 말뭉치 의미에 따라 벡터화하므로 문법 정보를 포함 문장 임베딩 / 단어 임베딩 단어 임베딩 말뭉치에서 각각의 단어를 벡터로 변환하는 기법 1. 원-핫 인코딩 단 하나의 값만 1이고, 나머지는 0 -&g...
[Chatbot] Chapter3 토크나이저
토크나이저 가장 기본이 되는 단어들을 토큰(token)이라고 함 토큰의 단위는 토크나이징 방법에 따라 달라질 수 있지만 일반적으로 일정한 의미가 있는 가장 작은 정보 단위로 결정 주어진 문장에서 토큰 단위로 정보를 나누는 작업을 토크나이징이라고 함 토크나이징은 문장 형태의 데이터를 처리하기 위해 제일 처음 수행해야 하는 기본적인 작업 ...
[NLP] 카운트 기반의 단어 표현
카운트 기반의 단어 표현 자연어 처리에서 텍스트를 표현하는 방법은 여러가지 정보 검색과 텍스트 마이닝분야에서 주로 사용되는 카운트 기반 텍스트 표현 방법 DTM(Document Term Matrix) TF-IDF(Term Frequency-Inverse Document Frequency) BoW(Bag of Words)는 국소 표현...
[CV] Hand Tracking Module
HandTrackingModule HandTrackingMin을 모듈화 시킨 코드 트래킹을 실행하는데 필요한 최소한의 코드 각 Hand의 21개의 값 목록을 요청 다른 프로젝트에서 활용할 수 있도록 모듈화 mpHands.Hands()의 파라미터 static_image_mode=False max_num_hands=2 mi...
[NLP] 텍스트 전처리(Text Preprocessing)2
정수 인코딩(Integer Encoding) 컴퓨터는 텍스트보다 숫자를 더 잘 처리함 각 단어를 고유한 정수에 맵핑시키는 전처리 작업 보통은 단어 등장 빈도수를 기준으로 정렬한 뒤에 부여 단어를 빈도수 순으로 정렬한 단어 집합(vocabulary) 생성 빈도수가 높은 순서대로 차례로 낮은 숫자부터 정수를 부여 fr...
[CV] OpenCV Tutorial
Read Images, Videos, Webcam Image import cv2 img = cv2.imread('C:/Users/User/Desktop/img.jpg') cv2.imshow('img', img) cv2.waitKey(0) cv2.destroyAllWindows() Video frame : 하나하나 가져오는 이미지 ...
[NLP] 텍스트 전처리(Text Preprocessing)1
자연어 처리(NLP) 자연어란 우리가 일상 생활에서 사용하는 언어 자연어 처리란 자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일 활용 분야 : 음성 인식, 내용 요약, 번역, 감성 분석, 텍스트 분류, 질의 응답, 챗봇 텍스트 전처리(Text Preprocessing) 풀고자 하는 문제의 용도에 맞게 텍스트를 사전에 ...
[CV] 객체 탐지(Object Detection)
객체 탐지(Object Detection) 한 이미지에서 객체와 그 경계 상자(bounding box)를 탐지 객체 탐지 알고리즘은 일반적으로 이미지를 입력 받고, 경계 상자와 객체 클래스 리스트를 출력 경계 상자에 대해 그에 대응하는 예츩 클래스와 슬래크의 신뢰도를 출력 Applications 자율 주행 자동차에서 다른 자동차와...
YOLOv5를 활용한 영어 수어 탐지
!curl -L "https://public.roboflow.com/ds/SWOifNPYMj?key=c5J8MPAoer" > roboflow.zip; unzip roboflow.zip; rm roboflow.zip %cd /content !git clone https://github.com/ultralytics/yolov5.git %cd ...
[NLP] BoW, DTM, TF-IDF
BoW(Bag of Words) 단어들의 순서와 상관 없이 출현 빈도(frequency)에 따라 표현하는 방법 import nltk from nltk.corpus import stopwords from nltk.stem import WordNetLemmatizer nltk.download('punckt') nltk.download('stop...