목록머신러닝 (4)
코알못

3장 - 평가 # 모델에 따른 평가 방법 - 회귀 : 예측 값의 오차의 정도 (정확도, 오차) - 분류 : 회귀와 동일하게 평가 할 수 있지만 연속적인 값이 아닌 한정된 값(0 or 1 / True or False) 이기에 정확도로 판단했다가는 잘못된 평가가 될 수 있음. # 평가 성능 지표 종류 - 정확도(Accuracy) - 오차 행렬(Confusion Matrix) - 정밀도(Precision) - 재현율(Recall) - F1 스코어 - ROC AUC # 평가 성능 지표 정의 평가 성능 지표 설명 비고 정확도(Accuracy) - 예측 결과가 동일한 데이터 건수 / 전체 예측 데이터 건수 - 특정 결과 값 True가 몰려있고 정답을 무조건 True 로 나오도록 한다면 정확도가 높을 것이다. (잘못..

2장 - 사이킷런으로 시작하는 머신러닝 # 사이킷런 소개와 특징 - 사이킷런은 파이썬 머신러닝 라이브러리 # 첫번째 머신러닝 만들어 보기 - 붓꽃 품종 예측하기 - 분류 (classification) 예제 - 지도학습(supervised learning) 예제 * 지도 학습이란? 데이터를 주고 학습을 시킴 비지도 학습 - 꽃잎의 길이 & 너비, 꽃받침의 길이 & 너비를 기반으로 꽃의 품종 예측 - sk-learn 명명 규칙 1) sklearn.datasets : 데이터 세트 생성모듈 2) sklearn.tree : 트리 기반 ML 알고리즘 클래스 3) sklearn.model_selection : 학습 , 검증, 예측 데이터로 분리, 학습 모델 - 예제 1) 붓꽃 품종 예측하기 :: github.com/..

- word2vec 에서 유사도 계산법 - 코사인 각도를 이용한 벡터의 유사도 (1일수록 유사도가 높음) - 계산식 - 예제 1) 코사인 유사도를 이용한 비슷한 단어 찾기 :: github.com/works-code/word2vec works-code/word2vec word2vec. Contribute to works-code/word2vec development by creating an account on GitHub. github.com # Reference - wikidocs.net/24603 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net

# 자연어 처리 기술 [1] 카운트 기반 방법 (count-based methods) - 특정 단어가 이웃 단어들과 같이 등장한 횟수를 통해 예측 [2] 예측 모델 (predictive model) - 단어의 의미의 유사도를 학습하여 예측 - ex ) Word2vec # Word2vec - 구글 라이브러리 - 자연어 처리 기술 - 워드 임베딩(Word embedding) 방식 (아래 참고 개념) - 단어(Word)를 벡터(Vector)로 바꿔주는 방법 * 백터란 공간에서 크기와 방향을 가지는 것 - 모델 1) CBOW(Continuous Bag of Words) - 주변 단어로 중심 단어를 예측하는 것 - 순서 1. 윈도우(한번에 학습할 단어 수) 크기 지정 - N(윈도우크기)=1 라면, 주변 단어 수는..