일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- vector 비교
- R 개요
- 데이터 타입
- stringr
- 연습문제
- R 기초
- 함수
- vector 연산
- Crawling
- 데이터 타입의 우선순위
- 정규표현식
- ROTTEN TOMATOES
- 네이버 영화 댓글
- CSV
- 문자열처리
- c()
- scraping
- TXT
- seq
- Names
- data frame
- working directory
- 변수 선언
- Data Structure
- factor
- 스크래핑
- :
- length
- 데이터 입출력
- REP
- Today
- Total
목록Machine Learning & Deep Learning (7)
study blog
모델 선택이란? 최선의 학습 알고리즘을 선택하는 것 최선의 하이퍼파라미터를 선택하는 것 효율적으로 최선의 모델을 선택하는 기법 # 완전 탐색을 사용해 최선의 모델 선택 하이퍼파라미터 범위를 검사하여 최선의 모델을 선택하려면 사이킷런의 GridSearchCV를 사용합니다. 사용자는 하나 이상의 하이퍼파라미터에 대해 가능성이 있는 값을 정의합니다. GridSearchCV는 모든 값의 조합에 대해 모델을 훈련하고 최고 성능 점수를 내는 모델이 최선의 모델로 선택됩니다. GridSearchCV는 교차검증을 사용하여 모델을 선택하는 브루트포스(brute-force)한 방법입니다. #실습 : 로지스틱 회귀에서 C와 규제 페널티 값의 각 조합에 대해 모델을 훈련하고 k-폴드 교차검증으로 평가합니다. #C의 값이 10..
지도학습과 비지도학습의 모델 평가가 다름 - 비지도학습은 정확도 결과가 없음 1. 모델 종류 1-1. 교차검증 모델 실전에서 모델이 얼마나 잘 동작하는지 평가하려면 데이터 전처리 파이프라인을 만들고 모델을 훈련한 다음 교차 검증을 평가합니다. from sklearn import datasets from sklearn import metrics from sklearn.model_selection import KFold, cross_val_score from sklearn.pipeline import make_pipeline from sklearn.linear_model import LogisticRegression from sklearn.preprocessing import StandardScaler di..
특성 추출을 사용한 차원 축소 차원 축소는 feature로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것입니다. 차원이 증가할수록(feature가 많아질수록) 예측 신뢰도가 떨어지고, 과적합(overfitting)이 발생하고, 개별 featur간의 상관관계가 높을 가능성이 있습니다. PCA(중성분 분석)는 고차원의 데이터를 저차원의 데이터로 축소시키는 차원 축소 방법중 하나입니다 1. 차원 축소는 시각화를 가능하게 하며 시각화를 통해 데이터 패턴을 쉽게 인 지할 수 있습니다. 2. 쓸모 없는 feature를 제거함으로써 노이즈를 제거할 수 있습니다. 3. 쓸모 없는 feature를 제거함으로써 메모리를 절약할 수 있습니다. 4. 쓸모 없는 feature를 제거함으로써..
오픈 소스 컴퓨터 비전 라이브러리 open source computer vision library (OpenCV) conda install --channel https://conda.anaconda.org/menpo opencv3 pip install opencv-python pip install opencv-contrib-python # 이미지 로드 • 머신러닝을 이미지에 적용하기 전에 학습 알고리즘이 사용할 수 있는 특성으로 변환해야 합니다. import cv2 cv2.__version__ #OpenCV 버전 확인 • OpenCV의 imread를 사용하여 전처리를 위한 이미지를 로드할 수 있습니다 • 파이썬의 그래프 라이브러리인 Matplotlib을 사용하여 이미지를 출력합니다. • 이미지는 하나의 ..
# 문자열을 날짜로 변환 • 날짜와 시간을 나타내는 문자열 벡터를 시계열 데이터로 변환 • to_datetime() - format 매개변수에 날짜와 시간 포맷을 지정 • errors 매개변수 - 오류 처리, coerce 옵션값은 문제가 발생해도 에러를 일으키지 않지만 대신 에러가 난 값을 NaT(누락된 값)으로 설정합니다. import numpy as np import pandas as pd date_strings = np.array(['03-04-2005 11:35 PM', '23-05-2010 12:01 AM', '04-09-2009 09:09 PM']) # 문자열 # Timestamp 객체로 변환 [pd.to_datetime(date, format='%d-%m-%Y %I:%M %p') for da..
(+) nltk 태그 리스트 참조 url https://www.learntek.org/blog/categorizing-pos-tagging-nltk-python/ Categorizing and POS Tagging with NLTK Python | Learntek Categorizing and POS Tagging with NLTK Python Natural language processing is a sub-area of computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (native) languages. This is ..
# 순서 없는 범주형 특성 인코딩 사이킷런의 LabelBinarizer를 사용하여 문자열 타깃 데이터를 원-핫 인코딩합니다. import numpy as np from sklearn.preprocessing import LabelBinarizer, MultiLabelBinarizer feature = np.array([["Texas"], ["California"], ["Texas"], ["Delaware"], ["Texas"]]) # 특성 데이터 생성 one_hot = LabelBinarizer() # 원-핫 인코더 생성 one_hot.fit_transform(feature) # 특성을 원-핫 인코딩 변환 one_hot.classes_ #특성의 클래스를 확인 one_hot.inverse_transform..