일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 문자열처리
- stringr
- Crawling
- vector 연산
- 스크래핑
- :
- 데이터 입출력
- 네이버 영화 댓글
- REP
- vector 비교
- factor
- CSV
- c()
- 변수 선언
- R 개요
- 함수
- seq
- Data Structure
- length
- data frame
- Names
- 연습문제
- working directory
- R 기초
- 정규표현식
- scraping
- 데이터 타입
- ROTTEN TOMATOES
- 데이터 타입의 우선순위
- TXT
- Today
- Total
목록분류 전체보기 (34)
study blog
보호되어 있는 글입니다.
- ELK란? ElasticSearch / Logstash / Kibana 정형, 비정형 데이터에서 실시간으로 실행 가능한 End to End stack 데이터 검색, 분석시 유용하다. Logstash(데이터 수집) - 데이터를 수집하여 변환한 후, Elasticsearch 같은 stash로 전송하는 데이터 처리 파이프 라인 Elasticsearch(데이터 검색) - 검색 및 분석 엔진 - JSON 기반의 분산형 RESTful 검색 엔진 Kibana(시각화) - Elasticsearch에서 차트와 그래프를 이용해 데이터 시각화 가능하게 해주는 도구 - 사용 이유 로그의 중요성 데이터의 처리를 DB를 통해서 알 수도 있지만, 더 명확한 분석을 위해서는 로그분석이 필수적이다. 대규모 서비스의 경우 하루에 쌓..
- var, const, let의 차이점 1. 재선언/ 재할당 가능 여부 2. 변수 scope 유효 범위 3. 변수 hoisting 방식 1. 재선언 / 재할당 1) var: 변수 재선언 가능 var x = 'text1'; console.log(x); //text1 var x = 'text2'; console.log(x); //text2 변수 선언을 여러 번 해도 에러 없이 사용 가능하다. 이 경우, 기조에 선언한 변수의 존재를 잊고 값을 재할당하는 실수가 발생하기 쉽다. 2) let: 변수 재선언 불가능 / 변수 재할당 가능 let x = 'text1'; console.log(x); //text1 x = 'text2'; console.log(x); //text2 let x = 'text3'; conso..
메모리 구조 프로그램을 실행시키면 운영체제는 실행된 프로그램을 위해 메모리 공간을 할당해준다. 할당되는 메모리 공간은 다음과 같은 영역으로 나누어진다. 1. 코드(code)영역 2. 데이터(Data) 영역 3. 스택(Stack) 영역 4. 힙(Heap) 영역 - 할당 시기: 프로그램이 실행될 때마다 - 할당 장소: 메인 메모리(RAM) - 할당 용도: 프로그램 실행 시 필요한 메모리 공간(지역변수, 전역변수 선언을 위해) 할당 코드(code) 영역 실행할 프로그램의 코드가 저장되는 영역 프로그래머가 작성한 코드가 실행되는 영역 데이터(data) 영역 프로그램의 전역 변수와 정적 변수가 저장되는 영역 데이터 영역은 프로그램의 시작과 함께 할당되며, 프로그램이 종료되면 소멸한다. 힙(heap) 영역 사용자에..
모델 선택이란? 최선의 학습 알고리즘을 선택하는 것 최선의 하이퍼파라미터를 선택하는 것 효율적으로 최선의 모델을 선택하는 기법 # 완전 탐색을 사용해 최선의 모델 선택 하이퍼파라미터 범위를 검사하여 최선의 모델을 선택하려면 사이킷런의 GridSearchCV를 사용합니다. 사용자는 하나 이상의 하이퍼파라미터에 대해 가능성이 있는 값을 정의합니다. GridSearchCV는 모든 값의 조합에 대해 모델을 훈련하고 최고 성능 점수를 내는 모델이 최선의 모델로 선택됩니다. GridSearchCV는 교차검증을 사용하여 모델을 선택하는 브루트포스(brute-force)한 방법입니다. #실습 : 로지스틱 회귀에서 C와 규제 페널티 값의 각 조합에 대해 모델을 훈련하고 k-폴드 교차검증으로 평가합니다. #C의 값이 10..
지도학습과 비지도학습의 모델 평가가 다름 - 비지도학습은 정확도 결과가 없음 1. 모델 종류 1-1. 교차검증 모델 실전에서 모델이 얼마나 잘 동작하는지 평가하려면 데이터 전처리 파이프라인을 만들고 모델을 훈련한 다음 교차 검증을 평가합니다. from sklearn import datasets from sklearn import metrics from sklearn.model_selection import KFold, cross_val_score from sklearn.pipeline import make_pipeline from sklearn.linear_model import LogisticRegression from sklearn.preprocessing import StandardScaler di..
특성 추출을 사용한 차원 축소 차원 축소는 feature로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것입니다. 차원이 증가할수록(feature가 많아질수록) 예측 신뢰도가 떨어지고, 과적합(overfitting)이 발생하고, 개별 featur간의 상관관계가 높을 가능성이 있습니다. PCA(중성분 분석)는 고차원의 데이터를 저차원의 데이터로 축소시키는 차원 축소 방법중 하나입니다 1. 차원 축소는 시각화를 가능하게 하며 시각화를 통해 데이터 패턴을 쉽게 인 지할 수 있습니다. 2. 쓸모 없는 feature를 제거함으로써 노이즈를 제거할 수 있습니다. 3. 쓸모 없는 feature를 제거함으로써 메모리를 절약할 수 있습니다. 4. 쓸모 없는 feature를 제거함으로써..
오픈 소스 컴퓨터 비전 라이브러리 open source computer vision library (OpenCV) conda install --channel https://conda.anaconda.org/menpo opencv3 pip install opencv-python pip install opencv-contrib-python # 이미지 로드 • 머신러닝을 이미지에 적용하기 전에 학습 알고리즘이 사용할 수 있는 특성으로 변환해야 합니다. import cv2 cv2.__version__ #OpenCV 버전 확인 • OpenCV의 imread를 사용하여 전처리를 위한 이미지를 로드할 수 있습니다 • 파이썬의 그래프 라이브러리인 Matplotlib을 사용하여 이미지를 출력합니다. • 이미지는 하나의 ..