일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- Crawling
- vector 연산
- 연습문제
- scraping
- 함수
- c()
- 변수 선언
- CSV
- vector 비교
- ROTTEN TOMATOES
- length
- data frame
- 문자열처리
- stringr
- :
- factor
- REP
- 네이버 영화 댓글
- 데이터 입출력
- Names
- Data Structure
- TXT
- seq
- working directory
- 정규표현식
- R 기초
- 데이터 타입
- R 개요
- 스크래핑
- 데이터 타입의 우선순위
- Today
- Total
목록분류 전체보기 (34)
study blog
# 문자열을 날짜로 변환 • 날짜와 시간을 나타내는 문자열 벡터를 시계열 데이터로 변환 • to_datetime() - format 매개변수에 날짜와 시간 포맷을 지정 • errors 매개변수 - 오류 처리, coerce 옵션값은 문제가 발생해도 에러를 일으키지 않지만 대신 에러가 난 값을 NaT(누락된 값)으로 설정합니다. import numpy as np import pandas as pd date_strings = np.array(['03-04-2005 11:35 PM', '23-05-2010 12:01 AM', '04-09-2009 09:09 PM']) # 문자열 # Timestamp 객체로 변환 [pd.to_datetime(date, format='%d-%m-%Y %I:%M %p') for da..
(+) nltk 태그 리스트 참조 url https://www.learntek.org/blog/categorizing-pos-tagging-nltk-python/ Categorizing and POS Tagging with NLTK Python | Learntek Categorizing and POS Tagging with NLTK Python Natural language processing is a sub-area of computer science, information engineering, and artificial intelligence concerned with the interactions between computers and human (native) languages. This is ..
# 순서 없는 범주형 특성 인코딩 사이킷런의 LabelBinarizer를 사용하여 문자열 타깃 데이터를 원-핫 인코딩합니다. import numpy as np from sklearn.preprocessing import LabelBinarizer, MultiLabelBinarizer feature = np.array([["Texas"], ["California"], ["Texas"], ["Delaware"], ["Texas"]]) # 특성 데이터 생성 one_hot = LabelBinarizer() # 원-핫 인코더 생성 one_hot.fit_transform(feature) # 특성을 원-핫 인코딩 변환 one_hot.classes_ #특성의 클래스를 확인 one_hot.inverse_transform..
Git 개발 흐름에서 branch는 매우 중요하다. 독립적인 개발환경을 제공하여 동시에 다양한 작업을 진행할 수 있도록 만들어준다. 일반적으로 branch의 이름은 해당 작업을 나타낸다. 1. 기초 명령어 $ git branch # branch 목록 확인 $ git branch {브랜치이름} # {브랜치이름} 생성 $ git checkout {브랜치이름} # {브랜치이름}으로 이동 $ git branch -d {브랜치이름} # {브랜치이름} 삭제 $ git checkout -b {브랜치이름} # {브랜치이름} 생성 및 이동 branch 병합 (master) $ git merge feature # master 브랜치로 feature 브랜치 이력 가져오기(병합) 2. 상황별 branch 처리 방법 상황 1...
Git 추가설명 1. commit commit을 통해 이력을 확정하면 hash 값이 부여되며, 이 값을 통해 동일한 커밋인지를 확인한다. # WD 변화 X, staging area 변화 X # 변경사항 X $ git commit noting to commit, working tree clean # WD 변화 O, staging area 비어있을 때 $ touch lee.txt $ git commit Untracked files: lee.txt nothing added to commit but untracked files present commit 메시지 작성하기 부제: vim 활용법 $ git commit # 메시지없이 commit하면 편집모드(i) 문서 편집 가능 명령모드(esc) dd: 해당 줄 삭제..
python의 기본 파일 처리 - 파일 읽기, 쓰기 # open() : 파일 열기 file1 = open('student_score.txt','r') # 'r': 읽을 용도로 파일 저장할거다 file2 = open('backup.txt','w') # 'w': 파일을 쓸 용도 # file1을 한 줄 읽어서 갖다쓰고 갖다쓰고 해서 복사하는 파일 # file.readline() : 파일에서 한 줄씩 읽어와서 output console에 출력하고 해당 내용을 backup 파일에 저장 while True: # 무한히 반복+파일로부터 읽어들일 것이 없으면 탈출! (언제가 끝인지 모르므로) line = file1.readline() # readline: 한줄 읽어오는 함수 print(line, end="") # en..
# 함수 기반의 프로그래밍(절차적 프로그래밍)을 하면 좋음! - 꽤 예전(1970년부터 지금까지 이 방식으로 프로그래밍을 하고 있음) - 장점: 프로그래밍이 쉬움 → 빨리 만들 수 있다 / 비용이 적게 듦 - 단점: 처음에는 단점 별로 없어보임 # 1990년대 들어오면서 인터넷의 보급 → 정보량 증가 → 세상이 급변 - 프로그램의 유지보수 요구가 많아지기 시작 - 절차적 프로그램으로 작성해서 이런 문제가 발생 - 어떤 방식으로 프로그램을 만들면 유지보수측면에서 이점이 있을까? - 객체지향 paradigm이 시작 # 객체지향이 어떤 프로그래밍 방식인지를 인지하기 - 현실세계에 잘 부합하는 (변화에 잘 적응하는) 프로그램을 만들기 위해 - 해결해야 하는 문제(현실세계 문제)를 프로그램으로 똑같이 모델링하자고..
함수(function) 함수 기반의 프로그래밍 방식: 절차적 프로그래밍 (Procedural programming) # python에서 함수는 크게 2가지로 구분 1. 내장함수 2. 사용자 정의함수(user define 함수) 1. 내장함수: python이 제공해주는 함수 - int() : 인자로 들어온 값을 정수로 변환 - abs() : 절대값 - all() : 인자로 반복가능한 타입이 와야 함 (list, tuple, dict, set, str) (int는 값 1개이므로 반복 X) 인자로 들어온 값이 모두 True일 경우 True를 리턴 a = [True,100,{},3.14] # {}: 기본적으로 dict(set이 될 수도 있지만) print(all(a)) # False -> {}이 False이므로..