일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- 정규표현식
- 데이터 타입
- 문자열처리
- 데이터 타입의 우선순위
- :
- R 개요
- factor
- CSV
- vector 비교
- seq
- 데이터 입출력
- REP
- vector 연산
- Data Structure
- length
- TXT
- Names
- 변수 선언
- scraping
- 함수
- stringr
- Crawling
- ROTTEN TOMATOES
- c()
- 네이버 영화 댓글
- data frame
- 연습문제
- working directory
- R 기초
- 스크래핑
- Today
- Total
목록전체 글 (34)
study blog
1. 논리연산자 : and, or, not result = True and False # False result = True or False # True result = not True # False result = True|False # True 2. 비교연산자 : & (bitwise연산) - python에서 숫자 0은 False로 간주, 0이 아닌 모든 숫자 True로 간주 - python에서 False는 숫자 0으로 변환 가능. True는 1로 변환 가능 10진수 5 → 2진수 0101 10진수 1 → 2진수 0001 &는 bit 연산! (논리연산 X) True & False → 1 & 0 → 0001 & 0000 → 0000 → 0 (False) print(bool(0)) # False print..
Set type - { } 로 표현함 - dict는 {} 안에 key와 value로 구성 - set은 {}안에 요소만 들어감 a = {1,2,3} # cf. dict: a ={"name":"gildong","age":20} # dict 표현 중 key 없고 요소만 있는 경우 set이라고 함 print(type(a)) # - set이라는 자료구조는 기본적으로 순서가 없음. 중복을 허용하지 않는 저장장소 a = set([1,2,3,4,5]) # list -> set a = set({1,2,3,1,2,3,4,1,2}); print(a) # {1, 2, 3, 4} a = set('Hello'); print(a) # 문자열은 list와 유사 -> {'e', 'H', 'o', 'l'} # set의 연산 a = {1..
Mapping type(dict) - dict {key1:value1, key2:value2, ...} 형태 a = {"name":"홍길동","age":30} #JSON과 완전히 동일 print(type(a)) # - key와 value의 쌍으로 표현되는 자료구조 - key값은 불변의 값을 사용해야 함! (문자열 등) - list는 key로 사용할 수 없음! (리스트 안의 요소를 변경할 수 있기 때문에) - tuple은 key로 사용할 수 있음! (불변) 1. dict 기본 # dict에 값 입력 a[10]="hohoho" # a가 리스트면 11번째 방에 hohoho넣어라 # 10 : key , hohoho: value print(a) # {'name': '홍길동', 'age': 30, 10: 'hoho..
# 자료구조 - Sequence 타입: list, tuple - Mapping 타입: dict - Set: set 1. Sequence Type 1) list - 임의의 객체를 순차적으로 저장하는 자료구조 - 기호로는 [ ] (대괄호)를 이용 myList = list() # 비어있는 list를 생성 myList = [] # list를 literal(코드상으로 표현)로 표현 myList = [1,2,3] # 3개의 값을 가지는 list를 생성 myList = [1,3.14,True,"아우성"] # 모든 데이터 타입 사용가능 myList = [10,["Show","me","the","money"],3.14,True] # list안에 list가능 (중첩구조) # list안에 또 다른 자료구조들을 넣을 수 있음..
Python Built-in Type (내장 데이터 타입) - Numeric 타입: int(정수), float(double)(실수), complex(복소수) - Text Sequence 타입: 문자열(str) - Bool 타입: True, False (bool) 1. Numeric 타입 - int(정수) - float(실수) - complex(복소수) a = 123 # 정수 b = 3.14159265358979 # 실수 c = 3.14E10 # 3.14* 10^10 (실수)(지수표현-> 작거나 큰 수 표현할 때) d = 1+2j # 복소수 e = 0o37 # 0o : 8진수 f = 0xFF # 16진수 # type() : data type을 알려줌 print(type(a)) # / : 나누기 div = ..
자연어 처리 KoNLP 패키지를 이용하자. ( Korean Natural Language Process ) - 해당 패키지 안에 사전이 포함되어 있음 - 3가지의 사전이 포함 : 시스템 사전(28만개), 세종 사전(32만개), NIADic 사전(98만개) # Java 기능을 이용함! 시스템에 JRE가 설치되어 있어야 함. - JRE를 설치하긴 했는데 R package가 JRE를 찾아서 써야 하기 때문에, 환경변수 JAVA_HOME 환경변수를 설정해야 함. - 환경변수 아래쪽에 새로 만들기-> 변수 이름: JAVA_HOME, 경로: C:\Program Files\Java\jre1.8.0_231 - 환경변수 설정 하고나서 rstudio 재시작하기 (+) 참고로 영문 NLP의 경우에는 openNLP, Snow..
reshape2 패키지로 데이터 형태 변환 - 데이터의 형태를 바꿀 수 있음 -> 가로로 되어있는 데이터를 세로로 바꿀 수 있어요! - 컬럼으로 저장되어 있는 데이터를 row 형태로 / row 형태의 데이터를 column형태로 전환 실습을 통해 이해해보자! (melt_mpg.csv, sample_mpg.csv) library(ggplot2) library(stringr) library(dplyr) sample_mpg % summarise(avg_rate=mean(value)) #18.25 [연습문제] 두 개의 data frame에 대해서 평균 연비를 구해서 표시 (평균연비=도시연비,고속도로연비 평균) # sample_mpg의 평균 연비 구하기 sample_mpg %>% mutate(avg_rate=(ct..
데이터 분석업무에서 raw data를 얻은 다음 머신러닝 모델링을 위해서 또는 시각화를 위해서 raw data를 적절한 형태로 변형 → 데이터 변환, 필터링, 전처리 작업이 필요! → 데이터 조작에 특화된 package들이 존재! - plyr : pliers(집게)+R (플라이어, 플라이 알이라고 부름) - dplyr : data frame + pliers + R (디플라이알) - vector나 data frame에 적용할 수 있는 기본 함수 1. R 내장 함수로 데이터 조작하기 # iris 데이터를 이용하여 데이터를 조작해보자. - iris: 붓꽃의 종류와 크기에 대해 측정한 데이터 - 통계학자 피셔가 측정해서 제공 ① ls(): data frame의 column명을 vector로 추출, 오름차순으로 ..