R분석
-
[R] 패키지 오프라인 설치R분석/함수 2023. 3. 30. 14:41
오프라인에 설치된 R Studio 에 패키지를 설치하는 방법은 의외로 간단하다. 인터넷이 연결된 PC 에서 필요한 패키지를 다운로드한다. PC 에서 오프라인 환경으로 다운로드한 파일들을 복사한다. 패키지를 설치한다. 끝 # 1. 인터넷이 연결된 PC 에서 다운로드 # 1. 패키지 전체 다운로드 download.packages(pkgs = getDependencies("package_name_here"), destdir = "D:/temp", type = "source") # OS에 따라 type 수정, 윈도우: win.binary # 2. PC 에서 오프라인 상태의 R PC로 파일 복사 # 3. 패키지 설치 #getwd() #setwd("/home/R/") # 필요시 파일을 복사한 경로 설정 instal..
-
[R] st_read() 한글 깨짐R분석/함수 2023. 3. 23. 12:30
R 스크립트에서 st_read() 함수로 geometry 함수를 읽을 때 한글이 깨지는 문제를 해결하는 방법입니다. st_read 함수로 shp 파일을 읽으면 한글이 깨지는 현상이 발생합니다. library(sf) st_read("시군구 행정구역(SHP)/sig.shp") %>% head(3) st_read 함수에서 options 매개변수에서 인코딩 설정하여 한글이 깨지는 현상을 해결할 수 있습니다. options="ENCODING=CP949" library(sf) st_read("시군구 행정구역(SHP)/sig.shp", options="ENCODING=CP949") %>% head(3)
-
카이제곱검정(χ²)R분석/통계, 분석 2023. 2. 21. 19:39
→카이제곱검정은 범주형 자료로 구성된 데이터에 대해 관찰된 값 빈도가 기대되는 값 빈도와 유의미하게 다른지 여부(두 값이 연관되어 의미있게 나타나는지)를 검정하는데 사용되는 독립성 검정(교차분석) 방법 중 하나입니다. 지금부터 카이제곱검정 방법을 사용하여 "매주 추첨하는 복권 번호 7개 중 짝수, 홀수가 나타나는 횟수는 추첨 월(月) 과 관계가 있는지"를 검정해보겠습니다. 검정 순서는 다음과 같습니다. 1. 가설수립 → 2. 데이터 수집 및 정제 → 3. 검정 수행 → 4. 결론 도출 1. 가설수립 검정하고자 하는 내용에 대한 가설을 수립합니다. 이때 귀무가설과 대립가설을 수립하여 검정 수행을 통해 결론을 도출하게 됩니다. 귀무가설 : 복권 번호 7개 중 짝수, 홀수가 나타나는 횟수는 추첨 월(月)과 관..
-
국토정보플랫폼 데이터 수집R분석/통계, 분석 2023. 2. 8. 19:08
국토교통부 국토지리정보원의 국토정보플랫폼에서 개방하는 공공 데이터를 수집하는 방법입니다. 인구, 건축물, 토지 등의 정보를 수집할 수 있습니다. http://map.ngii.go.kr/mn/mainPage.do 국토정보플랫폼 국토교통부 국토지리정보원 (우)16517 경기도 수원시 영통구 월드컵로 92(원천동) 전화 : 031-210-2700 팩스 : 031-210-2644 본 홈페이지는 게시된 이메일 주소가 자동 수집되는 것을 거부하며 이를 위반시 map.ngii.go.kr 국토정보플랫폼의 국토통계지도에서 인구, 건축물, 토지 등의 데이터를 수집할 수 있습니다. 지도에서 해당 데이터를 확인할 수 있으며, shp 형태의 파일로 다운받아 활용할 수 있습니다. 인구 데이터 관련해서는 총인구, 유소년, 생산가능..
-
-
엑셀 csv파일 한글 깨짐 현상R분석/통계, 분석 2023. 2. 2. 17:57
엑셀에서 읽은 csv 파일의 한글이 깨지는 현상을 해결하는 방법입니다. 메모장을 이용하는 방법과 변환 파일을 이용하는 방법에 대한 안내입니다. 엑셀에서 한글이 깨져보이는 것은 csv파일 생성 당시의 인코딩과 엑셀에서의 인코딩 설정이 다르기 때문에 발생하는 현상입니다. 지금부터 해결 방법을 소개합니다. 메모장 이용 방법 1. csv 파일을 엑셀이 아닌 메모장에서 열기 csv 파일을 마우스 우클릭 → 편집 또는 연결프로그램에서 메모장 선택 2. 인코딩 변환하여 저장 메모장의 파일(F) → 다른 이름으로 저장 → 인코딩에서 ANSI 선택 3. 엑셀에서 csv 파일 열기 변환파일 이용 방법 Python 스크립트를 이용하여 직접 만든 인코딩 변환파일입니다. 스크립트 언어이다보니 구동에 필요한 패키지들이 함께 포함..
-
[R, Python 샘플] 엑셀 csv파일 한글 깨짐 현상R분석/함수 2023. 2. 2. 17:12
엑셀에서 읽은 csv 파일의 한글이 깨지는 현상을 해결하는 샘플입니다. R과 python 을 이용하여 한글이 깨지지 않도록 파일을 재생성하는 코드를 소개합니다. 엑셀에서 한글이 깨져보이는 것은 csv파일 생성 당시의 인코딩과 엑셀에서의 인코딩 설정이 다르기 때문에 발생하는 현상입니다. 그럼 R가 python 언어 각각을 이용한 해결 방법을 소개합니다. R 스크립트 csv_file = "data/csv_encoding.csv" data = read.csv(csv_file) file.remove(csv_file) write.csv(data, csv_file, fileEncoding = "cp949") R 코드입니다. 읽고 삭제하고 저장. 초간단합니다. Python 스크립트 import os import sy..
-
[R샘플] 연관분석(eclat, apriori)R분석/함수 2023. 1. 26. 18:48
텍스트마이닝에서 자주 활용하는 연관분석에 대한 R 코드 샘플입니다. arules 패키지의 eclat, apriori 함수를 사용합니다. 연관분석에서 사용되는 용어는 다음과 같습니다. A ⇒ B : A가 나타나면 B가 나타난다. lhs(left hand side) : 선행 rhs(right hand side) : 후행 support(지지도) : A, B의 연관성 (전체 횟수에 대한 A, B가 함께 나타난 횟수) confidence(신뢰도) : A, B의 인과성. A가 나타났을 때 B가 나타남. (A가 포함된 횟수에 대한 A, B가 동시에 나타난 횟수) lift(향상도) : 무심코(아무 관계없이 그냥) B가 나타날 때에 비해 A가 나타난 후 B가 나타날 가능성 library(arules) rm(list=ls..