R

[혼자 공부하는 R 데이터분석] 2주차_데이터분석의 기본 알아보기

섀싹 2024. 7. 11. 16:45

2-1. 데이터 분석 과정

데이터 분석 프로세스는 다음과 같다

데이터 분석 설계 데이터 준비 데이터 가공 데이터 분석 결론 도출
- 주제
- 가설 설정
- 이후 데이터 확보 여부 확인
- 분석 가능 변수 구성
- 파생변수 구성
- 분석 항목 결정
- 직접 생성
- 데이터 찾아 활용(엑셀, txt, csv, 웹 크롤링)
- 데이터 형태 파악
- 기술통계량, 시각화(raw data 기반)
가설 검정에 도움이 되는 데이터로 가공
- 불필요 변수 제거
- 필요 변수만 추출
- 기존 데이터간 연산 통해 조건에 맞는 데이터 구상
- 새로운 변수 생성
=> 데이터 세트 생성
 - 기술통계량
- 시각화
- 분석 방법론 적용
- 통계량 통해 가설 검정 및 결과 정리하여 최종 결과 도출

 

- 한번의 주기로 끝나는 것이 아니라 순환 구조

 

2-2. 데이터의 생김새

유형\차원 1차원 2차원 n차원
단일형 벡터 행렬 배열
다중형 리스트 데이터프레임 .

 

- 범주형 자료 : 명목형 자료를 바탕으로 범주화한 데이터 <-> 수치형 자료(정수형, 실수형 등)

- 손코딩 내용

# 수치형 벡터
ex_vector1 <- c(-1, 0, 1)
ex_vector1
mode(ex_vector1)
str(ex_vector1)
length(ex_vector1)

# 문자형 벡터
ex_vector2 <- c("Hello", "Hi~!")
ex_vector2
ex_vector3 <- c("1", "2", "3")
ex_vector3
mode(ex_vector2)
str(ex_vector2)
mode(ex_vector3)
str(ex_vector3)

# 논리형 벡터
ex_vector4 <- c(TRUE, FALSE, TRUE, FALSE)
ex_vector4
mode(ex_vector4)
str(ex_vector4)

# 변수 제거
remove(ex_vector2)
ex_vector2

# 범주형 자료 만들기
ex_vector5 <- c(2, 1, 3, 2, 1)
ex_vector5
cate_vector5 <- factor(ex_vector5, labels= c("Apple", "Banana", "Cherry"))
cate_vector5

# 행렬
x <- c(1, 2, 3, 4, 5, 6)
matrix(x, nrow=2, ncol=3)
matrix(x, nrow=3, ncol=2)
x <- c(1, 2, 3, 4, 5, 6)
matrix(x, nrow=2, ncol=3)
matrix(x, nrow=2, ncol=3, byrow=T)

# 배열
y <- c(1, 2, 3, 4, 5, 6)
array(y, dim = c(2, 2, 3))

# 리스트
list1 <- list(c(1, 2, 3), "Hello")
list1
str(list1)
list1[[1]]

# 데이터 프레임
ID <- c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
SEX <- c("F", "M", "F", "M", "M", "F", "F", "F", "M", "F")
AGE <- c(50, 40, 28, 50, 27, 23, 56, 47, 20, 38)
AREA <- c("서울", "경기", "제주", "서울", "서울", "서울", "경기", "서울", "인천", "경기")
dataframe_ex <- data.frame(ID, SEX, AGE, AREA)
dataframe_ex
str(dataframe_ex)

 

2-3. 과제 : 99페이지 3번, 4번 문항

 

- R script

ID <- c("1", "2", "3", "4", "5")
MID_EXAM <- c(10, 25, 100, 75, 30)
CLASS <- c("1반", "2반", "3반", "1반", "2반")

example_test <- data.frame(ID, MID_EXAM, CLASS)
example_test
str(example_test)

 

- Output