[ 빅데이터 분석 및 분석 Tool 개요 ]
1. 빅데이터 분석의 개요
- 빅데이터란 ?
기존 데이터베이스 관리도구의 능력을 넘어 대량(테라, 제타)의 정형 또는 비정형 데이터
- 빅데이터 분석이란?
대량(수십 테라바이트)의 정형 또는 비정형 데이터로부터 가치를 추출하는 기술(과정)
- 빅데이터 분석 과정
소스 -> 수집/저장 -> 처리/저장 -> 분석 -> 표현
2. 빅데이터 분석 툴의 개요
- 빅데이터 분석에서 Tool
데이터 수집 | 데이터 정제 | 데이터 분석 | 데이터 표현 |
- Google Spreadsheet - Python - R |
- OpenRefine - Python - R - BigZAMi |
- Power BI - Python - R - BigZAMi |
- Tableau -D3.js - Kibana - QGIS - Power BI - Python - R - BigZAMi |
3. 빅데이터 분석 Tool, Python을 이용한 시각화
- 아이리스(iris) 데이터
-
통계학자인 피셔(Fisher) 가 소개한 데이터
-
붓꽃의 3가지 종(setosa, versicolor, virginica)에 대해 꽃받침 sepal과 꽃잎petal의 길이를 정리한 데이터
-
이해하기 쉬우며 크기가 작고 기계학습에서 인기있는 분야 중 하나인 분류에 적합한 데이터
-
다른 데이터 분석이나 기계 학습 관련 라이브러리에서 자주 사용되고 있으므로 이 데이터를 알아 두는 것 자체가 의미
- 아이리스(iris) 데이터 시각화
from sklearn.datasets import load_iris # scikit-learn의 샘플 데이터 로드를 위한 import
import pandas as pd # 데이터 프레임으로 변환을 위해 임포트
iris = load_iris()
# feature_names와 target을 레코드로 갖는 데이터프레임 생성
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target
# 0.0, 1.0, 2.0으로 표현된 label을 문자열로 매핑
df['target'] = df['target'].map({0:"setosa", 1:"versicolor", 2:"virginica"})
# 시각화를 위한 패키지 임포트
import matplotlib.pyplot as plt
import seaborn as sns
# 슬라이싱을 통해 feature와 label 분리
x_data = df.iloc[:, :-1]
y_data = df.iloc[:, [-1]]
# 시각화 - 박스플롯
sns.boxplot(x="target", y="petal width (cm)", data=df)
plt.show()
[ 빅데이터 분석 및 분석 Tool, BigZAMi 개요 ]
1. 빅데이터 분석 Tool, BigZAMi의 개요
- BigZAMi란 ?
블록코딩 기반의 빅데이터 분석 솔루션
- BigZAMi 주요 특징
- 사용자 관점의 UI/UX
- R 코드의 블록화
- 그래프에서의 데이터의 쉬운 처리
- 알고리즘 시뮬레이션/추천
- 마우스 실행만으로 빅데이터 분석
- 데이터 불러오기, 데이터 전처리, 다양한 그래프, 분석 알고리즘 클릭으로 실행
- BigZAMi 주요기능
- 손쉬운 업로드 (CSV, RDS, TEXT, DB Connect)
- 다양한 데이터 전처리 기능 (결측치 처리, ROW 병합, 이상치 처리 등)
- 다양한 그래프 (라인 그래프, 파이 그래프, 상자 그래프, 산점도, 버블차트, 워드 클라우드 등)
- 다양한 분석 모델 (상관 분석, 연관 분석, 회귀 분석, Nnet, CNN 등)
2. 빅데이터 분석 Tool, BigZAMi 둘러보기
- 타이타닉 샘플 데이터 불러오기
- 데이터 전처리 : 자료 요약
- 데이터 전처리 : 결측치 처리
- 데이터 시각화 : 막대그래프
[ 빅데이터 분석 및 분석 Tool, QGIS 개요 ]
1. 빅데이터 분석 Tool, QGIS 개요
- QGIS란 ?
오픈소스 기반의 공간 데이터 조회, 편집, 분석 기능을 제공하는 지리정보체계 소프트웨어
- QGIS (Quantum GIS)
- 게리셔먼이라는 개발자가 2002년 부터 개발
- 지원 운영 체제 : MS Windows, Mac OSX, Linux, Unix
- 라이선스 : GPL
- 기반 언어 : C++, Python, QT Framework로 개발
https://qis.orgqgis.org/ko/site/forusers/download.htmlqgis.org/ko/site/index.html
https://docs.qgis.org/2.18/ko/docs
- QGIS 주요기능
QGIS는 핵심기능과 플러그인의 형태로 제공되는 많은 GIS 공통 기능을 제공함
- 데이터 보기
- Vector data(PostGIS, SpatialLIte, MSSQL Spatial, Oracle Spatial 등 공간 DB 데이터, ESRI Shape 파일)
- Raster date(GeoTIFF, ERDAS IMG, Arclnfo ASCII GRID, JPEG, PNG 등)
- GRASS 데이터베이스가 지원하는 GRASS Raster & Vector Data
- OGC 웹 서비스로 서비되는 온라인 공간 데이터
- 데이터 탐색 및 지도 제작
- QGIS 브라우저, 객체 식별/선택, 속성 편집/보기/검색 등
- 데이터 생성, 편집, 관리 및 저장
- Shape 파일 및 GRASS 벡터 레이어 생성, 편집 기능 등
- 데이터 분석
- 벡터 분석, 샘플링, 공간 처리(geoprocessing), 도형 및 데이터베이스 관리
- 온라인 맵 발행
- WMS, WMTS, WMS-C, 또는 WFS/WFS-T 클라이언트 및 WMS, WCS 또는 WFS 서버로 사용
- 플러그인을 통한 기능 확장
- 기본 플러그인 외 다양한 3rd Party 플러그인 존재
- Python Console
- 사용자가 직접 스크립트를 작성해 새로운 기능 제작 및 활용 가능
- QGIS 데이터 주요 포맷
[ 빅데이터 분석 및 분석 Tool을 이용한 모델링의 개요 ]
- 분석 모델링의 분석 기법의 이해
- 알고리즘 접근 방법
[ 빅데이터 분석 및 분석 Tool, QGIS를 이용한 모델링의 개요 ]
1. 경기도 학교 안전지역
- 네이버 지도를 불러와서 기본 지도 정보로 사용
웹 > TMS for Korea > Naver Maps v5 > Naver Street
- 레이어 추가하기 : 구분자로 분리된 텍스트 파일(CSV)에서 불러오기
레이어 추가하기 - 구분자로 분리된 텍스트 파일(CSV)에서 불러오기
* 예시데이터에 한글이 깨져서 보이면 인코딩 EUC-KR로 변경하기
* 파일 포맷은 CSV(쉼표로 구분된 값)로 선택해 필드를 쉼표 기준으로 불러옴
- 지오메트리(CRS) 설정
도형 정의 > 포인트 좌표 > X필드 : 경도, Y필드 : 위도 선택
* 도형 좌표계 : WGS 84
Naver Street 우측 마우스 > 좌표계 설정 > 레이어 좌표계 설정
선택된 좌표계 확인
초등학교 주변 어린이 보호구역 오른쪽 마우스 > 속성
일반정보 > 좌표 체계 선택하여 WGS84 지오메트리 설정함
- 경기도 학교 안전지역 위치를 공간 시각화해 그 분포를 최종 확인
- 공공데이터의 여러 조건을 필터 연산 설정
Safetyzone_GG(경기도 학교 안전 지역 위치) 우클릭 > 필터 설정 > 쿼리 작성기
- 레이어의 스타일을 분류값 선택으로 하여 공간시각화 결과 확인
레이어 오른쪽 마우스 클릭 > 속성 > 심볼 > 분류값 사용 선택
* Y, N에 따른 심볼 색상 구분됨
- 레이어의 스타일을 열 지도로 선택으로 하여 공간시각화 결과 확인
레이어 오른쪽 마우스 클릭 > 속성 > 심볼 > 열 지도 선택
2. 경기도 어린이 놀이터 안전사고 다발지역
- SHP 파일변환
1. 기본 지도 레이어 추가 - 네이버 하이브리드 지도 불러오기
웹 > TMS for Korea 선택 > Naver Maps 선택 > Naver Hybrid 선택
2. 어린이 사고위험율 SCV 데이터 불러오기
- CSV 파일을 열어 네이버 지도 위에 layer를 올려 공간시각화 확인
3. 공간데이터 가시화를 위한 공간 데이터 변경 (CSV - SHP파일)
레이어 우클릭 > 내보내기 > 객체를 다른 이름으로 저장
4. SHP파일과 Naver Hybrid 지도를 통합해 공간 시각화 결과 확인
- 벡터연산
1. 행정_읍면동.shp 데이터파일 불러오기
2. 행정_읍면동SHP 데이터 위에 히트맵 레이어 올리기
* child_playground layer는 열지도(히트맵)으로 설정 (속성 > 심볼 > 열지도선택)
3. 행정_읍면동 SHP +어린이안전도사고발생분석의 벡터 연산
벡터 > 데이터 관리 도구 > 위치에 이용하여 속성을 조인
대상 레이어 : 가시화하고자 하는 공간 벡터 레이어 선택
조인 레이어 : 결합하고자 하는 공간 벡터 레이어 선택
- 스타일 변환
1. 가시화된 결과에 벡터레이어의 스타일 정하기
레이어 오른쪽 마우스 > 속성 > 스타일 단계 구분 선택
컬럼 : 표현하고자 하는 속성 선택
색상표 : 표현하고자 하는 색상표 선택
모드 : 등간격으로 선택 후 분류 선택
클래스 : 구분하고자하는 단계 선택
2. 가시화된 결과 벡터레이어의 라벨 설정
레이어 오른쪽 마우스 > 속성> 라벨 > Show labels for this layer 선택
Label with에서 EMD_KOR_NM 선택
3. 최종 가시화 결과 확인
'Database & Bigdata > 공공 빅데이터 청년 인턴십' 카테고리의 다른 글
[ DAY 17 ] 표준분석모델실습 - 민원분야 (0) | 2020.09.15 |
---|---|
[ DAY 16 ] 표준분석모델실습 - 전기차 충전 인프라 설치 입지 선정(천안) (0) | 2020.09.14 |
[ DAY 8 ] 파이썬 크롤러 만들기 (0) | 2020.09.02 |
[ DAY 7 ] 데이터 저장/스크래핑 프로세스 (0) | 2020.09.01 |
[ DAY 7 ] 웹 크롤링/스크래핑 (0) | 2020.09.01 |
댓글