[ 빅데이터 분석 및 분석 Tool 개요 ]
1. 빅데이터 분석의 개요
- 빅데이터란 ?
기존 데이터베이스 관리도구의 능력을 넘어 대량(테라, 제타)의 정형 또는 비정형 데이터
- 빅데이터 분석이란?
대량(수십 테라바이트)의 정형 또는 비정형 데이터로부터 가치를 추출하는 기술(과정)
- 빅데이터 분석 과정
소스 -> 수집/저장 -> 처리/저장 -> 분석 -> 표현
2. 빅데이터 분석 툴의 개요
- 빅데이터 분석에서 Tool
데이터 수집 | 데이터 정제 | 데이터 분석 | 데이터 표현 |
- Google Spreadsheet - Python - R |
- OpenRefine - Python - R - BigZAMi |
- Power BI - Python - R - BigZAMi |
- Tableau -D3.js - Kibana - QGIS - Power BI - Python - R - BigZAMi |
3. 빅데이터 분석 Tool, Python을 이용한 시각화
- 아이리스(iris) 데이터
-
통계학자인 피셔(Fisher) 가 소개한 데이터
-
붓꽃의 3가지 종(setosa, versicolor, virginica)에 대해 꽃받침 sepal과 꽃잎petal의 길이를 정리한 데이터
-
이해하기 쉬우며 크기가 작고 기계학습에서 인기있는 분야 중 하나인 분류에 적합한 데이터
-
다른 데이터 분석이나 기계 학습 관련 라이브러리에서 자주 사용되고 있으므로 이 데이터를 알아 두는 것 자체가 의미
- 아이리스(iris) 데이터 시각화
from sklearn.datasets import load_iris # scikit-learn의 샘플 데이터 로드를 위한 import
import pandas as pd # 데이터 프레임으로 변환을 위해 임포트
iris = load_iris()
# feature_names와 target을 레코드로 갖는 데이터프레임 생성
df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
df['target'] = iris.target
# 0.0, 1.0, 2.0으로 표현된 label을 문자열로 매핑
df['target'] = df['target'].map({0:"setosa", 1:"versicolor", 2:"virginica"})
# 시각화를 위한 패키지 임포트
import matplotlib.pyplot as plt
import seaborn as sns
# 슬라이싱을 통해 feature와 label 분리
x_data = df.iloc[:, :-1]
y_data = df.iloc[:, [-1]]
# 시각화 - 박스플롯
sns.boxplot(x="target", y="petal width (cm)", data=df)
plt.show()

[ 빅데이터 분석 및 분석 Tool, BigZAMi 개요 ]
1. 빅데이터 분석 Tool, BigZAMi의 개요
- BigZAMi란 ?
블록코딩 기반의 빅데이터 분석 솔루션
- BigZAMi 주요 특징
- 사용자 관점의 UI/UX
- R 코드의 블록화
- 그래프에서의 데이터의 쉬운 처리
- 알고리즘 시뮬레이션/추천
- 마우스 실행만으로 빅데이터 분석
- 데이터 불러오기, 데이터 전처리, 다양한 그래프, 분석 알고리즘 클릭으로 실행
- BigZAMi 주요기능
- 손쉬운 업로드 (CSV, RDS, TEXT, DB Connect)
- 다양한 데이터 전처리 기능 (결측치 처리, ROW 병합, 이상치 처리 등)
- 다양한 그래프 (라인 그래프, 파이 그래프, 상자 그래프, 산점도, 버블차트, 워드 클라우드 등)
- 다양한 분석 모델 (상관 분석, 연관 분석, 회귀 분석, Nnet, CNN 등)
2. 빅데이터 분석 Tool, BigZAMi 둘러보기
bigzami 홈페이지
고급 분석 기술이 없는 사람들도 다양한 분야에 데이터 분석을 적용함으로써 최적의 의사결정과 투자 효율성 증대 등 비즈니스 생산성을 극대화하는 것이 가능합니다.
www.bigzami.com
- 타이타닉 샘플 데이터 불러오기

- 데이터 전처리 : 자료 요약


- 데이터 전처리 : 결측치 처리



- 데이터 시각화 : 막대그래프


[ 빅데이터 분석 및 분석 Tool, QGIS 개요 ]
1. 빅데이터 분석 Tool, QGIS 개요
- QGIS란 ?
오픈소스 기반의 공간 데이터 조회, 편집, 분석 기능을 제공하는 지리정보체계 소프트웨어
- QGIS (Quantum GIS)
- 게리셔먼이라는 개발자가 2002년 부터 개발
- 지원 운영 체제 : MS Windows, Mac OSX, Linux, Unix
- 라이선스 : GPL
- 기반 언어 : C++, Python, QT Framework로 개발
https://qis.orgqgis.org/ko/site/forusers/download.htmlqgis.org/ko/site/index.html
QGIS 다운로드
qgis.org
https://docs.qgis.org/2.18/ko/docs
QGIS 2.18 용 문서
docs.qgis.org
- QGIS 주요기능
QGIS는 핵심기능과 플러그인의 형태로 제공되는 많은 GIS 공통 기능을 제공함
- 데이터 보기
- Vector data(PostGIS, SpatialLIte, MSSQL Spatial, Oracle Spatial 등 공간 DB 데이터, ESRI Shape 파일)
- Raster date(GeoTIFF, ERDAS IMG, Arclnfo ASCII GRID, JPEG, PNG 등)
- GRASS 데이터베이스가 지원하는 GRASS Raster & Vector Data
- OGC 웹 서비스로 서비되는 온라인 공간 데이터
- 데이터 탐색 및 지도 제작
- QGIS 브라우저, 객체 식별/선택, 속성 편집/보기/검색 등
- 데이터 생성, 편집, 관리 및 저장
- Shape 파일 및 GRASS 벡터 레이어 생성, 편집 기능 등
- 데이터 분석
- 벡터 분석, 샘플링, 공간 처리(geoprocessing), 도형 및 데이터베이스 관리
- 온라인 맵 발행
- WMS, WMTS, WMS-C, 또는 WFS/WFS-T 클라이언트 및 WMS, WCS 또는 WFS 서버로 사용
- 플러그인을 통한 기능 확장
- 기본 플러그인 외 다양한 3rd Party 플러그인 존재
- Python Console
- 사용자가 직접 스크립트를 작성해 새로운 기능 제작 및 활용 가능
- QGIS 데이터 주요 포맷

[ 빅데이터 분석 및 분석 Tool을 이용한 모델링의 개요 ]
- 분석 모델링의 분석 기법의 이해


- 알고리즘 접근 방법

[ 빅데이터 분석 및 분석 Tool, QGIS를 이용한 모델링의 개요 ]
1. 경기도 학교 안전지역
- 네이버 지도를 불러와서 기본 지도 정보로 사용
웹 > TMS for Korea > Naver Maps v5 > Naver Street

- 레이어 추가하기 : 구분자로 분리된 텍스트 파일(CSV)에서 불러오기

레이어 추가하기 - 구분자로 분리된 텍스트 파일(CSV)에서 불러오기

* 예시데이터에 한글이 깨져서 보이면 인코딩 EUC-KR로 변경하기
* 파일 포맷은 CSV(쉼표로 구분된 값)로 선택해 필드를 쉼표 기준으로 불러옴
- 지오메트리(CRS) 설정
도형 정의 > 포인트 좌표 > X필드 : 경도, Y필드 : 위도 선택

* 도형 좌표계 : WGS 84
Naver Street 우측 마우스 > 좌표계 설정 > 레이어 좌표계 설정

선택된 좌표계 확인

초등학교 주변 어린이 보호구역 오른쪽 마우스 > 속성

일반정보 > 좌표 체계 선택하여 WGS84 지오메트리 설정함

- 경기도 학교 안전지역 위치를 공간 시각화해 그 분포를 최종 확인

- 공공데이터의 여러 조건을 필터 연산 설정
Safetyzone_GG(경기도 학교 안전 지역 위치) 우클릭 > 필터 설정 > 쿼리 작성기


- 레이어의 스타일을 분류값 선택으로 하여 공간시각화 결과 확인
레이어 오른쪽 마우스 클릭 > 속성 > 심볼 > 분류값 사용 선택

* Y, N에 따른 심볼 색상 구분됨

- 레이어의 스타일을 열 지도로 선택으로 하여 공간시각화 결과 확인
레이어 오른쪽 마우스 클릭 > 속성 > 심볼 > 열 지도 선택


2. 경기도 어린이 놀이터 안전사고 다발지역
- SHP 파일변환
1. 기본 지도 레이어 추가 - 네이버 하이브리드 지도 불러오기
웹 > TMS for Korea 선택 > Naver Maps 선택 > Naver Hybrid 선택

2. 어린이 사고위험율 SCV 데이터 불러오기
- CSV 파일을 열어 네이버 지도 위에 layer를 올려 공간시각화 확인

3. 공간데이터 가시화를 위한 공간 데이터 변경 (CSV - SHP파일)
레이어 우클릭 > 내보내기 > 객체를 다른 이름으로 저장

4. SHP파일과 Naver Hybrid 지도를 통합해 공간 시각화 결과 확인

- 벡터연산
1. 행정_읍면동.shp 데이터파일 불러오기

2. 행정_읍면동SHP 데이터 위에 히트맵 레이어 올리기

* child_playground layer는 열지도(히트맵)으로 설정 (속성 > 심볼 > 열지도선택)
3. 행정_읍면동 SHP +어린이안전도사고발생분석의 벡터 연산
벡터 > 데이터 관리 도구 > 위치에 이용하여 속성을 조인

대상 레이어 : 가시화하고자 하는 공간 벡터 레이어 선택
조인 레이어 : 결합하고자 하는 공간 벡터 레이어 선택
- 스타일 변환
1. 가시화된 결과에 벡터레이어의 스타일 정하기
레이어 오른쪽 마우스 > 속성 > 스타일 단계 구분 선택
컬럼 : 표현하고자 하는 속성 선택
색상표 : 표현하고자 하는 색상표 선택
모드 : 등간격으로 선택 후 분류 선택
클래스 : 구분하고자하는 단계 선택
2. 가시화된 결과 벡터레이어의 라벨 설정
레이어 오른쪽 마우스 > 속성> 라벨 > Show labels for this layer 선택
Label with에서 EMD_KOR_NM 선택
3. 최종 가시화 결과 확인
'Database & Bigdata > 공공 빅데이터 청년 인턴십' 카테고리의 다른 글
[ DAY 17 ] 표준분석모델실습 - 민원분야 (0) | 2020.09.15 |
---|---|
[ DAY 16 ] 표준분석모델실습 - 전기차 충전 인프라 설치 입지 선정(천안) (0) | 2020.09.14 |
[ DAY 8 ] 파이썬 크롤러 만들기 (0) | 2020.09.02 |
[ DAY 7 ] 데이터 저장/스크래핑 프로세스 (0) | 2020.09.01 |
[ DAY 7 ] 웹 크롤링/스크래핑 (0) | 2020.09.01 |
댓글