본문 바로가기

Database & Bigdata/공공 빅데이터 청년 인턴십16

[ DAY 7 ] 웹 크롤링/스크래핑 1. 웹 페이지 크롤링 [ 웹 페이지 추출 ] - 추출 시 HTTP 헤더와 HTML의 meta 기반으로 인코딩 방식을 판별 필요 - 표준 라이브러리 urllib.requst 모듈을 사용해 웹 페이지 추출 -> urlib.requset에 포함된 urlopen() 함수에 url을 지정하면 추출 가능 * 라이브러리 : 다른사람이 만들어 놓은 코드의 집합 (목적에 맞게 사용 ) - HTTP 헤더를 변경 불가, Basic 인증 사용을 위한 복잡한 처리 필요 (urllib 라이브러리 해당) -> HTTP 헤더 변경 및 Basic 인증을 위해 urllib 대신 Request 모듈 사용 필요 - urllib를 이용한 웹페이지 추출 from urllib.request import urlopen f = urlopen('h.. 2020. 9. 1.
[DAY 6] Python기초 [ 파이썬 소개 ] - 단순한 언어 , 쉬운 문법, 가독성, 간결한 코드 - FLOSS(Free/Libre and Open Source Software) - 메모리 관리 등이 불필요한 고수준 언어 - 유니코드 지원 (한글 변수 사용 가능 ) - 동적 타이핑 (동적으로 변수 타입이 변형됨) - 방대한 규모의 라이브러리 - 언어 습득을 위한 진입장벽이 높지 않음 - 머신러닝/딥러닝 분야에서 많이 활용 [ ANACONDA ] https://www.anaconda.com/products/individual Anaconda | Individual Edition Anaconda's open-source Individual Edition is the easiest way to perform Python/R data .. 2020. 8. 31.
[DAY 5] R로 배우는 통계 이해 - 회귀와 예측 [ 5.1 단순선형회귀 ] 상관분석 vs 단순 선형 회귀분석 상관분석 : 두 양적 자료의 선형관계 (또는 연관) 유무를 통계적 관점으로 다룰 수 있지만 두 자료의 선형 관계식 제시는 X 상관관계 : 두 변수 사이의 전체적인 관련 강도를 측정하는 것이라면, 회귀는 관계 자체를 정량화하는 방법이라는 점에서 차이가 있음 단순 선형 회귀분석 : 두 자료의 선형식과 설명식과 설명할 수 없는 오차항(확률변수)으로 만들어진 모형 ex) 키가 170일 때, 몸무게값 파악 가능 - 회귀모델 한 변수와 또 다른 변수의 크기에 어떤 관계를 정량화 하는 법 - 단순선형회귀 모델 선형관계(즉, 직선)을 이용해서 변수 X로 부터 변수 Y를 예측 한 변수와 또 다른 변수의 크기에 어떤 관계를 정량화 하는 방법 Y = b0+b1 .. 2020. 8. 28.
[DAY 5] R로 배우는 통계 이해 - 통계적 실험과 유의성 검정 [ 4.2 가설 검정 ] 1. 가설 검정 2. 유의수준 설정 3. 검정방법 설정 4. P값 산출 5. P값 > 유의수준 이면 귀무가설 채택(H0) P값 실험 설계 -> 데이터 수집 -> 추론 및 결론 도출 - A/B 검정 두 처리 방법/제품/절차 중 어느 쪽이 우월하다는 것을 입증하기 위해 실험군을 두 그룹으로 나눠 진행하는 실험 처리군 : 특정 처리에 노출된 대상들의 집단 대조군 : 어떠한 처리도 하지않은 대상들의 집단 - 귀무가설 / H0 영가설 우연에 의한 결과라는 가설 .. 2020. 8. 28.