SQL활용 (Data)
| - About DATA
- DATA 분석의 필요성
- Big DATA 이해
- 정형 / 비정형 DATA 조회 방법 이해
|
SQL활용 (SQL) | - SELECT/FROM/WHERE/ORDER BY
- 그룹 DB 처리 방법
- Table간의 JOIN 구성
- Subquery 활용
- 집합 처리
- Transaction 수행 원리 와 ACID
- DML (Insert, Update, Delete)
- DDL (Table, Index, View, Sequence)
- 대용량 데이터 처리
|
SQL응용 (PLSQL)
| - 변수 선언 방식
- 제어문 작성(IF, LOOP)
- 조합 Data type
- 명시적 커서 활용
- 예외처리
- LOB segment 관리
- Procedure 개발
- Function 개발
- Package 개발
- Trigger 개발
|
데이터베이스 구현 (DB구축) | - DB Architecture 심화 분석
- DW vs. OLTP 환경 이해
- 환경에 따른 구조적 차이 확인
- DB installation
|
데이터베이스 구현 (유지관리) | - DB instance 관리 (Memory, process)
- DB storage 관리
- DB network 관리
- 동시성 제어를 위한 구조 이해
- 성능(Performance) 이해
|
빅데이터 수집 시스템개발 | - 빅데이터수집 활용기술- 플럼 설치, 카프카 설치
- 플럼 수집기능 구현
- 카프카 기능 구현
- 수집 기능 테스트
- 수집 기능 점거
|
빅데이터 저장 시스템개발
| - Unix / Linux 내부 구조 분석
- Linux OS 설치
- OS 메모리 관리 기법
- OS 프로세스 관리 기법
- File 관리 기법
- Storage 관리 기법
- OS shell programming 활용
|
빅데이터 분석 시스템개발 | - R 프로그램 개요 및 기초 문법
- ⓐ R 설치(R Studio) 및 기본 메뉴 실습
- ⓑ 데이터의 유형 및 자료구조 이해
- ⓒ 데이터 입출력 및 파일 처리
- ⓓ 제어문과 반복문
- R 패키지 및 함수 사용
- ⓐ 패키지 설치 및 사용법
- ⓑ 사용자 정의함수 및 내장함수
|
빅데이터 처리 시스템개발 | - 빅데이터 탐색에 활용할 기술 – 하이브, 스파크
- 탐색 아키텍쳐
- 탐색환경구성 – 하이브, 스파크, 우지, 휴 설치
- 휴를 이용한 데이터 탐색
- 하이브를 이용한 데이터 탐색
- 스파크를 이용한 추가 데이터셋 탐색
|
빅데이터 분석 기획
| - 빅데이터 분석 요건 정의하기
- 빅데이터 분석 데이터 확보 기획하기
- 빅데이터 분석 데이터 탐색 기획하기
- 빅데이터 분석 모델링 기획하기
- 빅데이터 분석 결과 적용 계획하기
|
탐색적 데이터 분석 | - 시작하기 위한 준비 및 간단한 소개 : 개별 과제 설정
- 파이썬 설치, 기본 패키지 설치, 파이썬 코드 테스트
- Ipython 설치하기, IPython 사용방법
- 파이썬 코드 작성 방법 및 파이썬 언어 기본
- 복습 : 가상 시스템에 개발환경 다시 설치하기
- NumPy 기본 : 다차원배열 생성 / 연산
- NumPy 기본 : 유니버셜함수 / 배열을 이용한 데이터처리
- NumPy 기본 : 활용 예제
- pandas 기본 : pandas소개 / 색인활용
- pandas 기본 : 기술통계 기본 요약 / 누락 데이터 처리
|
분석용 데이터 구축 | - 데이터 읽고 쓰기 : csv 파일 읽고 쓰기 + 실제 csv 파일 활용 실습
- 데이터 읽고 쓰기 : excel 파일 읽고 쓰기 + 실제 excel 파일 활용 실습
- 데이터 읽고 쓰기 : JSON 파일 읽고 쓰기 + 실제 JSON 파일 활용 실습
- 데이터 읽고 쓰기 : XML 파일 읽고 쓰기 + 실제 XML 파일 활용 실습
- 데이터 읽고 쓰기 : http통신을 활용한 json, xml 파일 저장 / 데이터 처리 / 출력 실습
- 데이터 변형 : 데이터 병합 / 피벗
- 데이터 변형 : 중복제거 / 값 치환 / 문자열 / 미국농무부 데이터 실습
- 데이터 변형 : GroupBy 기반 그룹 연산
|
텍스트 데이터 분석 | - 지도학습(Supervised Learning)
- ⓐ 상관/회귀분석(Correlation and Regression Analysis)
- ⓐ 분류분석(Decision Tree)
- 비지도학습 (unSupervised Learning)
- ⓐ 군집분석(Clustering Analysis)
- ⓐ 연관분석(Association Rule)
- 시계열 분석
- ⓐ 시계열 예측 모형에 적합한 데이터 생성
- ⓑ 시계열 데이터를 이용한 미래 예측
- ⓒ 시계열모형 예측 도식화
|
통계 기반 데이터 분석 | - 가설검정
- ⓐ 기술통계학
- ⓑ 확률과 확률분포
- ⓒ 표본분포
- ⓓ 추정 및 가설검정
- 기술통계분석
- ⓐ 척도별 기술통계량 연산
- ⓑ 교차분석과 교차표 작성
- ⓒ chi-square 분석 및 검정
- 집단별 비율 및 평균 차이 검정
- ⓐ 집단별 비율 차이 검정(binom, prop)
- ⓑ 집단별 평균 차이 검정( T-test, Anova)
|
머신러닝 기반 데이터 분석 | - Machine Learning Overview and Case
- R essential for Machine Learning
- Importing Data (Excel/Database/Web)
- Processing data for Machine Learning
- Data Exploration and Visualization
- Clustering (고객 데이터 분석, 고객 분류)
- Association Rule(장바구니분석, 상품추천)
- Decision Tree
- Random Forest
- Logistic Regression
- k-nn
- Linear Regression / Naive Bayes / k-Nearest Neighbor (상품 분류)
- Artificial Neural Network / Machine Learning 활용을 위한 Web dashboard
- 나이브 베이즈 분류
- 의사결정나무
- 랜던포레스트
- 그래드언트 부스팅
- 회귀분석
- 릿지와 라쏘분석
- 서포트 벡터 머신
- 주성분 분석
- K평군
- 연관성 분석
- 인공신경망(ANN, Artificial Neural Network)
- 에이다부스트 알고리즘
- 기타 : 특징추출, 측징선택, 모델선택 등
- 인공신경망(Neural Net) - 소개 및 XOR 문제 Tensorflow에서 구현
- Deep Neural Net 소개 및 Tensorflow에서 구현
- 여러종류 활성화 함수소개 및 텐서플로우에서 구현
- Tensorflow에서 NN/DNN을 이용한 MINIST 문자분류 실습
- Convolutional Neural Network(CNN) 소개 및 Tensorflow구현
- Tensorflow에서 CNN을 이용한 MINIST 문자분류 실습 및 기존 방법들과 비교
- Recurrent Neural Network(RNN) 소개 및 Tensorflow구현
|
빅데이터 분석 결과 시각화 | - 데이터 분석을 위한 시각화
- ⓐ 이산변수와 연속변수 시각화
- 데이터 분석을 위한 전처리
- ⓐ 데이터 특성 분석
- ⓑ 데이터 전처리
- 데이터 리모델링
- ⓐ 데이터 리모델링 패키지(plyr, dplyr,reshape,reshape2)
- 정형 데이터와 비정형 데이터 처리
- ⓐ 정형 데이터 처리(SQL 데이터 처리)
- ⓑ 비정형 데이터 처리(워드클라우드 및 연관어 분석)
- 시각화 : matplot 기본 / matplot 활용 예제 / pandas + matplot 활용 시각화
- 시계열 데이터 활용 : 시계열 데이터 변환
- 시계열 데이터 활용 : 금융 데이터 활용한 예제
- SciPy 기본 : 기본적인 통계 분석
|
빅데이터 플랫폼 | - 빅데이터 플랫폼 테스트 설계하기
- 빅데이터 플랫폼 기능 테스트하기
- 빅데이터 플랫폼 비기능 테스트하기
|
최종 프로젝트 | - R과 파이썬을 활용한 빅데이터 기획설계 및 프로젝트
|