빅데이터플랫폼구축
& AI(인공지능) 실무
과정소개
빅데이터를 크롤링, 패턴
분석으로 AI인공지능까지
파이썬을 기반으로 하여 빅데이터를 이해하는 능력과 처리 능력, 시각화 시켜서
전달하는 능력을 공부합니다. 데이터베이스 입문 부터 머신러닝을 공부하게 되며
R과 파이썬을 활용한 빅데이터 기획 설계 및 프로젝트가 진행됩니다.
과정소개
빅데이터를 크롤링, 패턴
분석 으로 AI 인공지능까지
파이썬을 기반으로 하여 빅데이터를 이해하는 능력과 처리 능력, 시각화 시켜서 전달하는 능력을 공부합니다. 데이터베이스 입문 부터 머신러닝을 공부하게 되며 R과 파이썬을 활용한 빅데이터 기획 설계 및 프로젝트가 진행됩니다.
훈련과정 | 빅데이터 플랫폼구축 & AI(인공지능) 실무 | |||
훈련자격 | ㆍ빅데이터 분야로 취업을 원하는 분 ㆍ 최종학교 졸업예정자 ㆍ 학점은행제, 사이버대학, 방통대 재학생 ㆍ 고용보험에 가입되어 있지 않은 분 | |||
교육시간 | 09:00~18:00 (주 5일수업 / 하루 8시간) , (출석 80%, 결석 20% 가능/한달 4일) | 총교육시간 | 6개월 | |
교육일정 | 21년 3월 15일 ~ 9월 3일(신청가능) 21년 3월 30일 ~ 8월 30일(신청가능) 21년 4월 08일 ~ 8월 13일(신청가능) | |||
교육장소 | 종로 / 강남 / 중화 | |||
교육비용 | 교육총비용 | 전액무료 ※ 개인 부담금 전액지원 (국가기간ㆍ전략산업직종훈련과정) | ||
교육수당지원 | ㆍ국민내일배움 카드 훈련수당 30만원 (소요기간 2주) ㆍ국민취업지원제도 훈련수당 58만원 (소요기간 4주) | |||
비고 | ㆍ수강 중 취업이 되면 조기취업으로 처리가능 ㆍ관련자격증: 정보처리(산업)기사, 빅데이터분석기사, ADsP, SQLD, OCP등 |
교육 수강 절차
01
문의 및 상담 진행
홈페이지 문의 및
오픈소스잡에 방문하여 비전과
적성에 적합한 교육과정을
전문적인 상담을 통해 제공합니다.
02
내일 배움카드 발급
자격요건 확인, 일정 신청확인등
전 과정을 안내하여 훈련생들이
신속하게 내일배움카드를
수령할 수 있게 합니다.
03
교육수강
능력단위별 일정에 맞게 훈련을
실시하며, 능력단위별 평가 및
프로젝트를 진행하여
포트폴리오를 구축합니다.
04
취업지원
취업세미나, 일대일 취업피드백
(이력서&면접컨설팅),
JOB 매칭 솔루션을
제공합니다.
ㆍ데이터베이스 입문 ㆍ데이터 처리 운영
ㆍR ㆍ파이썬
빅데이터 플랫폼 엔지니어링
데이터 랭귀지인 SQL문과 통계에 관한 스킬을 배워 R과
파이썬 언어의 특징을 이해하고 활용하여 프로그래밍의 기본기를 배웁니다.
빅데이터 플랫폼 ㆍ데이터베이스 입문 ㆍ데이터 처리 운영 ㆍ운영체제 인터널 ㆍR ㆍ파이썬 | 머신러닝ㆍ딥러닝 ㆍ통계기반 심화 ㆍ머신러닝 ㆍ딥러닝 ㆍ인공신경망 + 파이널 프로젝트 실행 |
EDUCATION.02
빅데이터 분석 심화
데이터를 기반으로 예측이나 결정을 이끌어내기 위해 특정한 모델을 구축하는 방식의
머신 러닝 데이터를 기반으로 심화된 딥러닝을 통한 인공지능을 구현 할 수 있습니다.
CURRICULUM
교육 과정
오픈소스잡의 연계교육과정은 NCS 교육기준을
준수하고 있습니다.
주제 | 강의 내용 |
---|---|
SQL활용 (Data) | ㆍAbout DATA ㆍDATA 분석의 필요성 ㆍBig DATA 이해 ㆍ정형 / 비정형 DATA 조회 방법 이해 |
SQL활용 (SQL) | ㆍSelect/From/Where ㆍ그룹 DB 처리 방법 ㆍTable간의 JOIN 구성 ㆍSubquery 활용 ㆍ집합 처리 ㆍTransaction 수행 원리 와 ACID ㆍDML (Insert, Update, Delete) ㆍDDL (Table, Index, View, Sequence) ㆍ대용량 데이터 처리 |
SQL응용 (PLSQL) | ㆍ변수 선언 방식 ㆍ제어문 작성(IF, LOOP) ㆍ조합 Data type ㆍ명시적 커서 활용 ㆍ예외처리 ㆍLOB segment 관리 ㆍProcedure 개발 ㆍFunction 개발 ㆍPackage 개발 ㆍTrigger 개발 |
데이터 베이스 구현 (DB구축) | ㆍDB Architecture 심화 분석 ㆍDW vs. OLTP 환경 이해 ㆍ환경에 따른 구조적 차이 확인 ㆍDB installatio |
데이터 베이스 구현 (유지관리) | ㆍDB instance 관리 (Memory, process) ㆍDB storage 관리 ㆍDB network 관리 ㆍ동시성 제어를 위한 구조 이해 ㆍ성능(Performance) 이해 |
빅데이터 수집 시스템개발 | ㆍ빅데이터수집 활용기술- 플럼 설치 ㆍ플럼 수집기능 구현 ㆍ카프카 기능 구현 ㆍ수집 기능 테스트 ㆍ수집 기능 점거 |
빅데이터 저장 시스템개발 | ㆍUnix / Linux 내부 구조 분석 ㆍLinux OS 설치 ㆍOS 메모리 관리 기법 ㆍOS 프로세스 관리 기법 ㆍFile 관리 기법 ㆍStorage 관리 기법 ㆍOS shell programming 활용 |
빅데이터 분석 시스템개발 | ㆍR 프로그램 개요 및 기초 문법 ㆍⓐ R 설치(R Studio) 및 기본 메뉴 실습 ㆍⓑ 데이터의 유형 및 자료구조 이해 ㆍⓒ 데이터 입출력 및 파일 처리 ㆍⓓ 제어문과 반복문 ㆍR 패키지 및 함수 사용 ㆍⓐ 패키지 설치 및 사용법 ㆍⓑ 사용자 정의함수 및 내장함수 |
빅데이터 처리 시스템개발 | ㆍ빅데이터 탐색에 활용할 기술 – 하이브, 스파크 ㆍ탐색 아키텍쳐 ㆍ탐색환경구성 – 하이브, 스파크, 우지, 휴 설치 ㆍ휴를 이용한 데이터 탐색 ㆍ하이브를 이용한 데이터 탐색 ㆍ스파크를 이용한 추가 데이터셋 탐색 |
빅데이터 분석 기획 | ㆍ빅데이터 분석 요건 정의하기 ㆍ빅데이터 분석 데이터 확보 기획하기 ㆍ빅데이터 분석 데이터 탐색 기획하기 ㆍ빅데이터 분석 모델링 기획하기 ㆍ빅데이터 분석 결과 적용 계획하기 |
탐색적 데이터 분석 | ㆍ시작하기 위한 준비 및 간단한 소개 : 개별 과제 설정 ㆍ파이썬 설치, 기본 패키지 설치, 파이썬 코드 테스트 ㆍIpython 설치하기, IPython 사용방법 ㆍ파이썬 코드 작성 방법 및 파이썬 언어 기본 ㆍ복습 : 가상 시스템에 개발환경 다시 설치하기 ㆍNumPy 기본 : 다차원배열 생성 / 연산 ㆍNumPy 기본 : 유니버셜함수 / 배열을 이용한 데이터처리 ㆍNumPy 기본 : 활용 예제 ㆍpandas 기본 : pandas소개 / 색인활용 ㆍpandas 기본 : 기술통계 기본 요약 / 누락 데이터 처리 |
분석용 데이터 구축 | ㆍ데이터 읽고 쓰기 : csv 파일 읽고 쓰기 + 실제 csv 파일 활용 실습 ㆍ데이터 읽고 쓰기 : excel 파일 읽고 쓰기 + 실제 excel 파일 활용 실습 ㆍ데이터 읽고 쓰기 : JSON 파일 읽고 쓰기 + 실제 JSON 파일 활용 실습 ㆍ데이터 읽고 쓰기 : XML 파일 읽고 쓰기 + 실제 XML 파일 활용 실습 ㆍ데이터 읽고 쓰기 : http통신을 활용한 json, xml 파일 저장 / 데이터 처리 / 출력 실습 ㆍ데이터 변형 : 데이터 병합 / 피벗 ㆍ데이터 변형 : 중복제거 / 값 치환 / 문자열 / 미국농무부 데이터 실습 ㆍ데이터 변형 : GroupBy 기반 그룹 연산 |
텍스트 데이터 분석 | ㆍ지도학습(Supervised Learning) ㆍⓐ 상관/회귀분석(Correlation and Regression Analysis) ㆍⓐ 분류분석(Decision Tree) ㆍ비지도학습 (unSupervised Learning) ㆍⓐ 군집분석(Clustering Analysis) ㆍⓐ 연관분석(Association Rule) ㆍ시계열 분석 ㆍⓐ 시계열 예측 모형에 적합한 데이터 생성 ㆍⓑ 시계열 데이터를 이용한 미래 예측 ㆍⓒ 시계열모형 예측 도식화 |
통계 기반 데이터 분석 | ㆍ가설검정 ㆍⓐ 기술통계학 ㆍⓑ 확률과 확률분포 ㆍⓒ 표본분포 ㆍⓓ 추정 및 가설검정 ㆍ기술통계분석 ㆍⓐ 척도별 기술통계량 연산 ㆍⓑ 교차분석과 교차표 작성 ㆍⓒ chi-square 분석 및 검정 ㆍ집단별 비율 및 평균 차이 검정 ㆍⓐ 집단별 비율 차이 검정(binom, prop) ㆍⓑ 집단별 평균 차이 검정( T-test, Anova) |
머신러닝 기반 데이터 분석 | ㆍMachine Learning Overview and Case ㆍR essential for Machine Learning ㆍImporting Data (Excel/Database/Web) ㆍProcessing data for Machine Learning ㆍData Exploration and Visualization ㆍClustering (고객 데이터 분석, 고객 분류) ㆍAssociation Rule(장바구니분석, 상품추천) ㆍDecision Tree ㆍRandom Forest ㆍLogistic Regression ㆍk-nn ㆍLinear Regression / Naive Bayes / k-Nearest Neighbor (상품 분류) ㆍArtificial Neural Network / Machine Learning 활용을 위한 Web dashboard ㆍ나이브 베이즈 분류 ㆍ의사결정나무 ㆍ랜던포레스트 ㆍ그래드언트 부스팅 ㆍ회귀분석 ㆍ릿지와 라쏘분석 ㆍ서포트 벡터 머신 ㆍ주성분 분석 ㆍK평군 ㆍ연관성 분석 ㆍ인공신경망(ANN, Artificial Neural Network) ㆍ에이다부스트 알고리즘 ㆍ기타 : 특징추출, 측징선택, 모델선택 등 ㆍ인공신경망(Neural Net) - 소개 및 XOR 문제 Tensorflow에서 구현 ㆍDeep Neural Net 소개 및 Tensorflow에서 구현 ㆍ여러종류 활성화 함수소개 및 텐서플로우에서 구현 ㆍTensorflow에서 NN/DNN을 이용한 MINIST 문자분류 실습 ㆍConvolutional Neural Network(CNN) 소개 및 Tensorflow구현 ㆍTensorflow에서 CNN을 이용한 MINIST 문자분류 실습 및 기존 방법들과 비교 ㆍRecurrent Neural Network(RNN) 소개 및 Tensorflow구현 |
빅데이터 분석 결과 시각화 | ㆍ데이터 분석을 위한 시각화 ㆍⓐ 이산변수와 연속변수 시각화 ㆍ데이터 분석을 위한 전처리 ㆍⓐ 데이터 특성 분석 ㆍⓑ 데이터 전처리 ㆍ데이터 리모델링 ㆍ ⓐ 데이터 리모델링 패키지(plyr, dplyr,reshape,reshape2) ㆍ정형 데이터와 비정형 데이터 처리 ㆍⓐ 정형 데이터 처리(SQL 데이터 처리) ㆍⓑ 비정형 데이터 처리(워드클라우드 및 연관어 분석) ㆍ 시각화 : matplot 기본 / matplot 활용 예제 / pandas + matplot 활용 시각화 ㆍ시계열 데이터 활용 : 시계열 데이터 변환 ㆍ시계열 데이터 활용 : 금융 데이터 활용한 예제 ㆍSciPy 기본 : 기본적인 통계 분석 |
빅데이터 플랫폼 | ㆍ빅데이터 플랫폼 테스트 설계하기 ㆍ빅데이터 플랫폼 기능 테스트하기 ㆍ빅데이터 플랫폼 비기능 테스트하기 |
최종 프로젝트 | ㆍR과 파이썬을 활용한 빅데이터 기획 설계 및 프로젝트 |
CURRICULUM
교육 과정
오픈소스잡의 교육과정은 NCS 교육기준을 준수하고 있습니다.
주제 | 강의 내용 |
---|---|
SQL활용 (Data) |
ㆍAbout DATA ㆍDATA 분석의 필요성 ㆍBig DATA 이해 ㆍ정형 / 비정형 DATA 조회 방법 이해 |
SQL활용 (SQL) | ㆍSELECT/FROM/WHERE/ORDER BY ㆍ그룹 DB 처리 방법 ㆍTable간의 JOIN 구성 ㆍSubquery 활용 ㆍ집합 처리 ㆍTransaction 수행 원리 와 ACID ㆍDML (Insert, Update, Delete) ㆍDDL (Table, Index, View, Sequence) ㆍ대용량 데이터 처리 |
SQL응용 (PLSQL) | ㆍ변수 선언 방식 ㆍ제어문 작성(IF, LOOP) ㆍ조합 Data type ㆍ명시적 커서 활용 ㆍ예외처리 ㆍLOB segment 관리 ㆍProcedure 개발 ㆍFunction 개발 ㆍPackage 개발 ㆍTrigger 개발 |
데이터베이스 구현 (DB구축) | ㆍDB Architecture 심화 분석 ㆍDW vs. OLTP 환경 이해 ㆍ환경에 따른 구조적 차이 확인 ㆍDB installatio |
데이터베이스 구현 (유지관리) | ㆍDB instance 관리 (Memory, process) ㆍDB storage 관리 ㆍDB network 관리 ㆍ동시성 제어를 위한 구조 이해 ㆍ성능(Performance) 이해 |
빅데이터 수집 시스템개발 | ㆍ빅데이터수집 활용기술- 플럼 설치, 카프카 설치 ㆍ플럼 수집기능 구현 ㆍ카프카 기능 구현 ㆍ수집 기능 테스트 ㆍ수집 기능 점거 |
빅데이터 저장 시스템개발 | ㆍUnix / Linux 내부 구조 분석 ㆍLinux OS 설치 ㆍOS 메모리 관리 기법 ㆍOS 프로세스 관리 기법 ㆍFile 관리 기법 ㆍStorage 관리 기법 ㆍOS shell programming 활용 |
빅데이터 분석 시스템개발 | ㆍR 프로그램 개요 및 기초 문법 ㆍⓐ R 설치(R Studio) 및 기본 메뉴 실습 ㆍⓑ 데이터의 유형 및 자료구조 이해 ㆍⓒ 데이터 입출력 및 파일 처리 ㆍⓓ 제어문과 반복문 ㆍR 패키지 및 함수 사용 ㆍⓐ 패키지 설치 및 사용법 ㆍⓑ 사용자 정의함수 및 내장함수 |
빅데이터 처리 시스템개발 | ㆍ빅데이터 탐색에 활용할 기술 – 하이브, 스파크 ㆍ탐색 아키텍쳐 ㆍ탐색환경구성 – 하이브, 스파크, 우지, 휴 설치 ㆍ휴를 이용한 데이터 탐색 ㆍ하이브를 이용한 데이터 탐색 ㆍ스파크를 이용한 추가 데이터셋 탐색 |
빅데이터 분석 기획 | ㆍ빅데이터 분석 요건 정의하기 ㆍ빅데이터 분석 데이터 확보 기획하기 ㆍ빅데이터 분석 데이터 탐색 기획하기 ㆍ빅데이터 분석 모델링 기획하기 ㆍ빅데이터 분석 결과 적용 계획하기 |
탐색적 데이터 분석 | ㆍ시작하기 위한 준비 및 간단한 소개 : 개별 과제 설정 ㆍ파이썬 설치, 기본 패키지 설치, 파이썬 코드 테스트 ㆍIpython 설치하기, IPython 사용방법 ㆍ파이썬 코드 작성 방법 및 파이썬 언어 기본 ㆍ복습 : 가상 시스템에 개발환경 다시 설치하기 ㆍNumPy 기본 : 다차원배열 생성 / 연산 ㆍNumPy 기본 : 유니버셜함수 / 배열을 이용한 데이터처리 ㆍNumPy 기본 : 활용 예제 ㆍpandas 기본 : pandas소개 / 색인활용 ㆍpandas 기본 : 기술통계 기본 요약 / 누락 데이터 처리 |
분석용 데이터 구축 | ㆍ데이터 읽고 쓰기 : csv 파일 읽고 쓰기 + 실제 csv 파일 활용 실습 ㆍ데이터 읽고 쓰기 : excel 파일 읽고 쓰기 + 실제 excel 파일 활용 실습 ㆍ데이터 읽고 쓰기 : JSON 파일 읽고 쓰기 + 실제 JSON 파일 활용 실습 ㆍ데이터 읽고 쓰기 : XML 파일 읽고 쓰기 + 실제 XML 파일 활용 실습 ㆍ데이터 읽고 쓰기 : http통신을 활용한 json, xml 파일 저장 / 데이터 처리 / 출력 실습 ㆍ데이터 변형 : 데이터 병합 / 피벗 ㆍ데이터 변형 : 중복제거 / 값 치환 / 문자열 / 미국농무부 데이터 실습 ㆍ데이터 변형 : GroupBy 기반 그룹 연산 |
텍스트 데이터 분석 | ㆍ지도학습(Supervised Learning) ㆍⓐ 상관/회귀분석(Correlation and Regression Analysis) ㆍⓐ 분류분석(Decision Tree) ㆍ비지도학습 (unSupervised Learning) ㆍⓐ 군집분석(Clustering Analysis) ㆍⓐ 연관분석(Association Rule) ㆍ시계열 분석 ㆍⓐ 시계열 예측 모형에 적합한 데이터 생성 ㆍⓑ 시계열 데이터를 이용한 미래 예측 ㆍⓒ 시계열모형 예측 도식화 |
통계 기반 데이터 분석 | ㆍ가설검정 ㆍⓐ 기술통계학 ㆍⓑ 확률과 확률분포 ㆍⓒ 표본분포 ㆍⓓ 추정 및 가설검정 ㆍ기술통계분석 ㆍⓐ 척도별 기술통계량 연산 ㆍⓑ 교차분석과 교차표 작성 ㆍⓒ chi-square 분석 및 검정 ㆍ집단별 비율 및 평균 차이 검정 ㆍⓐ 집단별 비율 차이 검정(binom, prop) ㆍⓑ 집단별 평균 차이 검정( T-test, Anova) |
머신러닝 기반 데이터 분석 | ㆍMachine Learning Overview and Case ㆍR essential for Machine Learning ㆍImporting Data (Excel/Database/Web) ㆍProcessing data for Machine Learning ㆍData Exploration and Visualization ㆍClustering (고객 데이터 분석, 고객 분류) ㆍAssociation Rule(장바구니분석, 상품추천) ㆍDecision Tree ㆍRandom Forest ㆍLogistic Regression ㆍk-nn ㆍLinear Regression / Naive Bayes / k-Nearest Neighbor (상품 분류) ㆍArtificial Neural Network / Machine Learning 활용을 위한 Web dashboard ㆍ나이브 베이즈 분류 ㆍ의사결정나무 ㆍ랜던포레스트 ㆍ그래드언트 부스팅 ㆍ회귀분석 ㆍ릿지와 라쏘분석 ㆍ서포트 벡터 머신 ㆍ주성분 분석 ㆍK평군 ㆍ연관성 분석 ㆍ인공신경망(ANN, Artificial Neural Network) ㆍ에이다부스트 알고리즘 ㆍ기타 : 특징추출, 측징선택, 모델선택 등 ㆍ인공신경망(Neural Net) - 소개 및 XOR 문제 Tensorflow에서 구현 ㆍDeep Neural Net 소개 및 Tensorflow에서 구현 ㆍ여러종류 활성화 함수소개 및 텐서플로우에서 구현 ㆍTensorflow에서 NN/DNN을 이용한 MINIST 문자분류 실습 ㆍConvolutional Neural Network(CNN) 소개 및 Tensorflow구현 ㆍTensorflow에서 CNN을 이용한 MINIST 문자분류 실습 및 기존 방법들과 비교 ㆍRecurrent Neural Network(RNN) 소개 및 Tensorflow구현 |
빅데이터 분석 결과 시각화 | ㆍ데이터 분석을 위한 시각화 ㆍⓐ 이산변수와 연속변수 시각화 ㆍ데이터 분석을 위한 전처리 ㆍⓐ 데이터 특성 분석 ㆍⓑ 데이터 전처리 ㆍ데이터 리모델링 ㆍ ⓐ 데이터 리모델링 패키지(plyr, dplyr,reshape,reshape2) ㆍ정형 데이터와 비정형 데이터 처리 ㆍⓐ 정형 데이터 처리(SQL 데이터 처리) ㆍⓑ 비정형 데이터 처리(워드클라우드 및 연관어 분석) ㆍ시각화 : matplot 기본 / matplot 활용 예제 / pandas + matplot 활용 시각화 ㆍ시계열 데이터 활용 : 시계열 데이터 변환 ㆍ시계열 데이터 활용 : 금융 데이터 활용한 예제 ㆍSciPy 기본 : 기본적인 통계 분석 |
빅데이터 플랫폼 | ㆍ빅데이터 플랫폼 테스트 설계하기 ㆍ빅데이터 플랫폼 기능 테스트하기 ㆍ빅데이터 플랫폼 비기능 테스트하기 |
최종 프로젝트 | ㆍR과 파이썬을 활용한 빅데이터 기획설계 및 프로젝트 |