1. 빅데이터 정의와 특징
2. 데이터의 유형
- 정형데이터(Structured Data) : 정해진 형식과 구조
- 반정형데이터(Semi-structured Data) : JSON, XML, RDF, HTML 등
- 비정형데이터(Unstructured Data0) : 동영상, 이미지, 음성, 문서, 메일 등
3. 지식창조 메커니즘
공통화, 표출화, 연결화, 내면화
4. 지식의 피라미드
지혜, 지식, 정보, 데이터
5. 데이터베이스
- 데이터베이스 관리 시스템(DBMS: Data Base Management System)
- SQL(Structured Query Language)
- OLTP(OnLine Transaction Processing)
- OLAP(OnLine Analytical Processing)
6. 데이터 웨어하우스(DW : Data Warehouse)
사용자가 어떤 결정하는데 도와줄 수 있는 데이터들을(베이스에 있는것) 공통형식으로 바꾸어 관리 해주는 베이스
상세한 내용은 계속 되는 이론에서 다루게 된다. DW를 쓰는것을 기본으로 하고 공부한다고 생각하면 됨
7. 빅데이터
- 특징 : 규모, 유형, 속도, 품질, 가치
- 활용요소 : 자원, 기술, 인력
- 테크닉 : 연관규칙학습, 유형분석, 유전알고리즘, 기계학습, 회귀분석, 감정분석, 소셜네트워크분석
- 빅데이터 효과
- 빅테이터의 가치 측정 - 어렵
- 빅데이터 모델링 : 통합된 데이터를 일관성있도록 관리 하려고 이용하는 데이터베이스 설계 기법
- 마이데이터 : 개인 데이터, 개인정보 자기 결정권
- 빅데이터 관리 조직(수집조직?) : 집중형, 기능형, 분산형
- 데이터 사이언티스트
8. 빅데이터 플랫폼의 의미와 구조
- 소프트웨어계층, 플랫폼계층, 인프라스트럭처계층
- 처리과정 : 데이터생성, 수집, 저장(공유), 처리, 분석, 시각화
- 수집 : 크롤링(Crawling), 로그수집기, 센서네트워크, RSS Reader/Open API, ETL프로세스(추출, 변환, 적재)
- 저장 : NoSQL(Not-only SQL), 공유 데이터 시스템, 병렬 데이터베이스 관리 시스템, 분산 파일 시스템, 네트워크 저장 시스템
- 처리 : 하둡(Hadoop), 아파치스파크(Apache Spark), 맵리듀스(MapReduce)
- 분석 : 탐구요인분석(EFA), 확인요인분석(CFA)
- 분석방법 : 분류, 군집화, 기계학습, 텍스트 마이닝, 웹 마이닝, 오피니언 마이닝, 리얼리티 마이닝, 소셜 네트워크 분석, 감성 분석
9. 빅데이터와 인공지능
- 인공지능의 정의 (기계학습, 딥러닝과의 관계)
- 기계학습 : 지도학습(분류모형, 회귀모형), 비지도학습(군집분석, 오토인코더, 생성형적대신경망), 강화학습
- 인공지능 데이터 학습 : 전이학습, 전이학습 기반 사전학습모형, BERT
- 학습 데이터의 annotation : 주석달기
- XAI (eXplainable AI), 기계학습 자동화(AutoML)
10. 개인정보관련 법들
- 개인정보보호 가이드라인(방송통신위원회)
- 개인정보보호법
- 정보통신망법
- 신용정보보호법
11. 개인정보보 보호
- GDPR(General Data Protection Regulation)
- 개인정보 비식별화
- 개인정보 비식별화 조치 가이드라인이 있음
- 비식별화 조치 방법 : 가명처리, 총계처리, 데이터삭제, 데이터범주화, 데이터 마스킹
- 데이터처리의 위기
나머지공부 - 개념
- JSON : 'JavaScript Object Notation'의 약어이다. 사람이 읽는 언어, 문장을 사용해 데이터를 저장 및 전송하는 open 파일 형식이다. 확장자는 .json 이다. JSON은 형식이 덜 필요해서 XML에 대한 좋은 대체형식이 된다고 한다.
- Crawling : 스크랩핑과 구분해서 알아두면 좋다. 스크래핑은 웹에서 데이터 수집, 크롤링은 수집 분류 저장을 하는데, 정확히는 웹 서핑에 가깝다고 한다.
'소프트웨어 공부 > python 그런데 빅데이터를 곁들인' 카테고리의 다른 글
파이썬 기초공부 #2. COS 샘플문제풀기 2차 (0) | 2024.01.01 |
---|---|
파이썬 기초공부 #1. COS 샘플문제풀기 1차 (0) | 2023.12.31 |
빅데이터 이론공부 1-3. 데이터 적재 (0) | 2023.08.29 |
빅데이터 이론공부 1-3. 데이터 수집 (1) | 2023.08.29 |
빅데이터 이론공부 2. 데이터 분석계획 (0) | 2023.08.06 |