소프트웨어 공부/python 그런데 빅데이터를 곁들인

빅데이터 이론공부 1. 빅데이터의 의미와 기술 및 제도

띠요용 2023. 7. 27. 08:31

1. 빅데이터 정의와 특징

 

2. 데이터의 유형 

  • 정형데이터(Structured Data) : 정해진 형식과 구조
  • 반정형데이터(Semi-structured Data) : JSON, XML, RDF, HTML 등
  • 비정형데이터(Unstructured Data0) : 동영상, 이미지, 음성, 문서, 메일 등

3. 지식창조 메커니즘 

  공통화, 표출화, 연결화, 내면화

 

4. 지식의 피라미드

  지혜, 지식, 정보, 데이터

 

5. 데이터베이스

  • 데이터베이스 관리 시스템(DBMS: Data Base Management System)
  • SQL(Structured Query Language)
  • OLTP(OnLine Transaction Processing)
  • OLAP(OnLine Analytical Processing)

6. 데이터 웨어하우스(DW : Data Warehouse)

  사용자가 어떤 결정하는데 도와줄 수 있는 데이터들을(베이스에 있는것) 공통형식으로 바꾸어 관리 해주는 베이스

  상세한 내용은 계속 되는 이론에서 다루게 된다. DW를 쓰는것을 기본으로 하고 공부한다고 생각하면 됨

 

7. 빅데이터

  • 특징 : 규모, 유형, 속도, 품질, 가치
  • 활용요소 : 자원, 기술, 인력
  • 테크닉 : 연관규칙학습, 유형분석, 유전알고리즘, 기계학습, 회귀분석, 감정분석, 소셜네트워크분석
  • 빅데이터 효과
  • 빅테이터의 가치 측정 - 어렵
  • 빅데이터 모델링 : 통합된 데이터를 일관성있도록 관리 하려고 이용하는 데이터베이스 설계 기법
  • 마이데이터 : 개인 데이터, 개인정보 자기 결정권
  • 빅데이터 관리 조직(수집조직?) : 집중형, 기능형, 분산형
  • 데이터 사이언티스트

8. 빅데이터 플랫폼의 의미와 구조

  • 소프트웨어계층, 플랫폼계층, 인프라스트럭처계층
  • 처리과정 : 데이터생성, 수집, 저장(공유), 처리, 분석, 시각화
  • 수집 : 크롤링(Crawling), 로그수집기, 센서네트워크, RSS Reader/Open API, ETL프로세스(추출, 변환, 적재)
  • 저장 : NoSQL(Not-only SQL), 공유 데이터 시스템, 병렬 데이터베이스 관리 시스템, 분산 파일 시스템, 네트워크 저장 시스템
  • 처리 : 하둡(Hadoop), 아파치스파크(Apache Spark), 맵리듀스(MapReduce)
  • 분석 : 탐구요인분석(EFA), 확인요인분석(CFA)
  • 분석방법 : 분류, 군집화, 기계학습, 텍스트 마이닝, 웹 마이닝, 오피니언 마이닝, 리얼리티 마이닝, 소셜 네트워크 분석, 감성 분석

9. 빅데이터와 인공지능

  • 인공지능의 정의 (기계학습, 딥러닝과의 관계)
  • 기계학습 : 지도학습(분류모형, 회귀모형), 비지도학습(군집분석, 오토인코더, 생성형적대신경망), 강화학습
  • 인공지능 데이터 학습 : 전이학습, 전이학습 기반 사전학습모형, BERT
  • 학습 데이터의 annotation : 주석달기
  • XAI (eXplainable AI), 기계학습 자동화(AutoML)

10. 개인정보관련 법들

  • 개인정보보호 가이드라인(방송통신위원회)
  • 개인정보보호법
  • 정보통신망법
  • 신용정보보호법

11. 개인정보보 보호

  • GDPR(General Data Protection Regulation)
  • 개인정보 비식별화
  • 개인정보 비식별화 조치 가이드라인이 있음
  • 비식별화 조치 방법 : 가명처리, 총계처리, 데이터삭제, 데이터범주화, 데이터 마스킹
  • 데이터처리의 위기

 

 


나머지공부 - 개념

  • JSON :  'JavaScript Object Notation'의 약어이다. 사람이 읽는 언어, 문장을 사용해 데이터를 저장 및 전송하는 open  파일 형식이다. 확장자는 .json 이다. JSON은 형식이 덜 필요해서 XML에 대한 좋은 대체형식이 된다고 한다.
  • Crawling : 스크랩핑과 구분해서 알아두면 좋다. 스크래핑은 웹에서 데이터 수집, 크롤링은 수집 분류 저장을 하는데, 정확히는 웹 서핑에 가깝다고 한다.