1. 데이터 수집 : 여러 곳에 분포한 자료들을 한곳으로 모아 두는 것
- 데이터의 종류를 내부데이터 (서비스 시스템, 네트워크 및 서버 장비, 마케팅 데이터), 외부데이터(소셜데이터, 특정 기관 데이터, M2M데이터, LOD)로 구분할 수 있다.
- M2M(Machine to Machine) : 사물 사이의 통신
- LOD(Linked Open Data) : 웹상에서 누구나 접근하여 사용할 수 있도록 공개되는 데이터
- ERP(Enterprise Resource Planning) : 회사 자원?
- CRM(Customer Relationship Management) : 고객관리
- KMS(Knowledge Management System) : 지식 관리
2. 데이터 수집기술
(1) 정형데이터
- ETL(Extract Transform Load) : 추출, 변환, 적재의 약자로 데이터를 웨어하우스에 저장하는 기초기술
- FTP(File Transfor Protocol) : 통신프로토콜(TCP/IP, UDP)을 이용하여 데이터를 송수신
- API(Application Programming Interface) : 프로그램 간 통신에 사용하는 언어나 메시지 형식
- DBToDB : DBMS간 데이터를 동기화 하거나 전송하는 기술
- 스쿱(Sqoop) : RDBMS와 hadoop 값 데이터를 전송하는 기술
(2) 비정형데이터
- Crawling : 인터넷상 웹 문서 나 정보 등등을 수집하는 기술, 웹 문서를 그대로 가져옴
- RSS(Rich Site Summary) : 웹사이트에 게시되어 있는 글들을 공유하는 하나의 배포 방법
- Open API : 실시간 데이터 수신이 가능하도록 공개된 API
- Chukwa : 분산시스템에서 데이터를 수집하고 hadoop 파일 저장 등등
- Kafka : 대용량 로그처리 실시간
(3) 반정형데이터
- Flume (아파치 플럼): 분산환경, 대량의 로그 정보를 수집, 전송, 분석 (신뢰성, 확장성, 효율성)
- Scribe : 다수의 서버를 실시간으로 수집 분산시스템에 저장
- Sencing : 센서 데이터를 네트워크를 통해 수집
- Streaming :
(4)
- Scrapy : 웹사이트를 crawling 하고 구조화된 데이터를 수집, API를 이용하여, 범용으로 사용할 수 있다 (파이썬, 단순한 스크랩과정, 편의적 요소)
3. 데이터 유형
(1) 데이터 형태
- HTML(Hypertext Markup Language) : 웹페이지를 만듦, 텍스트, 태그, 스크립트
- XML(eXtencible Markup Language) : tag를 사용하는 언어, 엘레번트, 속성, 엔티티, 주석, 처리명령, CDATA
- JSON(JavaScript Object Notation) : 경량
(2) 데이터 저장방식
- 파일 시스템
- 관계형 데이터베이스
- 분산처리 데이터베이스
(3) 데이터 적절성 검증(누소정보저대)
- 누락 점검
- 소스 데이터와 사이즈,개수를 비교
- 정확성 점검
- 보안 점검
- 저작권 점검
- 대량 트래픽 발생 여부
4. 데이터 변환(Data Transformation)
(1) 변환방식
- 관계형 데이타 베이스 (비정형 데이터를 정형 데이터 형태로 저장하는방식)이 있다. 솔루션으로 MySQL, Oracle, DB2, PostgreSQL이 있다.
- 분산데이터 저장하는 방식의 솔루션으로는 HDFS(Hadoop Distributed File System) 이 있다.
- 데이터 웨어하우스(주제별, 시계열적으로 저장하는 방식)이 있다. 네티자, 테라데이타, 그린플럼의 DW 솔루션이 있다.
- NoSQL(키-값 형태로 저장하는 방식)이 있다. Hbase, Cassandra, MongoDB
(2) 수행자료 5
(3) 데이터베이스 구조 설계 (수집데이터를 저장하기 위한)
절차4단계 : DBMS 구축 여부 > 저장 데이터베이스를 결정 > DBMS를 설치 > 테이블 구조를 설계
(4) 비정형/반정형 데이터를 구조적 형태로 전환하여 저장
(5) 융합 데이터베이스 설계
(6) 개념적 설계, 논리적 설계
5. 데이터 비식별화
(1)개인이 알아볼 수 없도록하는 조치, 식별자(Identifier), 속성자(Attribute value)
(2) 비식별 조치 방법
- 가명처리 : 휴리스틱 가명화, 암호화, 교환방법
- 총계처리 : 총계처리, 부분총계, 라운딩, 재배열
- 데이터 삭제 : 식별자 삭제, 식별자 부분삭제, 레코드 삭제, 식별요소 전부삭제
- 데이터 범주화 : 감추기, 랜덤라운딩, 범위 방법, 제어 라운딩
- 데이터 마스킹 : 임의 잡음 추가, 공백과 대체
- 적정성 평가 : k-익명성, l-다양성, t-근접성
6. 데이터 품질 검증
(1) 정의와 중요성
(2) 데이터 품질
- 정형 데이터 품질 기준 5
- 비정형 데이터 품질 기준 5
- 진단 기법
'소프트웨어 공부 > python 그런데 빅데이터를 곁들인' 카테고리의 다른 글
파이썬 기초공부 #2. COS 샘플문제풀기 2차 (0) | 2024.01.01 |
---|---|
파이썬 기초공부 #1. COS 샘플문제풀기 1차 (0) | 2023.12.31 |
빅데이터 이론공부 1-3. 데이터 적재 (0) | 2023.08.29 |
빅데이터 이론공부 2. 데이터 분석계획 (0) | 2023.08.06 |
빅데이터 이론공부 1. 빅데이터의 의미와 기술 및 제도 (0) | 2023.07.27 |