소프트웨어 공부/python 그런데 빅데이터를 곁들인

빅데이터 이론공부 1-3. 데이터 수집

띠요용 2023. 8. 29. 11:44

1. 데이터 수집 : 여러 곳에 분포한 자료들을 한곳으로 모아 두는 것

 - 데이터의 종류를 내부데이터 (서비스 시스템, 네트워크 및 서버 장비, 마케팅 데이터), 외부데이터(소셜데이터, 특정 기관 데이터, M2M데이터, LOD)로 구분할 수 있다. 

 - M2M(Machine to Machine) : 사물 사이의 통신

 - LOD(Linked Open Data) : 웹상에서 누구나 접근하여 사용할 수 있도록 공개되는 데이터

 - ERP(Enterprise Resource Planning) : 회사 자원?

 - CRM(Customer Relationship Management) : 고객관리

 - KMS(Knowledge Management System) : 지식 관리

 

2. 데이터 수집기술

  (1) 정형데이터

    - ETL(Extract Transform Load) : 추출, 변환, 적재의 약자로 데이터를 웨어하우스에 저장하는 기초기술

    - FTP(File Transfor Protocol) : 통신프로토콜(TCP/IP, UDP)을 이용하여 데이터를 송수신 

    - API(Application Programming Interface) : 프로그램 간 통신에 사용하는 언어나 메시지 형식

    - DBToDB : DBMS간 데이터를 동기화 하거나 전송하는 기술

    - 스쿱(Sqoop) : RDBMS와 hadoop 값 데이터를 전송하는 기술

  (2) 비정형데이터

    - Crawling : 인터넷상 웹 문서 나 정보 등등을 수집하는 기술, 웹 문서를 그대로 가져옴

    - RSS(Rich Site Summary) : 웹사이트에 게시되어 있는 글들을 공유하는 하나의 배포 방법

    - Open API : 실시간 데이터 수신이 가능하도록 공개된 API

    - Chukwa : 분산시스템에서 데이터를 수집하고 hadoop 파일 저장 등등

    - Kafka : 대용량 로그처리 실시간

  (3) 반정형데이터

    - Flume (아파치 플럼): 분산환경, 대량의 로그 정보를 수집, 전송, 분석 (신뢰성, 확장성, 효율성)

    - Scribe : 다수의 서버를 실시간으로 수집 분산시스템에 저장

    - Sencing : 센서 데이터를 네트워크를 통해 수집

    - Streaming : 

 (4)

    - Scrapy : 웹사이트를 crawling 하고 구조화된 데이터를 수집, API를 이용하여, 범용으로 사용할 수 있다 (파이썬, 단순한 스크랩과정, 편의적 요소)

 

3. 데이터 유형

  (1) 데이터 형태

    - HTML(Hypertext Markup Language) : 웹페이지를 만듦, 텍스트, 태그, 스크립트

    - XML(eXtencible Markup Language) : tag를 사용하는 언어, 엘레번트, 속성, 엔티티, 주석, 처리명령, CDATA

    - JSON(JavaScript Object Notation) : 경량

  (2) 데이터 저장방식

    - 파일 시스템 

    - 관계형 데이터베이스

    - 분산처리 데이터베이스

  (3) 데이터 적절성 검증(누소정보저대)

    - 누락 점검

    - 소스 데이터와 사이즈,개수를 비교

    - 정확성 점검

    - 보안 점검

    - 저작권 점검

    - 대량 트래픽 발생 여부

 

4. 데이터 변환(Data Transformation)

  (1) 변환방식

    - 관계형 데이타 베이스 (비정형 데이터를 정형 데이터 형태로 저장하는방식)이 있다. 솔루션으로 MySQL, Oracle, DB2, PostgreSQL이 있다.

    - 분산데이터 저장하는 방식의 솔루션으로는 HDFS(Hadoop Distributed File System) 이 있다.

    - 데이터 웨어하우스(주제별, 시계열적으로 저장하는 방식)이 있다. 네티자, 테라데이타, 그린플럼의 DW 솔루션이 있다.

    - NoSQL(키-값 형태로 저장하는 방식)이 있다. Hbase, Cassandra, MongoDB

  (2) 수행자료 5

 

  (3) 데이터베이스 구조 설계 (수집데이터를 저장하기 위한)

  절차4단계 : DBMS 구축 여부 > 저장 데이터베이스를 결정 > DBMS를 설치 > 테이블 구조를 설계

 

  (4) 비정형/반정형 데이터를 구조적 형태로 전환하여 저장 

 

  (5) 융합 데이터베이스 설계

 

  (6) 개념적 설계, 논리적 설계

 

5. 데이터 비식별화

  (1)개인이 알아볼 수 없도록하는 조치, 식별자(Identifier), 속성자(Attribute value)

  (2) 비식별 조치 방법

    - 가명처리 : 휴리스틱 가명화, 암호화, 교환방법

    - 총계처리 : 총계처리, 부분총계, 라운딩, 재배열

    - 데이터 삭제 : 식별자 삭제, 식별자 부분삭제, 레코드 삭제, 식별요소 전부삭제

    - 데이터 범주화 : 감추기, 랜덤라운딩, 범위 방법, 제어 라운딩

    - 데이터 마스킹 : 임의 잡음 추가, 공백과 대체

    - 적정성 평가 : k-익명성, l-다양성, t-근접성

 

6. 데이터 품질 검증

  (1) 정의와 중요성

  (2) 데이터 품질

    - 정형 데이터 품질 기준 5

    - 비정형 데이터 품질 기준 5

    - 진단 기법