ADP, ADsP 용어 정리 - 데이터의 이해
API (Application Programming Interface )
응용프로그램에서 사용할 수 있도록, 운영체제나 프로그래밍 언어가 제공하는 기능을 제어할 수 있게 만든 인터페이스를 뜻한다.
BA ( Business Analytics )
데이터와 통계를 기반으로 성과에 대한 이해와 비즈니스 통찰력에 초점을 준 분석 방법
- 사전에 예측하고 최적화하기 위함
- BI 보다 진보된 형태
BI ( Business Intelligence ) - 제조부문
기업의 DW에 저장된 데이터에 접근해 경영 의사결정에 필요한 정보를 획득하고 이를 경영활동에 활용하는 것을 말함
과거의 성과를 측정하고 향후 비즈니스를 계획
- 데이터 기반의 의사결정
CMMI (Capability Maturity Model Integration, 능력 성숙도 통합 모델)
소프트웨어 개발 및 전산장비 운영 업체들의 업무 능력 및 조직의 성숙도를 평가하기 위한 모델을 말한다.
CMMI는 기존 능력 성숙도 모델(CMM)을 발전시킨 것으로서, 기존에 소프트웨어 품질보증 기준으로 사용되던 SW-CMM과 시스템 엔지니어링 분야의
품질보증 기준으로 사용되던 SE-CMM을 통합하여 개발한 후속 평가 모델이다.
CMMI는 1~5단계까지 있으며, 5단계가 가장 높은 수준이다.
CMMI는 소프트웨어 개발 및 전산장비 운영 분야의 품질 관련 국제 공인 기준으로 사용되고 있다.
- 레벨 1(Initial) - 개인의 역량에 따라 프로젝트의 성공과 실패가 좌우된다. 소프트웨어 개발 프로세스는 거의 없는 상태를 의미한다.
- 레벨 2(Managed) - 프로세스 하에서 프로젝트가 통제되는 수준으로 조직은 프로세스에 대한 어느 정도의 훈련이 되었다고 볼 수는 있지만,
일정이나 비용과 같은 관리 프로세스 중심이다. 기존 유사 성공사례를 응용하여 반복적으로 사용한다.
- 레벨 3(Defined) - 레벨 2에서는 프로젝트를 위한 프로세스가 존재한다면 레벨 3에서는 조직을 위한 표준 프로세스가 존재한다.
모든 프로젝트는 조직의 프로세스를 가져다 상황에 맞게 조정하여 승인받아 사용한다.
- 레벨 4(Quantitatively Managed) - 소프트웨어 프로세스와 소프트웨어 품질에 대한 정량적인 측정이 가능해진다.
조직은 프로세스 데이터베이스를 구축하여 각 프로젝트에서 측정된 결과를 일괄적으로 수집하고 분석하여
품질평가를 위한 기준으로 삼는다.
- 레벨 5(Optimizing) - 이 레벨에서는 지속적인 개선에 치중한다. 조직적으로 최적화된 프로세스를 적용하여 다시 피드백을 받아 개선하는 상위 단계이다.
CoE (Center of Excellence)
조직 내 새로운 역량을 만들고 확산하기 위한 전문가들의 조합으로 구성된 조직으로 분석 업무를 전사적으로 총괄하는 조직이다.
CRISP-DM 분석 방법론 ( Cross Industry Standard Process For Data Mining)
1996년 유럽 연합의 ESPRIT 에서 있었던 프로젝트에서 시작됐다.
분석 절차
1. 업무 이해
2. 데이터 이해
3. 데이터 준비
4. 모델링
5. 평가
6. 전개
CRM ( Customer Relationship Management ) - 제조부문, 유통부문
선별된 고객으로부터 수익을 창출하고 장기적인 고객 관계를 가능케 함으로서 보다 높은 이익을 창출할 수 있는 솔루션
DW ( Data Warehouse ) - 제조부문
정보 검색을 목적으로 구축된 데이터 베이스이다.
데이터 웨어하우스가 전사적인 규모의 시스템이라 한다면 데이터 마트는 사업부 단위의 소규코 데이터 웨어하우스라 할 수 있다.
4대특성은 1. 데이터 주제 지향성, 2. 데이터 통합, 3. 데이터의 시계열성, 4. 데이터의 비휘발성
EAI ( Enterprise Architecture Integration ) - 금융부문
기업 어플리케이션 통합
기업내의 ERP(전사적 자원관리), CRM(고객관계관리), SCM(공급망계획) 시스템이나 인트라넷 등의 시스템 간에 상호 연동이 가능하도록 통합하는 솔루션
EDI ( Electronic Data Interchange )
표준화된 상거래 서식 또는 공공 서식을 서로 합의된 표준에 따라 전자 문서를 만들어 컴퓨터 및 통신을 매개로 상호 교환하는 것을 의미한다.
ERD ( Entity Relationship Daigram )
- 계략적으로 데이터 및 데이터들의 관계를 표현한 도식회된 그림
- 분석가들은 조직의 데이터를 이해하고, 이를 응용 시스템에 이용하고자 ERD를 작성
- 엔너티(Entity)란 데이터 베이스에 저장할 정보의 주체 혹은 대상
ETL ( Extract Transform Load )
데이터 추출, 변환, 적제의 약자로 비즈니스 인텔리전스 구현을 위한 기본 구성 요소 가운데 하나이다.
ETL 툴은 다양한 원천 데이터를 취합해 데이터를 추출하고 하나의 공통된 포맷으로 변환해 데이터 웨어하우스나 데이터 마트등에 적재하는 과정을
지원하는 툴을 의미한다.
CALS ( Commerce At Lighted Speed )
광속 상거래의 약칭
각종 기술 자료를 디지털화해 관련 데이터를 통합 운영하는 업무 환경을 의미한다.
EDW ( Enterprise Data Warehouse ) - 금융부문
기존 DW를 전사적으로 확장한 모델인 동시에 BPR과 CRM, BSC 같은 다양한 분석 애플리케이션들을 위한 원천
EDW 를 구축하는 것은 단순히 정보를 빠르게 전달하는 대형 시스템을 도입하는 의미가 아닌 기업 리소스의 유기적 통합, 다원화된 관리 체계정비,
데이터의 중복 방지등을 위해 시스템을 재설계하는 것이다.
ERP ( Enterprise Resource Planning ) - 제조부문, 금융부문
제조업을 포함한 다양한 비즈니스 분야에서 생상, 구매, 재고, 주문, 공급자와의 거래 고객서비스 제공 등 주요 프로세스 관리를 돕는 여러 모듈로 구성된
통합 애플리케이션 스프트웨어 패키지
KDD 분석 방법론 ( Knowledge Discovery in Database )
1996년 Fayyad 가 체계적으로 정리한 데이터 마이닝 파로세스로서 데이터 베이스에서 의미있는 지식을 탐색하는 데이터 마이닝, 기계학습, 인공지능,
패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조를 가진다.
분석 절차
1. 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표를 정확하게 설정
2. 데이터셋 선택
3. 데이터 전처리
4. 데이터 변환
5. 데이터 마이닝
6. 데이터 마이닝 결과 평가
KMS ( Knowledge Management System ) - 유통부문
지식관리 시스템의 약자
조직 내의 지식을 체계적으로 관리하는 시스템
예전에는 대부분의 기업이 물품을 생산하던 환경이었지만 요즘에는 지적 재산이 매우 중요해짐에 따라 기업을 관리하는 시스템이 등장함
Meta Data
데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해주는 데이터
OLAP ( On-Line Analytical Processing)
온라인 분석 처리
다차원으로 이루어진 데이터로부터 통계적인 요약 정보를 제공할 수 있는 기술
OLTP ( On-Line Transaction Processing )
온라인 거래 처리
주 컴퓨터와 통신 회선으로 접속되어 있는 복수의 사용자 단말에서 발행상 트랜잭션을 주 컴퓨터에서 처리하여 그 결과를 즉석에서 사용자에게
되돌려 보내 주는 처리 형태
Quick-win (즉각적인 실행을 통한 성과 도출 )
프로세스 진행 과정에서 일반적인 상식과 경험으로 원인이 명백한 경우 불합리한 요소를 개선 단계까지 미루지 않고, 바로 개선함으로써
과제를 단기로 달겅하고, 추진하는 과정을 말한다.
RFID ( RF, Radio Frequency )
무선 주파수를 이용하여 대상(물건, 사람)을 식별할 수 있는 기술로서 안테나와 침으로 구성된 RF 태그에 사용 목적에 알맞은 정보를 저장하여
적용 대상에 부착한 후 판독기에 해당되는 RFID 리더를 통하여 정보를 인식함.
ROI 관점 (투자회수율)
누적된 총 순 효과를 총 비용으로 나누어 계산한 비율
ROI(%) = 누적 순효과 / 총비용
ROI 관점에서의 빅데이터 V4
- Volumn : 데이터 규모/양 (투자비용 요소, Investment)
- Variety : 데이터 종류 / 유형 (투자비용 요소, Investment)
- Velocity : 데이터 생성속도 / 처리속도 (투자비용 요소, Investment)
- Value : 분석 결과 활용 및 실행을 통한 비즈니스 가치 (비즈니스 효과, Return)
우선순위 평가 기준
- 시급성 : 판단 기준은 전략적 중요도가 핵심이며, 이는 전략적 중요도가 시점에 따라 시급성 여부를 고려할 수 있다는 뜻이다.
- 난이도 : 현시점에서 과제를 추진하는 것이 비용과 범위 측면을 고려했을때 바로 적용하기 쉬운 것인지 또는 어려운 것인지를 판단하는 것이다.
Sandbox
미국에서 어린아이를 보호하기 위해 모래통에서만 놀게 하는 데서 유래한 것으로 보안 모델을 말한다.
외부 접근 및 영향을 차단하여 제한된 영역 내에서만 프로그램을 동작시키는 것이다.
샌드박스 내에서 어떤 파일이나 프로세스가 안전하지 못하다고 판명되면, 외부로의 접근을 차단하여 시스템에 피해를 입히는 것을 방지한다.
SCM ( Supply Chain Management ) - 유통부문
제조, 물류, 유통업체 등 유통공급망에 참여하는 모든 업체들이 협력을 바탕으로 정보기술을 활료, 재고를 최적화 하기 위한 솔루션이다.
STEEP
- Social (사회)
- Technological (기술)
- Economic (경제)
- Environmental (환경)
- Political (정치)
VAN ( Value Added Network )
부가가치통신망
일반적인 의미는 통신회선을 소유 또는 임차하여 구성한 네트워크에 단순한 전송 기능 이상의 부가가치를 첨가하여 정보를 축적, 가공, 변환 처리하여
음성 또는 데이터 정보를 제공해 주는 광범위하고도 복합적인 통신 서비스의 집합을 말한다.
블록체인 ( Blockchain ) - 금융부문
데이터 분산 처리 기술, 네트워크에 참여하는 모든 사용자가 모든 거래내역 등의 데이터를 분산, 저장하는 기술을 말함
블록들을 체인 형태로 묶는 형태이기 때문에 블록체인이라는 명칭이 생겨남
기존 거래 방식에서 데이터를 위,변조하기 위해서는 은행의 중앙서버를 공각하면 가능했으나 블록체인인 경우 사실상 해킹이 불가능함.
빅데이터 ( Big Data )
데이터 크기 관점 : 빅데이터는 일반적인 데이터 베이스 소프트웨어로 저장, 관리, 분석 할 수 있는 범위를 초과하는 규모의 데이터 이다. (Makinsey, 2011)
데이터 분석 관점 : 빅데이터는 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 데이터의 초고속 수집, 발굴, 분석을 지원하도록
고안된 차세대 기술 및 아치텍처다 (IDC, 2011)
데이터 가치 관점 : 빅데이터랑 대용량 데이터를 활용해 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해내는 일이다.
이를 활용해 시장, 기업 및 시민과 정부의 관계등 많은 분야에 변화를 가져오는 일이다. (Mayer-Schonberger & Crukier, 2013)
가트너 그룹 더그래니가 언급한 빅데이터 정의
1. Volume : 생성되는 모든 데이터를 수잡
2. Variety : 정형화된 데이터를 넘어 텍스트, 오디오, 비디오 등 모든 유형의 데이터를 분석 대상으로 함
3. Velocity : 두가지 관점의 속도를 의미함. 사용자가 원하는 시간 내에 데이터 분석 결과를 제공하는 것과 데이터의 업데이트 되는 속도가 매우 빨라짐
빅데이터의 기능
1. 빅데이터는 산업 혁명의 석탄, 철에 비유된다.
2. 빅데이터는 원유에 비유된다.
3. 빅데이터는 렌즈에 비유된다.
4. 빅데이터는 플랫폼에 비유된다.
빅데이터가 만들어 내는 본질적인 변화
1. 사전처리에서 사후처리로
2. 표본조사에서 전수조사로
3. 질보다 양으로
4. 인과관계에서 상관관계로
빅데이터 활용 테크닉
1. 연관규칙학습
2. 유형분석
3. 유전알고리즘
4. 기계학습
5. 회귀분석
6. 감정분석
7. 소셜 네트워크 분석
분석방법론
1. 분석 기획
- 비즈니스 이해 및 범위설정
- 프로젝트 정의 및 계획 수립
- 프로젝트 위험 계획 수립
2. 데이터 준비
- 필요 데이터 정의
- 데이터 스토어 설계
- 데이터 수집 및 적합성 점검
3. 데이터 분석
- 분석용 데이터 준비
- 텍스트 분석
- 탐색적 분석
- 모델링
- 모델 평가 및 검증
4. 시스템 구현
- 설계 및 구현
- 시스템 테스트 및 운영
5. 평가 및 전개
- 모델 발전 계획
- 프로젝트 평가 보고
- 평가 및 전개
비즈니스 모델 ( Business Model )
"어떻게 수익을 창출할 것인가" 에 대한 검증
핵심적인 요소를 만든 비즈니스 모델을 바로 비즈니스 모델 캠버스라 한다.
비즈니스 모델 캠버스
- Key Activities (핵심활동) : 사업의 구체적 내용들
- Key Partners (핵심 파트너) : 사업을 수행하는데 도움이 될 전략적 파트너들
- Value Proposition (가치제안) : 고객이 얻을 수 있는 (차별성 있는) 가치들
- Customer Relationships (고객관계) : 고객과 최초로/지속적으로 만나는 방법들
- Customers (고객/세그먼트) : 구체적으로 어떤 고객과 만날 것인가
- Revenue (수입의 흐름) : 수입이 발생 하는 구조
- Channels (유통 채널) : 상품/서비스를 전달하는 매개체/매개조직들
- Key Resources (핵심 자원) : 사업에 필요한 자우너들 (인적/물적/지적/금융)
- Costs (비용구조) : 사업을 수행하고 수익을 발생시키기 위해 필요한 비용
비지도학습 ( Unsupervised Learning)
분류를 하지만 컴퓨터에게 답을 알려줄 수 없다.
즉 훈련용 데이터를 통해 함수를 추론할 수 없다.
컴퓨터가 알아서 분류를 하고, 의미 있는 값을 보여준다.
따라서 예측 등이 아닌, 데이터가 어떻게 구성되어 있는지 밝히는데 주로 사용한다.
일종의 그룹핑 알고리즘으로 볼 수 있다. (군집화)
빅브라더 (Big Brother)
정보의 독점으로 사회를 통제하는 관리 권력, 혹은 그러한 사회체계를 일컫는 말로, 사회학적 통찰과 풍자로 유명한
영국의 소설가 조지 오웰(George Orwell, 1903~1950)의 소설 <<1984년>> 에서 비롯된 용어이다.
상향식 접근 방식 ( Bottom Up Approach )
문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제의 재정의 및 해결 방안을 탐색하고 이를 지속적으로 개선하는 방식
일반적으로 상향식 접근 방식의 데이터 분석은 비지도 학습 (Unsupervised Learning) 방법에 의해 수행된다.
- 하향식 전근과는 반대로 각각의 기능이나 기술을 먼저 만든뒤에 그것들을 모아서 전체 프로그램을 완성시켜 가는것
소셜 네트워크 분석 ( Social network analysis ) = 사회 관계망 분석 (SNA)
영향력 있는 사람을 찾아낼 수 있으면, 고객들 간 소셜 관계를 파악할 수 있다.
애자일 모델 (Agile)
전체적인 플랜을 짜고 문서를 통해 주도해 나가던 과거의 방식(워터폴 방식)과 달리 앞을 예측하며 개발하지 않고
일정한 주기를 가지고 끊이없이 프로토타입을 만들어 내며 필요할 때마다 요구사항을 더하고 수정하여 커다란 소프트웨어를 개발해 나가는 방식
연관규칙 학습 ( Association rule learning )
어떤 변수간에 주목할 만한 상관관계가 있는 지를 찾아내는 방법
유전알고리즘 ( Genetic algorithms )
"최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?" 와 같은 문제를 해결할 때 사용한다.
최적화의 메커니즘을 찾아가는 방법이다.
유형분석 ( Classification tree analysis )
"사용자가 어떤 특성을 가진 집단에 속하는가?" 와 같은 문제를 해결하고자 할때 사용
정보전략계획 ( ISP, Information Strategy Planning)
기업의 경영목표 달성에 필요한 전략적 주요 정보를 포착하고, 주요 정보를 지원하기 위한 전사적 관점의 정보 구조를 도출하며, 이를 수행하기 위한
전략 및 실행 계획을 수립하는 전사적인 종합 정보 추진 계획인다.
지도학습 ( Supervised Learning )
학습을 지도한다는 뜻으로 훈련용 데이터 (Training data) 에 알고리즘을 적용하여 함수를 추론하고 이제 그 추론된 함수를 통해 컴퓨터가 알아서 답을 찾도록 만드는 것이다.
따라서 지도 학습은 명확안 input 과 output 이 본재한다.
이러한 지도학습에는 분류 (Classification ) 와 예측 (Regression) 이 있다.
예측은 데이터를 대표하는 선형 모델등을 만들고 그 모델을 통해 미래의 사건을 예측하는 것이다.
분류는 이전까지 학습된 데이터를 근거로 새로운 데이터가 기존에 학습된 데이터에 분류가 되느냐 안되느냐로 판단할 수 있다.
폭포수 모델 ( Waterfall )
각 단계별로 철저한 검토와 승인 과정을 거쳐 확실히 매듭짓고 다음 단계로 진행하는 모델
- 계획 -> 분석 -> 설계 -> 구현 -> 시험 -> 운용 -> 유지보수
프로토타임 접근법 ( Prototyping )
사용자가 요구 사항이나 데이터를 정화히 규정하기 어렵고 데이터 소스도 명확히 파악하기 어려운 상황에서 일단 분석을 시도해보고 그 결과를 확인해
가면서 반복적으로 개선해 나가는 방법
회귀분석 ( Regression Analysis )
"구매자의 나이가 구매 차량의 차입에 어떤 영향을 미치는가?" 와 같은 질문에 답할 때 사용한다.
하향식 접근 방식 ( Top Down Approach )
현황 분석 또는 인식된 문제점, 전략으로부터 기회나 문제를 탐색, 해당 문제를 데이터 문제로 정의한 후 해결 방안 탐색, 그리고 데이터 분석의
타당성 평가를 거쳐 분석 과제를 도출하는 과정으로 이루어 진다.
- 전체를 먼저 정하고 그 밑에 큰 기능 등을 정한 뒤 그것들을 계속해서 세분화 하여 프로그램을 구조화 시켜 가는것
참고 문서
- 데이터 분석 준전문가 ADsP 한권으로 끝내기 - 황소걸음 아카데미