2015/07/16 245

데이터 마이닝 수행 단계

데이터 마이닝 수행 단계 데이터 마이닝 또는 데이터를 분석하는데 있어서 가장 큰 오류 중 하나는 문제에 대한 잘못 된 인식이다. 때로는 어떤 문제를 찾기 위해 분석하고자 목표가 명확하지 않을 때도 있다. 따라서 분석 또는 마이닝을 할 때는 문제에 대한 이해와 목표 등의 명확한 명세가 필요 하다. 다음 순서를 통해서 일반적으로 마이닝 프로젝트를 수행 하는 단계를 살펴 보도록 하자. 마아닝의 모형 구축에 필요한 데이터는 평가용 데이터, 학습용 데이터, 검증용 데이터 의 3종류로 나눌 수 있다. [평가용 데이터] 평가용 데이터는 모형을 적합화 하는 과정의 일부분에 속한다. 따라서 평가용 데이터는 최종적으로 채택된 모형을 새로운 데이터에 적용할 때 발생하는 오차보다 과소 평가 될 수 있다. 그 이유는 평가용 데..

지도학습과 자율학습

지도학습과 자율학습 데이터 마이닝 기법에서 지도학습과 자율학습이 있다. 지도 학습은 분류와 예측을 위해 사용되는 알고리즘이며 자율 학습은 예측 또는 분류를 위해 필요한 출력변수가 없는 경우 사용되는 알고 리즘이다. [지도학습(Supervised Learning)] 지도학습(Supervised Learning)은 훈련 데이터(Training Data)로부터 하나의 함수를 유추해내기 위한 기계 학습(Machine Learning)의 한 방법이다. 훈련 데이터는 일반적으로 입력 개체에 대한 속성을 벡터 형태로 포함하고 있으며 각각의 벡터에 대해 원하는 결과가 무엇인지 표시되어 있다. 이렇게 유추된 함수 중 연속적인 값을 출력하는 것을 회귀분석(Regression)이라 하고 주어진 입력 벡터가 어떤 종류의 값인..

데이터 마이닝에 사용되는 주요 개념

데이터 마이닝에 사용되는 주요 개념 분류(Classification) 분류(Classification)는 데이터 분석의 가장 기본적인 형태이다. 예를 들어 어떤 제품을 판매 하고 있다고 할 때 구매한 사람과 구매하지 않은 사람 또는 구매 제안에 대해 반응한 사람과 반응하지 않은 사람으로 분류 할 수 있다. 데이터 마이닝의 일반적인 임무는 분류 결과가 알려져 있지 않거나 미래에 발생 할 경우 어떤 분류 결과가 나타나는지 또는 나타날 것인지 예측할 목적으로 데이터를 조사하는 것이다. 즉 분류결과가 알려진 유사 데이터를 사용하여 규칙들을 찾아낸 다음 그 규칙들을 분류결과가 알려지지 않은 해당 데이터에 적용하는 것이다. 예측(Prediction) 예측(Prediction)은 집단(구매자/비구매자) 변수보다 수치..

데이터 마이닝의 용어정리

데이터 마이닝의 용어정리 데이터 마이닝은 다양한 분야가 융합된 학문이기 때문에 동일한 의미에 대해서 다양한 용어가 사용된다. 또는 같은 용어를 사용하더라도 학문에 따라 비슷하지만 약간씩 다르게 해석 된다. 예를 들어 알고리즘 이라는 단어만 살펴 보아도 쓰이는 학문에 따라 다르게 해석 될 수도 있다. [알고리즘(algorithm)] 수학 용어사전: 잘 정의되고 명백한 규칙들의 집합 또는 유한 번 의 단계 내에서 문제를 풀기 위한 과정 컴퓨터 용어사전: 어떤 문제를 해결하기 위해 명확히 정의된 유한개의 규칙과 절차의 모임 전기 용어사전: 어떤 문제를 유한 회의 스텝으로 풀기 위한 명확하게 규정된 법칙. 소정의 수순 집합 비파괴 검사 용어사전 : 계산 순서 또는 문제 해결을 위한 순서 광물자원 용어사전 : 특..

데이터 마이닝의 사례

데이터 마이닝의 사례 데이터 마이닝이 우리 생활에 어떻게 활용되고 있을까? 데이터 마이닝을 이용한 실증석 사례를 몇 가지 정리해 보자. 다음 사례는 [한국정보화진흥원] 보고서 자료를 요약 하였다. 원문 링크 : http://www.itfind.or.kr/itfind/ittrend/organScrapView.htm?identifier=02-004-120508-000001 1. 미국 국세청, 탈세 방지 시스템 통한 국가 재정 강화 - 탈세 및 사기로 인한 국가의 재정 위기 가능성 증가 [추진내용] 대용량 데이터와 다양한 기술을 결합하여 탈세 및 사기 범죄 예방 시스템 구축 사기방지 솔루션 소셜 네트워크 분석 데이터 통합 및 지능형 감시 시스템 구축 [효과] 세금 누락 및 불필요한 세금 환급 절감의 효과 발생..

데이터 마이닝의 기원

데이터 마이닝의 기원 우리는 하늘에 먹구름이 있다고 무조건 비가 오지 않는 다는 것을 알고 있다. 다만 비가 올 수 있는 확률은 해가 있을 때 보다는 높기 때문에 비가 올 수도 있다 라고 판단하는 것이다. 이는 단순히 하늘의 색깔만으로는 판단하지 않을 것이다. 먹구름이 있을 때의 바람, 습도, 온도, 그리고 민감한 사람은 냄새(할머니들의 무릎 아픔까지)까지 다양한 환경 변수를 대입하여 비가 올 것이다 를 판단하는 것이다. 이처럼 데이터 마이닝이라는 것은 사실 이미 오래 전부터 우리의 생활 속에 깊이 관여 되어 있었다. 최근 많은 연구자들이 다양한 데이터를 처리하면서 데이터 마이닝 이라는 용어가 탄생하고 좀더 체계적으로 과학적으로 재해석 되면서 많이 부각 된 듯 하다. 또한 많은 도구가 발달 함께 따라 정..

데이터 마이닝이란?(Data mining)

데이터 마이닝이란?(Data mining) 많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여 미래에 실행 가능한 정보를 추출하고 의사결정에 이용하는 과정이다. 데이터베이스로부터 과거에는 알지 못했지만 데이터 속에서 새로운 패턴(모델)을 발견하여 미래에 실행 가능한 정보를 추출해 내고 의사 결정에 이용한다. 모든 정보의 탐색 작업이 데이터 마이닝으로 간주 되지는 않는다. 사용자의 정보 검색 또는 검색 사이트 등에 질의를 통한 작업등은 아무리 복잡한 알고리즘을 사용하였더라도 정보 검색(Information retrieval) 범주에 속한다. 데이터 마이닝은 다른 말로 KDD(knowledge-discovery in database)라고 부른다. 데이터 마이닝은입력 데이터를 변환하여 유용한 정보를 도..

부정사용방지시스템 (FDS (Fraud Detection System))

부정사용방지시스템 (FDS (Fraud Detection System)) 카드사 은행 등의 금융기관은 신용카드 위조나 도난 카드의 사용 등으로 인하여 고객과 카드사의 피해를 최소화 하기 위해 FDS를 운용하고 있다. FDS의 방식을 간단히 요약하자면 일정한 패턴에서 벗어 낫을 때 경고를 발생 하는 것이다. FDS는 크게 두 가지로 판단한다. 룰(rule)방식과 스코어(score)방식이다. 룰 방식은 여러 가지 패턴을 적용한 방식이다. 스코어 방식은 평소 정상 카드 사용 패턴을 유형화 한 뒤 부정사용 패턴과의 상관 관계를 계량화해 점수를 매기는 방식이다. [룰(rule) 방식] 카드 주인이 40대의 평범한 가정주부인데 룸살롱에서 결제가 이루어 졌을 경우 경고가 발생 한다. (물론 실제로 결제 할 수도 있지..

Fast Fashion 과 IT (ZARA Case Study)

Fast Fashion 과 IT (ZARA Case Study) Fast Fashion에 대해서 들어 본 적이 있는가? 패스트 패션이란 최신 트렌드를 즉각 반영하여 빠르게 제작하여 제품을 유통시키는 의류를 가리키는 말이다. 최신 유행을 즉각 반영한 디자인을 상대적으로 저렴한 가격, 빠른 유통, 상품 회전율로 승부 하는 패션 사업이다. 음식으로 치면 패스트 푸드이고 의류에서는 패스트 패션이라는 이름이 붙었다. 패스트 패션의 특징은 빠른 상품 회전성이다. 일반적으로 옷들이 1년에 4~5회씩 계절별로 신상품을 내놓지만 패스트 패션은 평균 1~2주 단위로 신상품을 내놓는다. 빠른 곳은 3~4일 이내 제품을 출시하기도 한다. 또 다른 특징은 다품종 소량생산에 있다. 다양한 아이템의 옷을 소량으로 빨리 만들어 회전..

익스큐티브 인터락드 동작

익스큐티브 인터락드 동작 Windows Server 2008 커널은 단일 링크드 리스트나 이중 링크드 리스트에 추가, 삭제 같은 좀 더 향상된 동작을 위해 스핀락을 기반으로 하는 간단한 동기화 함수를 여럿 제공한다. 이러한 모든 함수는 인자로 표준 스핀락을 필요로 하며 커널과 디바이스 드라이버에 의해 사용된다. 이들 함수는 스핀락 인자를 획득하고 해제하기 위해서 표준 API에 의존하지 않고 필요한 코드를 인라인으로 두며 상이한 순서 스킴(ordering scheme)을 사용한다. 반면 Ke 스핀락 API는 먼저 락이 해제 되었는지 보기 위한 비트를 테스트하고 설정한 다음에 실제로 획득을 하기 위한 락드 테스트 앤드 셋 동작을 원자적으로 수행한다. 이들 루틴은 프로세서의 인터럽트를 비활성화시키고 즉시 원자..

Windows , IIS 2015.07.16