Publié par admin dans
감독되지 않은 변칙 탐지 방법을 조사하는 많은 연구자들은 문제를 겪습니다 . 많은 과학자들은 이론적인 가정만합니다. 현재 이러한 프레임워크를 만들려는 시도가 일부 나타났습니다. 감독된 변칙 탐지. 학습 및 테스트 데이터 집합에 데이터가 레이블이 지정되는 설정입니다. 간단한 분류기 훈련을 받을 수 있고 적용할 수 있는 경우 이 경우는 대부분의 경우 매우 불균형한 클래스를 제외한 전통적인 패턴 인식과 유사합니다. 모든 분류 접근 방식이 이 작업에 적합한 것은 아닙니다. 예를 들어 일부 유형의 의사 결정 트리는 불균형 데이터를 잘 처리할 수 없습니다. 지원 벡터 머신(SVM) 또는 ANN(인공 신경망)은 더 나은 성능을 발휘해야 합니다. 그러나 이 설정은 모든 이상 징후와 레이블 데이터를 올바르게 알아야 하기 때문에 관련이 없습니다. 많은 경우에 이상은 사전에 알려지지 않거나 시험 단계 도중 참신으로 생길 수 있습니다. 마르쿠스 골드스타인과 우치다 세이치의 작품 [5] 제안, 이상 검출 접근법에 대한 평가를 어떻게 해야 하는가.
그러나 평가 방법론은 테이블 형식 데이터와 함께 작동하는 방법을 지향합니다. 다음 매개 변수는 일반적인 변칙 보고서에 관련되어 있습니다: 이 섹션에서는 이동 평균을 사용하여 간단한 변칙 검색 패키지를 구축하여 샘플 데이터 집합에서 월별 태양 흑점 수의 이상을 식별하는 데 중점을 둡니다. 다음 명령을 사용하여 여기에 다운로드 : 당신이 신용 카드 판매 회사이고 매주 25 $ 구매를하는 특정 고객에 대해 알고 있다고 상상해보십시오. 이 구매는 그의 고정 된 주간 배급하지만, 어느 날, 이 고객은 700 $의 다른 구매를 추측했다. 이 개발은 당신을 놀라게할뿐만 아니라 고객과 이야기하고 거래를 승인 할 수 있도록 이유를 알아 내도록 강요할 것입니다. 이는 고객의 동작이 수정되고 변경이 너무 달라서 예상하지 못하기 때문입니다. 따라서 이 이벤트를 이상이라고 합니다. 교육을 마친 후에는 일반적으로 모델을 저장하려고 하지만 이 문서의 범위를 약간 벗어납니다. Keras 설명서에는 학습된 모델을 저장하는 방법을 보여 주는 몇 가지 좋은 예제가 있습니다. 이것은 타임계의 변칙 검색 절차에 대한 첫 번째 벤치마크입니다. NAB는 제어되고 반복 가능한 환경을 통해 실시간 변칙 탐지 절차를 평가하는 것을 목표로 하는 오픈 소스 프레임워크입니다. NAB 데이터 코퍼스는 58개의 실제 데이터 집합으로 구성되며, 여기서 변칙 창에 레이블이 지정됩니다.
각 파일은 2,000~22,000개의 타임스탬프로 구성되며 5분 간격으로 집계된 데이터가 있습니다. 그것은 365,551 포인트의 전체를 가지고있다. 이러한 데이터 집합은 합성 및 실제 집합입니다. 이상 징후는 광범위하게 분류될 수 있습니다: 삽입 변칙: 튜플이 참조 관계에 삽입되고 참조 특성 값이 참조 특성에 없는 경우 참조 관계에 삽입을 허용하지 않습니다. 예를 들어, STUD_NO =7을 사용하여 STUDENT_COURSE에 레코드를 삽입하려고 하면 허용되지 않습니다. 출력으로 대부분의 접근 방식은 점수 또는 레이블을 제공합니다. 점수 매기기와 라벨링의 차이는 유연성입니다. 분석가는 채점 기술을 사용하여 문제 영역에 더 적합한 값을 선택할 수 있습니다. 그런 다음 임계값을 사용하여 이상 징후를 선택하거나 맨 위를 선택할 수 있습니다.
라벨링은 분류입니다. 도메인 및 기능 추출에 대한 연구 없이는 모든 도메인에서 동일한 성공을 거둘 수 있는 방법을 사용할 수 없습니다. 대부분의 감독되지 않은 변칙 검색 접근법은 그림 7에 나와 있습니다.