quandao92 commited on
Commit
d036e93
·
verified ·
1 Parent(s): ec26a3c

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +12 -10
README.md CHANGED
@@ -215,26 +215,28 @@ AnomalyCLIP은 특정 객체에 의존하지 않는 텍스트 프롬프트를
215
 
216
 
217
  # AD-CLIP Model Architecture
218
-
 
219
  <div style="display: flex; justify-content: center; align-items: center; flex-direction: column;">
220
  <img src="https://cdn-uploads.huggingface.co/production/uploads/65e7d0935ea025ead9623dde/62sYcSncxxzqGjQAa0MgQ.png" height="500" width="70%">
221
  <p>CLIP-based Anomaly Detection Model Architecture</p>
222
  </div>
223
 
224
  - **model:**
225
- - input_layer:
226
- - image_size: [640, 640, 3] # 표준 입력 이미지 크기
 
227
  - backbone:
228
- - name: CLIP (ViT-B-32) # CLIP 모델의 비전 트랜스포머를 백본으로 사용
229
- - filters: [32, 64, 128, 256, 512] # 비전 트랜스포머의레이어 필터 크기
230
  - neck:
231
- - name: Anomaly Detection Module # 결함 탐지를 위한 추가 모듈
232
- - method: Contrastive Learning # CLIP 모델의 특징을 사용한 대조 학습 기법
233
  - head:
234
- - name: Anomaly Detection Head # 결함 탐지를 위한 최종 출력 레이어
235
  - outputs:
236
- - anomaly_score: 1 # 이상 탐지 점수 (비정상/정상 구분)
237
- - class_probabilities: N # 각 클래스에 대한 확률 (결함 여부)
238
 
239
  # Optimizer and Loss Function
240
  - **training:**
 
215
 
216
 
217
  # AD-CLIP Model Architecture
218
+ AD-CLIP 모델은 CLIP (ViT-B-32)을 백본으로 사용하여 이미지에서 특징을 추출하고, 대조 학습을 통해 이상을 탐지합니다.
219
+ 최종 출력은 이미지가 비정상인지 정상인지를 판별하는 이상 점수와 각 클래스의 확률을 제공합니다.
220
  <div style="display: flex; justify-content: center; align-items: center; flex-direction: column;">
221
  <img src="https://cdn-uploads.huggingface.co/production/uploads/65e7d0935ea025ead9623dde/62sYcSncxxzqGjQAa0MgQ.png" height="500" width="70%">
222
  <p>CLIP-based Anomaly Detection Model Architecture</p>
223
  </div>
224
 
225
  - **model:**
226
+ - 입력 계층 (Input Layer):
227
+ - 입력 이미지: 모델은 크기 [640, 640, 3] 이미지를 입력받습니다. 여기서 640x640은 이미지의 가로와 세로 크기이며, 3은 RGB 색상의 채널 수를 나타냅니다.
228
+ - 기능: 이 계층은 입력된 이미지를 처리하고 모델의 나머지 부분에 맞는 형식으로 데이터를 준비하는 역할을 합니다.
229
  - backbone:
230
+ - CLIP (ViT-B-32): 모델은 CLIP Vision Transformer (ViT-B-32) 아키텍처를 사용하여 이미지에서 특징을 추출합니다. ViT-B-32는 이미지를 이해하는 데 필요한 고급 특성을 추출할 수 있는 능력을 가지고 있습니다.
231
+ - 필터: 필터 크기 [32, 64, 128, 256, 512] ViT 레이어에서 사용되며, 이미지의 레벨에서 중요한 정보를 추출하여 특징을 학습합니다.
232
  - neck:
233
+ - 이상 탐지 모듈 (Anomaly Detection Module): 모듈은 CLIP에서 추출된 특징을 기반으로 이미지를 분석하고 이상 여부를 판단합니다. 이 단계에서는 이미지 내에서 정상과 비정상 데이터를 구별하기 위한 중요한 처리가 이루어집니다.
234
+ - 대조 학습 (Contrastive Learning): 대조 학습 방법은 정상 이미지와 비정상 이미지 간의 차이를 학습하여, 이미지의 이상 여부를 더욱 명확하게 구분할 수 있게 도와줍니다.
235
  - head:
236
+ - 이상 탐지 헤드 (Anomaly Detection Head): 모델의 마지막 부분으로, 계층은 이미지가 비정상적인지 정상적인지를 결정합니다.
237
  - outputs:
238
+ - 이상 점수 (Anomaly Score): 모델은 이미지가 이상인지 아닌지를 나타내는 점수(예: 1은 이상, 0은 정상)를 출력합니다.
239
+ - 클래스 확률 (Class Probabilities): 모델은 각 클래스에 대한 확률을 출력하며, 이 확률을 통해 결함이 있는지 없는지의 여부를 판단합니다.
240
 
241
  # Optimizer and Loss Function
242
  - **training:**