728x90
논문 개요
- DETR이 learned object queries와 bi-partite 매칭(헝가리안) detection을 set prediction problem으로 바꾸면서 HOI 알고리즘에도 영감을 많이 줌
- DETR의 single-stage구조를 그대로 HOI로 transfer learning 하려면 대단한 양의 re-training이 필요하므로, DETR의 detection을 unary(1) token extractor로 유지하고, pairwise box positional encoding과 unary(1) object query를 입력으로 받는 2nd stage를 추가함.
- 2nd stage에도 unary part가 또 있으므로 (1), (2)로 구분
- DETR의 output을 바탕으로, Unary(2) 단계에서 pairwise positional encoding을 고려한 새로운 attention 메커니즘을 적용
- SCG에서 그래프 노드간 message passing 목적으로 사용된 MFP 구조를 Unary(2) feature들의 fusion을 통한 pairwise feature 제작에 사용.
- pairwise feature간 attention 계산으로 최종 latent를 뽑고 linear로 action 계산
- 새로 제안한 Unary 구조가 positive sample sensitivity를, Pairwise 구조가 negative sample specificity를 증가시켜 최종적으로 SoTA 성능을 달성
기존 연구
Tamura et al.(QPIC) 과 Zou et al.의 경우
- QPIC : 기존 구조에서 object class 만으로 bipartite matching을 하던것을 human, object, object class, action의 4 항목으로 확장
- Zou et al.의 경우도 모델 구조는 QPIC 과 거의 유사하게(DETR에 MLP head 더 붙이기) 가져가고, 마찬가지로 bipartite matching loss 및 최종 학습 loss를 human,object,box,interaction loss의 선형결합으로 설계
- DETR 자체의 transfer learning 알고리즘 부류. head의 목적을 바꾼 다음 전체 모델을 학습

UPT 구조

Unary 과정 - Modified Attention Layer

- 기존 attention이 Q와 K (여기서는 둘의 concat이 X)의 내적 matrix였다면, Unary 파트의 attention은 Y로 condition 된 pairwise sailiency activation이 더 정확한 명칭으로 보임. (고전적인 비젼 attention의 개념)
- Cooperative 라고는 하지만, 이후 제시되는 competitive layer와 연산 논리적으로는 큰 차이가 없어보임. (둘 모두 pairwise concat feature를 사용)
- Pair vector 사이의 self-attention을 제거하기 위한 모델 구조로도 생각할 수 있을 거 같음
- Unary token들을 pairwise concat 하여 Modified Attention을 한 결과를 이후 Pairwise 단계로 넘어감
Pairwise 과정

- Unary(2)의 결과 토큰들을 모아서 쌍을 이루었을 때, human-to-object 쌍이 되도록 토큰 쌍을 정리함.
- MBF는 기존 SCG 논문에서는 해당 논문에서의 unary feature들(h,o 각각)에 pairwise information을 퓨전하는 목적으로 쓰였는데, 본 논문에서는 appearance feature에 해당하는 부분에 pairwise feature가 입력되는 것 확인
- 이렇게 추출된 pairwise token을 일반적인 attention layer 및 최종 분류기에 입력하여 action class 추론하는 것으로 마무리.
- 학습은 focal loss로 hoi classification 만 학습 = bbox는 DETR에 전적으로 의존
실험결과
- 기존 DETR 모델구조를 그대로 두고 결과물을 활용하는 방식이기 때문에, SoTA 성능을 달성하면서도, 낮은 memory 사용량을 보임
- 상기 이득으로, ResNet backbone 마지막 단을 stride하지 않고 더 높은 resolution으로 두는 DC5 세팅을 사용함.
- cooperative + competitive 레이어에 대한 정량 및 정성적 해석

- Cooperative Layer만 있을 때는 positive sample sensitivity가 늘고, Competitive layer만 있을 때는 negative sample specificity가 늘고, 둘 다 쓰니 둘 다 어느정도 늘더라.
Cooperative + Competitive 레이어에 대한 정량 및 정성적 해석

-
Ablation study 결과 각각의 레이어 자체가 성능 향상에 기여하는 모습을 확인할 수 있음.
-
그러나 막상 각 레이어 보다 pairwise encoding을 제거했을 때 가장 큰 성능 drop이 관찰
-
다만, 본 논문에서는 encoding을 아예 없애버리는 식으로 실험했기 때문에, 레이어 구조상 당연할수도
-
Appendix D에서 Appearance feature에 직접 더해버리는 실험을 진행했을때, coop 구조가 확실히 pairwise 정보를 잘 처리하는 모습을 보임.

-
제일 이해가 안 가는 실험 해석 부분(unary)
-
1-4, 2-5, 3-6 간의 attention이 관찰되고, 이러한 attention이 interaction score에 영향을 주었다는 가설
-
가설 검증을 위해 (1,4),(4,1),(2,5),(5,2),(3,6), (6,3) 위치의 attention을 모두 0으로 만든 다음 0.06(8%)의 score 하락을 관찰
-
하락했으니 가설을 검증했다는데, 실제로 수치를 환산해보면 0.75 to 0.69 임. 오히려 zeroing 한거치고 영향이 너무 작으니 반대로 다른 부분에 더 많은 정보가 있다고 판단해야되는게 아닌가 싶음.
-
모든 attention element에 대한 섭동 분석이 있어야 되는 부분으로 사료됨.

-
(1,4),(2,3),(3,6) 말고는 모두 해당 쌍들에 attend 하고 막상 해당 쌍들은 다른 곳에 집중한다고 분석
-
저자들은 2가지 조정실험을 수행
-
상기 쌍의 attention을 모두 (1,4)에 집중하도록 바꾸었을 때, score 0.73 -> 0.65
-
상기 쌍의 attention을 모두 0으로 만들었을 때, 나머지 negative pair들의 스코어가 미세하게 상승함.
-
-
위의 결과로부터 저자들은 competitive layer가 일종의 NMS 기능을 수행하고 있는 것 같다고 해석함.
728x90
반응형
댓글