[TIL] #18 2026-04-30
·
TIL
상황 : 데이터셋 병합시 ID불일치상황원본 데이터(56종)와 추가 데이터를 합쳐서 EDA를 돌렸는데, 예상한 클래스 수는 98개인데 실제로는 143개가 나왔다. txt 파일 기준으로 세면 143개, json 기준으로 세면 98개라 처음엔 집계 방식 문제인 줄 알았다. 원인● build_global_class_map(모든 JSON 파일을 돌면서 category_id → yolo_class_id 전역 매핑을 만드는 함수)이 category_id를 클래스 식별 기준으로 쓰고 있었음-> 같은 약(예: 놀텍정)이 원본 데이터에선 category_id = 5, 추가 데이터에선 category_id = 200423처럼 서로 다른 ID를 가지고 있었다. 결과적으로 같은 약이 두 개의 다른 클래스로 카운트되어 143개가..