시각 데이터(image, video, …) 내에서 문자의 위치를 식별(detection)하고 지역화(localization) 하는 방법
모델에 따라서 text의 배치가 다양한 형태의 경우 인식이 저하되는 경우 발생
결과적으로 Text Detection 단계에서 번호판의 숫자. 문자 부분(bike 번호판, 영업용 번호판(세로 지역명))을 구분하여 Rbox를 생성하는 모델 구축
검출된 텍스트 영역에서 실제 텍스트 정보를 추출하는 방법
OCR annotation
CRAFT(CharacterRegionAwarenessforTextDetection) Paper
Character Region : 문자 단위로 영역 인식
이미지에 대한 Pixel을 통해 Region score, Affinity score 예측
즉, 모델 학습 시 각 입력으로 사용될 이미지들의 출력에 해당되는 정답(Ground-Truth)이 필요
각 이미지에 대한 Ground-Truth(Region Score, Affinity score) 생성 과정
Regoin Socre
2차원 isotropic gaussian map
이미지 내의 각 문자에 대해 RBOX에 맞게 gaussian map 변형
변형된 gaussian map을 원본 이미지의 RBOX와 대응되는 위치에 할당
Affinity Score
개별 문자의 RBOX에 대각선을 그엇을 때 생기는 위쪽 삼각형과 아래쪽 삼각형으로부터 각 중심점을 꼭지점으로 하는 box 생성 = Affinity box
Affinity box에 해당되는 위치에 gaussian map을 할당
이러한 방식은 기존의 Bounding Box Regression과 같은 접근 방식이 지닌 문제점을 개선
Ground-Truth 생성을 위해서는 번호판에서 개별 문자 수준의 레이블링 필요