[ DL ] AI-OCR์ด๋?
2023 ํ๋ฐ๊ธฐ์ ํ๋๊ธ์ต์ตํฉ๊ธฐ์ ์ ์ธํด์ผ๋ก ์ฐธ์ฌํ๋ฉด์ ๊ฐ์ธ์ ์ผ๋ก๋ ์ด์ฌํ ๊ณต๋ถํ๊ณ ๊ณ ๋ง์ด ๋ถ๋ค๊ป ๋ง์ ๊ฒ์ ์ป์ ์ ์์๋ค. ์ด๋ ๊ณต๋ถํ ๊ฒ์ ์ฌ๊ธฐ์ ์กฐ๊ธ์ฉ ๊ธฐ๋กํด ๋๊ฐ๊ณ ์ ํ๋ค.
๐ ์ค๋์ ์ฃผ์ : AI-OCR
1. OCR ๊ฐ๋
OCR = Text detection + Text recognition
OCR Optical Character Recognition ์ ๊ดํ ๋ฌธ์ ์ธ์์ผ๋ก, ์ด๋ฏธ์ง์ ์๋ ๊ธ์จ๋ฅผ ์ธ์งํ์ฌ ํ ์คํธ ๋ฐ์ดํฐ๋ก ์นํํด์ฃผ๋ ๊ธฐ์ ์ ๋งํ๋ค. OCR์ ํฌ๊ฒ ๋ฌธ์ ์์ญ์ ๊ฒ์ถํ๋ Text detection๊ณผ ๊ฒ์ถ๋ ์์ญ์ ๋ฌธ์๋ฅผ ์ธ์ํ๋ Text recognition์ผ๋ก ๊ตฌ๋ถํ ์ ์๋ค. ์ด ๋ ๊ฐ์ง ๊ธฐ์ ์ ํตํด ์ด๋ฏธ์ง ์ ๋ฌธ์๋ฅผ ์ฝ์ ์ ์๋ค. ์๋์ฐจ ๋ฒํธํ ์ธ์, ์ ์ฉ์นด๋ ๋ฒํธ ์ธ์ ๋ฑ ์ผ์์ํ์์๋ OCR์ ์ฝ๊ฒ ์ฐพ์๋ณผ ์ ์๋ค.
Text detection์ ์ผ๋ฐ์ ์ธ Object detection ์ค ๋ฌธ์๋ฅผ ์ฐพ์๋ด๋ ํ์คํฌ๋ผ๊ณ ๋ณผ ์ ์๋ค. ๋ฌธ์๊ฐ ๊ฐ์ง๋ ๋ ํนํ ํน์ฑ์ ๊ณ ๋ คํด ์ง์์ ์ผ๋ก ๋ฐ์ ํด ์๋ค๊ณ ํ๋ค.
Text recognition์ ์์ ๊ฒ์ถ๋ ์์ญ์ ๋ฌธ์๊ฐ ์ด๋ค ๋ฌธ์์ธ์ง ์ธ์ํด ๋ด๋ ๊ฒ์ ๋งํ๋ค. ๊ฒ์ถ๋ ์์ญ ์ ๋ฌธ์๊ฐ MNIST ๋ฐ์ดํฐ์ฒ๋ผ ๊น๋ํ์ง ์๊ณ ๋ค์ํ ๊ฐ๋์ ํํ๋ก ์กด์ฌํ ์ ์๊ธฐ ๋๋ฌธ์ ๋ค๋ฅธ ๋ชจ๋ธ ๊ตฌ์กฐ๊ฐ ํ์ํ๋ค.
โ AI-OCR
- ์ํ๋ ๋ฐ์ดํฐ๋ง ์ถ์ถํ๊ณ , ์ด๋ฅผ ์ฌ๋์ด ์ํ๋ ๋ฐฉ์์ผ๋ก ๊ฐ๊ณต๊น์ง ๊ฐ๋ฅ
- ๋ฐฉ๋ํ ์๋ฅ๋ฅผ ๋ถ์ํ๊ณ ๋ถ๋ฅํ๋ ๋ฐ ์ ์ฉ
2. OCR before Deep Learning
์ฒ์๋ถํฐ OCR์ ๋ฅ๋ฌ๋์ด ์ฐ์๋ ๊ฑด ์๋๋ค. ๋ณดํต์ ์๋์ ๊ฐ์ ํ๋ก์ธ์ค๋ก ์งํ๋์๋ค๊ณ ํ๋ค.
๋ฅ๋ฌ๋ ์ด์ ์ ์ฌ์ฉํ๋ OCR ์์ง ์ค ํ๋๋ก Tesseract OCR๋ฅผ ๊ฐ๋จํ๊ฒ ์ค๋ช ํ์๋ฉด, ์๋ ๊ทธ๋ฆผ์์ Connected Component Analysis ๋จ๊ณ์์ ๋ฌธ์ ์์ญ์ ๊ฒ์ถํ ํ Find Lines and Words ๋จ๊ณ์์ ๋ผ์ธ ๋๋ ๋จ์ด ๋จ์๋ฅผ ์ถ์ถํ๋ค. ์ดํ Recognize Word ๋จ๊ณ์์ ๋จ์ด ๋จ์ ์ด๋ฏธ์ง๋ฅผ Text๋ก ๋ณํํ๊ธฐ ์ํด ๋ฌธ์๋ฅผ ํ๋์ฉ ์ธ์ํ๊ณ ๋ค์ ๊ฒฐํฉํ๋ ๊ณผ์ ์ ๊ฑฐ์น๋ค.
์ ๋ฐฉ๋ฒ์ ํ์ํ ๋จ๊ณ๊ฐ ๋ง๊ธฐ ๋๋ฌธ์ ๋ค์ ๋ณต์กํ๊ณ ์๊ฐ์ด ์ค๋ ๊ฑธ๋ฆฐ๋ค. ํ์ฌ๋ ์ด ์ ๋๋ฌธ์ ๋ฅ๋ฌ๋์ ์ ์ฉํ์ฌ ์ํ๋ ๋จ์๋ก ๋ฌธ์๋ฅผ ๊ฒ์ถํ๊ณ ์ด๋ฅผ ํ ๋ฒ์ ์ธ์ํ๋๋ก ์ํคํ ์ฒ๋ฅผ ๋จ์ํ๊ฒ ํ์ฌ ๋น ๋ฅด๊ฒ OCR ์ธ์์ ํ๊ณ ์๋ค.
3. Text detection
์์์ ๋ดค๋ฏ์ด, ๋ฅ๋ฌ๋ ์ด์ ์๋ OCR์ Text detection + Text recognition์ ๊ธฐ๋ณธ์ ์ธ ํ๋ฆ์ ๋์ผํ๋ค.
๊ทธ๋ผ ์ด์ ๋ฅ๋ฌ๋์ ์ด์ฉํด์ Text detection ํ๋ ๋ฒ์ ๋ํด ์์๋ณด์. ์ด๋ฏธ์ง์์ ํ ์คํธ๋ฅผ ์ฐพ์๋ผ ๋ ๋จ์ํ object detection์ด๋ segmentation ๊ธฐ๋ฒ์ ์๊ฐํ ์ ์๋ค. ๊ทธ๋ฌ๋ Text detection์ ํ ์คํธ์ ํน์ฑ๋ ๊ณ ๋ คํด ์ฃผ์ด์ผ ํ๋ค. ๋ฌธ์ ํ๋ํ๋๊ฐ ๋ชจ์ฌ ๋จ์ด๋ฅผ ๋ง๋ค๊ณ , ๋จ์ด๊ฐ ๋ชจ์ฌ ๋ฌธ์ฅ์ด ๋๋ค. ๊ทธ๋ ๊ธฐ ๋๋ฌธ์ ์ด๋ฏธ์ง์์ ๋ฌธ์๋ฅผ ๊ฒ์ถํ ๋์ ๊ฒ์ถํ๊ธฐ ์ํ ์ต์ ๋จ์๋ฅผ ์ ํด์ผ ํ๋ค๋ ๊ฒ์ด๋ค.
์ ๊ทธ๋ฆผ์ EAST:An Efficient and Accurate Scene Text Detector(2017) ๋ ผ๋ฌธ์์ ์๊ฐ๋ ๋ค์ํ Text detection ๊ธฐ๋ฒ์ ์ ๋ฆฌํ ๊ฒ์ด๋ค.
๋น์ detection์ ์์ด์ ์ฃผ๋ก Text์ Bounding box๋ฅผ ๊ตฌํ๋ ๋ฐฉ์์ ์ด์ ์ ๋ง์ถ์๋ค. ๊ทธ๋ฆผ์์๋ ์ ์ ์๋ฏ์ด, ์ฌ๋ฌ ๋ฐฉํฅ(๊ฐ๋ก/์ธ๋ก/๋๊ฐ์ ๋ฑ)์ผ๋ก ์จ ์๋ ํ ์คํธ ๋ฐ์ค๋ฅผ ๊ตฌํ๋ ๋ฐฉ์์ ๋ค์ํ๊ฒ ์ฐ๊ตฌํ๋ค.
3.1. Text detection - Regression
TextBoxes: A Fast Text Detector with a Single Deep Neural Network
์ด์ ์๋ ๊ธ์ ๋จ์๋ก ์ธ์ํ์ฌ ๊ฒฐํฉํ๋ ๋ฐฉ์์ ํ์ฉํด์๋ค๊ณ ์๊ธฐํ ๋ฐ ์๋ค. ํด๋น ๋ ผ๋ฌธ์ ๋ฅ๋ฌ๋์ ํ์ฉํด ๋จ์ด ๋จ์๋ก detectionํ๋ ๋ฒ์ ๋ํด ์ค๋ช ํ๋ค. ๋คํธ์ํฌ ๊ธฐ๋ณธ ๊ตฌ์กฐ๋ก๋ SSD: single shot multibox detector๋ฅผ ์ฌ์ฉํ์ฌ ๋น ๋ฅด๊ฒ ๋ฌธ์ ์์ญ์ ํ์งํด๋ด์๋ค.
[click!] ๐ ์ฌ๋ฌผ ํ์ง ์๊ณ ๋ฆฌ์ฆ์ ์ผ๋ฐ์ ์ธ ํ๋ ์์ํฌ
1๏ธโฃ ์์ญ ์ ์ (Region Proposal)
์ด๋ฏธ์ง์์ ์์คํ
์ด ์ฒ๋ฆฌํ ์์ญ RoI (Regions of Interest) ๋ฅผ ์ ์ํ๋ ๋ฅ๋ฌ๋ ๋ชจ๋ธ ๋๋ ์๊ณ ๋ฆฌ์ฆ์ ๋งํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ด๋ RoI๋ ์ด๋ฏธ์ง ๋ด ๋ฌผ์ฒด๊ฐ ์กด์ฌํ ๊ฒ์ด๋ผ ์์๋๋ ์์ญ์ ์๋ฏธํ๋ค.
2๏ธโฃ ํน์ง ์ถ์ถ ๋ฐ ์์ธก
๊ฐ ๋ฐ์ค ์์ญ์ ์๊ฐ์ ํน์ง์ ์ถ์ถํ๋ค. ์ด๋ฌํ ํน์ง์ ํ๊ฐํด์ ๋ฌผ์ฒด ์กด์ฌ ์ฌ๋ถ์ ํด๋์ค๋ฅผ ํ๋จํ๋ค.
3๏ธโฃ ๋น์ต๋ ์ต์ NMS, Non-Maximum Suppression
์ด ๋จ๊ณ์ฏค์ด๋ฉด ๋ชจ๋ธ์ด ๊ฐ์ ๋ฌผ์ฒด์ ๋ํด ๋ณต์์ ๋ฐ์ค๋ฅผ ๋ฐ๊ฒฌํ์ ๊ฐ๋ฅ์ฑ์ด ๋๋ค. NMS๋ ์ค๋ณต๋ ๋ฐ์ค๋ค์ ํ์งํ๊ณ ํตํฉํ์ฌ ๋ฌผ์ฒด ํ๋๋ง๋ค ํ๋์ ๋ฐ์ค๋ง ๋จ๋๋ก ํ๋ ์ญํ ์ ํ๋ค.
4๏ธโฃ ํ๊ฐ ์งํ
์ด๋ฏธ์ง ๋ถ๋ฅ์ ์ ํ๋, ์ ๋ฐ๋, ์ฌํ์จ ๋ฑ๊ณผ ๋น์ทํ๊ฒ ์ฌ๋ฌผํ์ง์๋ ์ฑ๋ฅ์ ์ธก์ ํ๋ ๊ณ ์ ์ ํ๊ฐ ์งํ๊ฐ ์๋ค. ๊ทธ ์ค ๊ฐ์ฅ ๋๋ฆฌ ์ฐ์ด๋ ์งํ๋ก๋ ํ๊ท ํ๊ท ์ ๋ฐ๋ (mean average precision, MAP) ์ PR ๊ณก์ (Precision-Recall curve), ์ค์ฒฉ๋ฅ (Intersection over Union, IoU) ๊ฐ ์๋ค.
๊ธฐ์กด์ SSD๋ Regression์ ์ํ Convolution layer์์ 3 x 3 ํฌ๊ธฐ์ kernel์ ๊ฐ๋๋ค. ๊ทธ๋ ์ง๋ง ๋จ์ด๋ ์ผ๋ฐ์ ์ผ๋ก ๊ฐ๋ก๋ก ์ฐ๊ธฐ ๋๋ฌธ์ Aspect ratio(์ข ํก๋น)๊ฐ ํฌ๋ค๋ ํน์ง์ด ์๋ค. ๊ทธ๋์ ์ด ๋ ผ๋ฌธ์์๋ SSD๋ฅผ ์กฐ๊ธ ๋ณํํด์ 1 x 5 ํฌ๊ธฐ์ convolution filer๋ฅผ ์ ์ํ์ฌ ์ฌ์ฉํ๋ค. ์ถ๊ฐ๋ก Anchor box์ aspect ratio๋ฅผ 1, 2, 3, 5, 7๋ก ๋๊ณ , ์ด์ vertical offset์ ์ ์ฉํด์ ์ธ๋ก ๋ฐฉํฅ์ผ๋ก๋ ์ด์ดํ๊ฒ ๋ฐฐ์ด๋ ๋จ์ด์๋ ๋์ํ๋๋ก ํ๋ค.
3.2. Text detection - Segmentation
์ผ๋ฐ์ ์ธ semantic segmentation์ ์ด๋ฏธ์ง์์ ์์ญ์ class๋ก ๋ถ๋ฆฌํด๋ธ๋ค. ์ด๋ฅผ ๋ฌธ์ ์์ญ์๋ ์ ์ฉํ๊ฒ ๋๋ฉด, ๊ธ์ ๋ถ๋ถ์ ์์ญ๊ณผ ๋ฐฐ๊ฒฝ์ผ๋ก ๋ถ๋ฆฌํ ์ ์๋ค. ์ด๋, ๋ฌธ์๋ ๋ฐฉํฅ์ด๋ ๊ฐ๋์ ๋ฐ๋ผ ๋ค๋ฅด๊ฒ ์ฝํ ์ ์๊ธฐ ๋๋ฌธ์ ์ด์ ๊ดํ ๋ถ๋ถ์ ์ฒ๋ฆฌํด์ฃผ๋ ๊ฒ์ด ์ค์ํ๋ค.
PixelLink๋ ํ ์คํธ ์์ญ์ ์ฐพ์๋ด๋ segmentation๊ณผ ํจ๊ป, ํ ์คํธ๊ฐ ์ด๋ ๋ฐฉํฅ์ผ๋ก ์ฐ๊ฒฐ๋๋์ง๋ฅผ ๊ฐ์ด ํ์ตํ์ฌ ์์ญ ๊ฐ ๋ถ๋ฆฌ ๋ฐ ์ฐ๊ฒฐํ ์ ์๋ ์ ๋ณด๋ฅผ ์ถ๊ฐ์ ์ผ๋ก ํ์ฉํ๊ณ ์๋ค.
PixelLink์ ์ ์ฒด์ ์ ๊ตฌ์กฐ๋ U-Net๊ณผ ์ ์ฌํ๋ค. ์๋ ์ํคํ ์ฒ๋ฅผ ๋ณด๋ฉด input์์ conv 1 x 1, 2(16) ํํ์ ๋ ์ด์ด๊ฐ U-Net ๊ตฌ์กฐ๋ก ์ฐ๊ฒฐ๋์ด output์ผ๋ก ํจ๊ป ๊ณ์ฐ๋์ด, ์ธ์ pixel ๊ฐ ์ฐ๊ฒฐ ๊ตฌ์กฐ๊ฐ ์ง์์ ์ผ๋ก ์ ์ง๋๋๋ก ํ๋ ๋ชจ๋ธ ๊ตฌ์กฐ์์ ์ ์ ์๋ค.
output์ผ๋ก Link Prediction๊ณผ Text/non-text Prediction์ ๊ฐ์ง๊ณ ์๋ค. Text/non-text Prediction์ class segmentation map์ผ๋ก ํด๋น ์์ญ์ด ํ ์คํธ์ธ์ง ๋ฐฐ๊ฒฝ์ธ์ง์ ๋ํ ์์ธก๊ฐ์ ์๋ฏธํ๋ 2๊ฐ์ ์ปค๋์ ๊ฐ์ง๋ค. Link Prediction์ ํ ์คํธ์ pixel์ ์ค์ฌ์ผ๋ก ์ธ์ ํ 8๊ฐ์ pixel์ ๋ํ ์ฐ๊ฒฐ ์ฌ๋ถ๋ฅผ ์๋ฏธํ๋ 16๊ฐ์ ์ปค๋์ ๊ฐ์ง๋ค๊ณ ํ๋ค.
์ด ๊ณผ์ ์ ๊ฑฐ์น๋ฉฐ ์ธ์ ํ pixel์ด ์ค์ฌ pixel๊ณผ ๋จ์ด๋ก ์ฐ๊ฒฐ๋ pixel์ธ์ง ์๋์ง๋ฅผ ์ ์ ์์ผ๋ฏ๋ก ๋ฌธ์ ์์ญ์ด ๋จ์ด ๋จ์๋ก ๋ถ๋ฆฌ๋ Instance segmentation์ด ๊ฐ๋ฅํด์ง๋ค.
3.3. Text detection - ์ต๊ทผ
์ ๋ ๊ฐ์ง regression ๋ฐฉ์๊ณผ segmentation ๋ฐฉ์์ ์ ์ ํ๊ฒ ํ์ฉํ Hybrid ๋ฐฉ์์ ์ฌ์ฉํ๊ธฐ๋ ํ๊ณ , ์ฌ์ค ์ต๊ทผ์๋ Feature extractor๋ฅผ ์ด์ฉํ๋ ๊ฒ ๊ฐ๊ธฐ๋ ํ๋ค.
4. Text Recognition
4.1. Text Recognition - RNN ๊ณ์ด
ํนํ recognition ์๊ณ ๋ฆฌ์ฆ์ 80-90๋ ๋๋ถํฐ ์ฐ๊ตฌ๋์ค๋ ๋ถ์ผ๋ก, RNN๊ณผ Transformer ๊ธฐ๋ฐ์ผ๋ก ๋ง์ด ์ฐ๊ตฌ๋์๋ค. ๊ทธ ์ค ์์์ RNN์ด์๋ค๊ณ ํ๋ค.
RNN(Recurrent Neural Network)์ ๊ฐ๋ ์ ๊ฐ๋จํ ๋งํ์๋ฉด ์ํ์ ๊ฒฝ๋ง ์ฆ, ์ด์ ์ ๊ฐ์ ์ฐธ๊ณ ํ์ฌ ๋ค์์ ๊ฐ์ ์ถ๋ก ํ๋ ๊ณผ์ ์ ๋ฐ๋ณต์ด๋ค. ์ฒ์ ๋ฑ์ฅํ์ ๋๋ ๊ฐ๊ด ๋ฐ์์ง๋ง, ์ค๊ฐ์ ๊ณผ์ ์ด ๋ํด์ง๊ณ ๋ณต์กํด์ง์๋ก ์ค๋์ ๊ฐ์ ์์ด๋ฒ๋ฆฌ๋ ๊ฒฝํฅ์ด ์์ด ์ด๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด LSTM(Long Short-Term Memory), GRU(Gated Recurrent Unit) ๋ฑ์ด ๋ฑ์ฅํด ์ฑ๋ฅ์ ๋์ฌ ๋๊ฐ๋ค.
4.2. Text Recognition - Transformer ๊ณ์ด
2017๋ ๋์ Transformer๋ผ๋ ๋ชจ๋ธ์ด ๋์ค๊ฒ ๋๋ฉด์ RNN ๊ณ์ด ๊ธฐ๋ฐ recognition์ด ์์ ํ ๋ฐ๋๊ฒ ๋๋ค. Transformer๋ ์๋ ์ธ์ด ์ฒ๋ฆฌ ๋ถ์ผ์ ์ธ์ด ๋ฒ์ญ์ ์ํด ๋ฑ์ฅํ ๋ชจ๋ธ ๊ตฌ์กฐ๋ก, Encoder + Decoder ๊ตฌ์กฐ๋ก ์ด๋ฃจ์ด์ ธ ์๋ค.
Transformer๋ ์์ฐ์ด ๋ฟ๋ง ์๋๋ผ OCR recognition์๋ ์์ฃผ ์ ๋ฅํ ๋ชจ๋ธ์ด๋ค. OCR recognition์ ์ ์ฉ์ ํ๊ฒ ๋๋ฉด, ๋ฌธ์์ด์ด ์๋ ์ด๋ฏธ์ง๊ฐ ์ ๋ ฅ๊ฐ์ผ๋ก ๋ค์ด๊ฐ๊ณ ์ถ๋ ฅ์ ๋์ผํ๊ฒ ๋ฌธ์์ด์ด ๋๊ฒ ๋ค. ์ฌ๊ธฐ์ ํต์ฌ ๋ชจ๋์ Self Attention์ผ๋ก, ์ฐ์ฐ๋๋ ๊ณณ์ ๋ค์ ์ธ ๊ฐ์ง๋ค.
์์ฒ๋ผ self-attention์ Encoder์ 1๋ฒ, Decoder์ 2๋ฒ ๋ํ๋๋ค.
๋จผ์ , Encoder์์๋ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉ๋ ์ด๋ฏธ์ง ํฝ์ ์ด๋ฏธ์ง์ ๊ด๊ณ๋ฅผ ๋ชจ๋ ์ถ๋ก ํ๊ณ ํน์ง์ ์ถ์ถํ๋ ์ญํ ์ ํ๋ค. ์ฃผ๋ณ์ ์๋ ํฝ์ ์ ์๋ ๊ด๊ณ์ฑ์ด ๋ ๋๊ฒ ๋ํ๋๊ณ , ๋ฉ์๋ก ๊ด๊ณ์ฑ์ด ๋ ๋ฎ๊ฒ ๋ํ๋๋ค. Decoder์์์ self-attention์ ์ ๋ ฅ ์ด๋ฏธ์ง์ ์ต์ข ์ ์ผ๋ก ์ถ๋ ฅํ ๋ฌธ์์ด ๊ด์ ๊ด๊ณ๋ฅผ ๋งคํ์ํค๋ ์ญํ ์ ํ๋ค. โNโ์ด ์ด๋ค ํฝ์ ์์ ์ฃผ๋ก ๋ํ๋๋์ง๋ฅผ attention์ ํตํด ๋งค๊ธฐ๊ณ , ์ต์ข ์ ์ผ๋ก recognition ๊ณผ์ ์ ๊ฑฐ์น๋ฉฐ ์ฒซ๋ฒ์งธ ๊ธ์๊ฐ โNโ์ด๋ผ๋ ๊ฒ์ ๋ํ๋ธ๋ค.
4.3. Text Recognition - ๊ทธ ์ธ
- CNN๊ณผ RNN์ ๋ง๋จ, CRNN
- An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition
- CNN ๊ธฐ๋ฐ์ Feature Extractor + RNN ๊ธฐ๋ฐ์ Recognition (LSTM)
- An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition
- ๋ถ๊ท์นํ ๋ฐฉํฅ์ด๋ ํ์ด์ง ๊ธ์์ ๊ฒฝ์ฐ
- Robust Scene Text Recognition With Automatic Rectification
- TPS : Thin Plate Spline Transformation
- Robust Scene Text Recognition With Automatic Rectification
4.4. Text Recognition - ๊ฐ์ ๊ฐ๋ฅ ๋ฐฉ์
- ๐
Self attention
: global feature extraction - ๐
Convolution module
: local feature extraction
์ ๋ ฅ ์ด๋ฏธ์ง์ ๋ชจ๋ ํฝ์ ์ ์ฐธ์กฐํ๊ฒ ๋๋ global attention์ผ๋ก, Local ํน์ง์ ์กฐ๊ธ ๋ ์ง์คํ๋ convolution๊ณผ ์ฐจ์ด๊ฐ ์กด์ฌํ๋ค. ๊ทธ๋์ local ํน์ง์๋ ์ง์คํ๊ธฐ ์ํด convolution layer๋ฅผ ํฌํจํ ๋ชจ๋์ ์ถ๊ฐํ์ฌ ๊ฐ์ ์ํฌ ์ ์์ ๊ฒ์ด๋ค.
ํน์, Encoder์ ๊ตฌ์กฐ๋ฅผ ์ฌ์ค๊ณํ๋ ๋ฐฉ์์ด ์์ ์๋ ์๋ค. ์ด๋ค ํน์ ์ฌ๋ก์์๋ Self Attention์ ๋นผ๊ณ Feature Extractor๋ก multi-scale์ ๊ฐ์ง๋ ํน์ง์ ๋ชจ๋ ๋ฐ์ํ๊ณ attention์ ์์น๋ฅผ ์กฐ๊ธ ์กฐ์ ํด์ ๊ตฌ์กฐ๋ฅผ ์ฌ์ค๊ณํ์ ๋ ๋์์ง๋ ๊ฒฝ์ฐ๋ ์์๋ค๊ณ ๋งํ๊ณ ์๋ค.
5. OCR ๋ฐ์ดํฐ
- ์คํ ๋ฐ์ดํฐ
- OCR ๋
ผ๋ฌธ ์ฐ๊ตฌ ์ฉ๋
- OCR ์ฐ๊ตฌ ๋ ผ๋ฌธ ์์ฃผ ์ฌ์ฉ๋๋ ํฉ์ฑ ๋ฐ์ดํฐ
- ICDAR (Challenge)
- ๋ค์ํ ์ข ๋ฅ์ ํ์คํฌ
- ํ์คํฌ๋ณ ์ ๊ทผ ๊ฐ๋ฅํ ๋ฐ์ดํฐ
- AI Hub - ํ๊ตญ์ด ๊ธ์์ฒด ์ด๋ฏธ์ง
- OCR ๋
ผ๋ฌธ ์ฐ๊ตฌ ์ฉ๋
- ํฉ์ฑ ๋ฐ์ดํฐ
- ๋ฐฐ๊ฒฝ ์ด๋ฏธ์ง, ๋ค์ํ ๋ ธ์ด์ฆ, ํฐํธ, ๋จ์ด ์ฌ์ , ํ์ด์ง ๋ฑ
Reference
Related Posts
Summary | CNN Architectures | |
TIL | LDA๋? - NLP Topic Modeling | |
TIL | LeakGAN์ด๋? - NLP Text Generation Model |
๐ You need to log in to GitHub to write comments. ๐
If you can't see comments, please refresh page(F5).