AI – Vision : OCR文字識別

人眼能看的資料有限,機器可快速協助辨識

最期OCR只能靜態辨識,現在可以動態辨識,增加了許多可能性。未來機器可以協助人眼作更快速和精準的辨識,增加效率。

到底什麼是OCR呢?
假設你獲得了一個紙質文件-比如,雜誌、彩頁或者你合作夥伴發給你的PDF合約。很明顯,光是一台掃描儀是不足以讓這些文檔轉變成可以編輯的文檔,也就是Microsoft Word。掃描儀可以做的只是創建圖片或者一張黑白或者彩色的圖像文檔。為了從掃描文檔、PDF或者數碼圖片中提取文字和數據,你需要OCR軟件識別圖片上的信息,從單詞到句子,然後變成整個可以編輯的文檔。

本軟體支持圖片轉文本(Text)、圖片轉表格(Excel)、PDF轉演示文稿(PowerPoint)、圖片轉文檔(Word)。

自從1929年德國科學家Tausheck提出字元辨識的應用概念,至今光學字元辨識(OCR),結合人工智慧進行深度學習,為人們提供更精準的文字辨識服務。今天將帶您瞭解OCR的應用原理與流程,透過相關案例介紹,帶您認識這項技術帶來的便利之處。


OCR是什麼?將平面文字轉換成數位資訊的關鍵技術
光學字元識別OCR(Optical Character Recognition),是將圖片或掃描文字轉換為數位資料的一種技術。企業或公部門如果要數位轉型,傳統保存資訊的紙本形式已無法跟上資訊化的腳步,因此必須藉由OCR辨識技術,將過去的紙本文字轉成數位資訊,除此之外,OCR還可以用於車牌辨識、字跡辨識、RPA、破解驗證碼、檢驗違規廣告等多種應用。


OCR原理是什麼?OCR辨識流程7步驟
OCR主要的目標是從圖片中或掃描檔案中辨識出文字資訊。傳統OCR辨識流程主要有7個步驟:

步驟1:影像輸入
讀取平面文字。

步驟2:前期影像處理
將平面文件前後背景分開、留下黑色字體的前景,與白色的背景(二值化)、降噪處理後, 再進行傾斜修正。

步驟3:分割字元
分析裝置將平面中的所有文字、數碼和標點符號分別切割。

步驟4:單字細線化
將字體線條變細,判讀字元結構,消除多餘的資料量,避免造成文字誤判。  

步驟5:抓取單字的特徵點
分析裝置透過多種方法尋找字元中最具特徵的部分,判讀字元的意思,並進行編碼。  

步驟6:比對校正
將辨識編碼後的字元,與文字資料庫進行比對,找出最接近的文字。  

步驟7:輸出辨識結果
完成整個分析辨識過程,再輸出OCR的文字檔案。


傳統OCR辨識技術的限制
然而,因為技術限制,傳統OCR辨識有著3個明顯缺點:

1.對平面文件的工整度要求極高
辨識系統需要平面文件的版面結構有明顯樣板,且前背景可分性佳,對於前背景複雜(如廣告DM)的文字版面則無法進行辨識。

2.需要文字清晰可辨
辨識系統對於字型變化,或畫面模糊受干擾時的辨識能力會急遽下降。

3.字元分割能力的好壞將決定辨識結果
字元分割對辨識系統而言是關鍵環節,因此若出現字元扭曲、字與字之間有筆畫連繫、雜訊過多的情況下,容易出現字元分割不精準,進而影響文字辨識錯誤。


結合人工智慧的OCR辨識系統,藉由深度學習提升辨識精準度
隨著人工智慧的技術發展不斷突破,與OCR光學辨識結合後,大幅優化OCR的作業流程,更改善了前面提到技術限制造成的缺點,創造出2大優勢:

1.不受排版影響
對比傳統OCR技術,極需要求平面文件的排版工整度,新型態的OCR結合人工智慧,即使辨識畫面歪斜、字句非縱橫平整排列,甚至連電視、影片中的文字,都能清楚辨識,打破OCR只能辨識掃描文件的限制。

2.持續優化
透過深度學習搭建的人工智慧OCR模組,可隨著處理過的文件量增加,加強辨別錯字的辨識能力,自我學習優化。


3大OCR技術應用-影像、手寫辨識文字資訊


OCR技術不只可辨識平面文字,將其輸出成電子文件,透過同樣的原理,產生3種延伸應用:

1.圖片轉文字
從圖片或掃描文件中辨別所需資訊,如保單資料;生活中隨手拍的書籍雜誌片段、筆記內容,都可透過OCR辨識技術,將圖片轉換為數字資料。

2.自動化
加入OCR 到RPA自動化流程,運用程式取代繁雜瑣碎的工作。

3.智慧監控
對於電視或影像中提及的文字進行辨別分析,可以快速監控所有新聞與廣告,檢查廣告是否合規, 或電視新聞內是否有提及與公司品牌相關之名詞。


OCR光學字元辨識系統|大數軟體,運用人工智慧OCR,將繁瑣重複的工作自動化
大數軟體推出的OCR光學字元辨識系統, 是透過深度學習打造的辨識模型,具有精準的文字辨別能力, 能夠偵測圖片中的表格與文字,一鍵可將所有圖檔轉化成有用的數據資料, 可以用於企業客戶文件自動審查、電視與雜誌輿情監控等服務,幫助您快速有效的做出正確決策,帶領企業向上提升。

歡迎聯繫我們,詢問更多OCR服務。