經常使用網路服務的人大概都知道,在登入畫面時,除了要輸入帳號密碼之外,為了防止自動登入程式作用,登入畫面還會出現一張畫有歪七扭八數字或英文字的圖片,要求你輸入圖中文字,驗證正確後才可登入。

這種圖文驗證方法叫做「CAPTCHA」(CompletelyAutomated Turing Test To Tell Computers andHumans Apart,自動分辨是人還是電腦) ,最初是由美國Carnegie Mellon University (CMU)所設計,現在這個用來防止程式自動登入的方法,也被應用於解讀英文古籍了。

CAPTCHA 的誕生,是為了預防電腦程式自動登入論壇留下廣告訊息,和大量登入電子信箱發送垃圾郵件。它的原理是,被扭曲歪斜的文字,無法被電腦程式成功判讀,只有人為辨識才會看懂。

但有的時候文字實在扭曲得太厲害,在網路使用者再三嘗試仍無法輸入正確文字時,不但讓人耐心盡失,也浪費了許多時間

不過人為辨識扭曲文字的特色,讓 CMU研究小組想到,CAPTCHA 可以稍做修改,讓網路使用者單純的輸入動作,也能為學術界做出貢獻。

CMU 研究小組目前正和非營利組織 InternetArchive 合作,把英文古書和手稿進行數位工作。他們先把文稿掃描,再用Optical Character Recognition (OCR)軟體辨識文字內容,以便將文稿儲存為數位檔案,並可利用網路來搜尋。

但因為原文件太難辦識,OCR 軟體的錯誤率大約是1/10。唯一可靠的方式是人為判讀,但這是一項大工程,因為 CMU每個月都要處理幾千頁的文稿。

為了解決這個問題,研究小組便把 OCR軟體無法辦識的圖形放入 CAPTCHA資料庫中使用。

使用古文件文字圖片的版本稱為「reCAPTCHA」 ,藉著使用者登入網站的機會,對這些古老扭曲的文字做人為判讀,然後把資料送回 CMU研究小組。每當網路使用者透過 reCAPTCHA登入網站,古老典籍的數位化工作就又前進了一步。

為了確定 reCAPTCHA上的文字是被正確解讀,網路使用者一次會看到 2個字的圖形,其中一個是未判讀過的文字,另一個是已知的文字。

CMU 教授Luis von Ahn說:「如果使用者在已知文字的部分輸入正確,那我們相信他對未知文字的判讀也會是正確的。同時,我們也會讓不同的人判讀相同的未知文字,如果他們的答案一樣,那就八九不離十;但如果答案不同,就讓更多人來對這個字進行判讀。」

von Ahn 也說,由於高流量的社群網站如Facebook、 Twitter與 StumbleUpon等,都採用了 reCAPTCHA做為登入驗證輔助,現在這個系統,一天可以判讀 100萬個來自古老典籍的模糊文字。

況且,reCAPTCHA 的優勢是,它的圖庫會不斷更新,若想歸納它所用的圖片來寫出自動登入程式,基本上是不太可能的。

首先,研究小組所使用文字圖片,原本就是電腦所無法辦認的。這些文字都因為時間關係而變得殘破,而殘破扭曲的樣子也千奇百怪。「它們扭曲的樣子有愈多種,就愈難寫出一個能讀懂它們的自動登入程式。」von Ahn 說。而為了讓程式更難判讀,他們也對文字二次加工,讓它們顯得更扭曲。

利用 reCAPTCHA, von Ahn的研究小組得以把Internet Archive所提供的手稿資料很快地數位化,而愛書人可能會很高興聽到這個消息,目前還有相當大量的資料在等著被處理。

「我們不愁沒資料可用,」von Ahn 說,「還有約 1億本書等待被數位化,若以我們目前的速度,大概還要 400年才做得完。」

 
arrow
arrow
    全站熱搜

    ht045 發表在 痞客邦 留言(0) 人氣()