登入驗證小小動作解譯英文古籍天書還有多少？400年！－青teacher資料儲存

經常使用網路服務的人大概都知道，在登入畫面時，除了要輸入帳號密碼之外，為了防止自動登入程式作用，登入畫面還會出現一張畫有歪七扭八數字或英文字的圖片，要求你輸入圖中文字，驗證正確後才可登入。

這種圖文驗證方法叫做「CAPTCHA」(CompletelyAutomated Turing Test To Tell Computers andHumans Apart，自動分辨是人還是電腦) ，最初是由美國Carnegie Mellon University (CMU)所設計，現在這個用來防止程式自動登入的方法，也被應用於解讀英文古籍了。

CAPTCHA 的誕生，是為了預防電腦程式自動登入論壇留下廣告訊息，和大量登入電子信箱發送垃圾郵件。它的原理是，被扭曲歪斜的文字，無法被電腦程式成功判讀，只有人為辨識才會看懂。

但有的時候文字實在扭曲得太厲害，在網路使用者再三嘗試仍無法輸入正確文字時，不但讓人耐心盡失，也浪費了許多時間。

不過人為辨識扭曲文字的特色，讓 CMU研究小組想到，CAPTCHA 可以稍做修改，讓網路使用者單純的輸入動作，也能為學術界做出貢獻。

CMU 研究小組目前正和非營利組織 InternetArchive 合作，把英文古書和手稿進行數位化工作。他們先把文稿掃描，再用Optical Character Recognition (OCR)軟體辨識文字內容，以便將文稿儲存為數位檔案，並可利用網路來搜尋。

但因為原文件太難辦識，OCR 軟體的錯誤率大約是1/10。唯一可靠的方式是人為判讀，但這是一項大工程，因為 CMU每個月都要處理幾千頁的文稿。

為了解決這個問題，研究小組便把 OCR軟體無法辦識的圖形放入 CAPTCHA資料庫中使用。

使用古文件文字圖片的版本稱為「reCAPTCHA」，藉著使用者登入網站的機會，對這些古老扭曲的文字做人為判讀，然後把資料送回 CMU研究小組。每當網路使用者透過 reCAPTCHA登入網站，古老典籍的數位化工作就又前進了一步。

為了確定 reCAPTCHA上的文字是被正確解讀，網路使用者一次會看到 2個字的圖形，其中一個是未判讀過的文字，另一個是已知的文字。

CMU 教授Luis von Ahn說：「如果使用者在已知文字的部分輸入正確，那我們相信他對未知文字的判讀也會是正確的。同時，我們也會讓不同的人判讀相同的未知文字，如果他們的答案一樣，那就八九不離十；但如果答案不同，就讓更多人來對這個字進行判讀。」

von Ahn 也說，由於高流量的社群網站如Facebook、 Twitter與 StumbleUpon等，都採用了 reCAPTCHA做為登入驗證輔助，現在這個系統，一天可以判讀 100萬個來自古老典籍的模糊文字。

況且，reCAPTCHA 的優勢是，它的圖庫會不斷更新，若想歸納它所用的圖片來寫出自動登入程式，基本上是不太可能的。

首先，研究小組所使用文字圖片，原本就是電腦所無法辦認的。這些文字都因為時間的關係而變得殘破，而殘破扭曲的樣子也千奇百怪。「它們扭曲的樣子有愈多種，就愈難寫出一個能讀懂它們的自動登入程式。」von Ahn 說。而為了讓程式更難判讀，他們也對文字二次加工，讓它們顯得更扭曲。

利用 reCAPTCHA， von Ahn的研究小組得以把Internet Archive所提供的手稿資料很快地數位化，而愛書人可能會很高興聽到這個消息，目前還有相當大量的資料在等著被處理。

「我們不愁沒資料可用，」von Ahn 說，「還有約 1億本書等待被數位化，若以我們目前的速度，大概還要 400年才做得完。」

ht045

青teacher資料儲存

ht045 發表在痞客邦留言(0) 人氣()

E-mail轉寄

«	四月 2025					»
日	一	二	三	四	五	六
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

青teacher資料儲存

七十年代英國歷史哲學家湯恩比，等於說對全世界宣布，二十一世紀能夠安定這個世界的，他說只有兩種力量，一個是大乘佛法，一個是中國的孔孟學說

登入驗證小小動作解譯英文古籍天書還有多少？400年！

歷史上的今天

留言列表

部落格文章搜尋

月曆

文章彙整

近期文章

文章分類

我的連結

自然

資料查詢

參觀人氣

站方公告

QR Code

«	四月 2025					»
日	一	二	三	四	五	六
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

«	四月 2025					»
日	一	二	三	四	五	六
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

青teacher資料儲存

七十年代英國歷史哲學家湯恩比，等於說對全世界宣布，二十一世紀能夠安定這個世界的，他說只有兩種力量，一個是大乘佛法，一個是中國的孔孟學說

登入驗證小小動作 解譯英文古籍天書 還有多少？400年！

歷史上的今天

留言列表

部落格文章搜尋

月曆

文章彙整

近期文章

文章分類

我的連結

自然

資料查詢

參觀人氣

站方公告

QR Code

登入驗證小小動作解譯英文古籍天書還有多少？400年！

«	四月 2025					»
日	一	二	三	四	五	六
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30