張宏艷
張宏艷

揭秘功臣

發佈時間: 2016/04/15

上回講到,「巴拿馬文件」原本收到1,150萬份資料,國際調查記者同盟(ICIJ)的人員若以肉眼讀文件,可能永遠看不完,於是他們把所有文件用光學字元辨識技術(optical character recognition)重新整理。

這是甚麼東西?簡單來說,就是把1,150萬份文件掃描(scan)儲存,再用電腦軟件自動識別圖像裏的字母,轉化為文字檔案。換句話說,掃描文件只是「圖像」,不能被檢索,惟有把它轉化為「文字檔」,才能被電腦檢索。而檢索功能,正是蒐集資料的關鍵步驟。

其實,很多大型機構開始採用這一類俗稱「e-discovery」的做法,從排山倒海的文件中找尋有用資料。現在的電腦軟件,除了把掃描文件的圖像轉為文字,還懂得識別不同欄目,例如把「姓名」欄的名字互相比較,或從「題目」欄的文字中搜索關鍵詞。成千上萬手寫的表格、單據等,透過掃描、轉化,就可以找出有用資料。

當然,即使電腦檢索功能節省了工夫,眾多資料之中也不會列出「賈慶林」、「普京」、「大衞‧卡梅倫」這些字眼。把檢索出來的資料去蕪存菁,找出關鍵綫索,最後仍要靠資深記者的功力。(揭秘之路‧二)

(本欄逢周一、三、五刊登)

撰文: 張宏艷 資深傳媒人、資深港媽
欄名: 每日驚艷