正在閱讀
Title

揭秘功臣

生活副刊

發佈時間: 2016/04/15

上回講到，「巴拿馬文件」原本收到1,150萬份資料，國際調查記者同盟（ICIJ）的人員若以肉眼讀文件，可能永遠看不完，於是他們把所有文件用光學字元辨識技術（optical character recognition）重新整理。

這是甚麼東西？簡單來說，就是把1,150萬份文件掃描（scan）儲存，再用電腦軟件自動識別圖像裏的字母，轉化為文字檔案。換句話說，掃描文件只是「圖像」，不能被檢索，惟有把它轉化為「文字檔」，才能被電腦檢索。而檢索功能，正是蒐集資料的關鍵步驟。

其實，很多大型機構開始採用這一類俗稱「e-discovery」的做法，從排山倒海的文件中找尋有用資料。現在的電腦軟件，除了把掃描文件的圖像轉為文字，還懂得識別不同欄目，例如把「姓名」欄的名字互相比較，或從「題目」欄的文字中搜索關鍵詞。成千上萬手寫的表格、單據等，透過掃描、轉化，就可以找出有用資料。

當然，即使電腦檢索功能節省了工夫，眾多資料之中也不會列出「賈慶林」、「普京」、「大衞‧卡梅倫」這些字眼。把檢索出來的資料去蕪存菁，找出關鍵綫索，最後仍要靠資深記者的功力。（揭秘之路‧二）

（本欄逢周一、三、五刊登）

撰文: 張宏艷資深傳媒人、資深港媽
欄名: 每日驚艷