揭秘功臣

2016/04/15

上回講到,「巴拿馬文件」原本收到1,150萬份資料,國際調查記者同盟(ICIJ)的人員若以肉眼讀文件,可能永遠看不完,於是他們把所有文件用光學字元辨識技術(optical character recognition)重新整理。

這是甚麼東西?簡單來說,就是把1,150萬份文件掃描(scan)儲存,再用電腦軟件自動識別圖像裏的字母,轉化為文字檔案。換句話說,掃描文件只是「圖像」,不能被檢索,惟有把它轉化為「文字檔」,才能被電腦檢索。而檢索功能,正是蒐集資料的關鍵步驟。

其實,很多大型機構開始採用這一類俗稱「e-discovery」的做法,從排山倒海的文件中找尋有用資料。現在的電腦軟件,除了把掃描文件的圖像轉為文字,還懂得識別不同欄目,例如把「姓名」欄的名字互相比較,或從「題目」欄的文字中搜索關鍵詞。成千上萬手寫的表格、單據等,透過掃描、轉化,就可以找出有用資料。

當然,即使電腦檢索功能節省了工夫,眾多資料之中也不會列出「賈慶林」、「普京」、「大衞‧卡梅倫」這些字眼。把檢索出來的資料去蕪存菁,找出關鍵綫索,最後仍要靠資深記者的功力。(揭秘之路‧二)

(本欄逢周一、三、五刊登)

撰文: 張宏艷 資深傳媒人、資深港媽
欄名: 每日驚艷

更多實用生活貼士,讚好晴報 Facebook 專頁
生活訊息
「子女不是出氣袋 三個愛的守則不做低EQ父母」

「子女不是出氣袋 三個愛的守則不做低EQ父母」

2018/09/21
「子女不是出氣袋 三個愛的守則不做低EQ父母」
「手機App助人精明理財 大學生有計!」

「手機App助人精明理財 大學生有計!」

2018/09/10
「手機App助人精明理財 大學生有計!」

更多內容

尖咀慶中秋 $99極濃龍蝦沾麵

生活副刊
2018/09/24

牙齒異常「年輪」 或患病先兆

生活副刊
2018/09/24

阿斯匹靈可致胃出血 健康者勿長服

生活副刊
2018/09/24

生薑養生 要辨體質

生活副刊
2018/09/24

世界最美圖書館

生活副刊
2018/09/24

自私的人不懂疼愛別人

生活副刊
2018/09/24

Ryota Kappou Modern的曼妙

生活副刊
2018/09/24