使用頻度調查

調查使用書目

受調查的成語

調查結果

成語使用頻度調查

緣起

 在開發新系列「成語深度行」叢書時,編輯部的同事們再一次面對一個老問題:如何在數量龐大的材料裏面,擷取那一些作為教材最為適宜。只是重點由以往的「英文介詞」、「數學應用題」等轉移到本次的「成語」而已。這是編輯們永遠的戰場,本次參戰的主要分為兩派:

(一)進取派
 這派認為只要是對學生將來工作或學習能起到作用的話,就應採納,不能因為內容稍為艱澀就拒絕使用。

(二)循序派
  這派認為童年應該是用來追求快樂的,學習只不過是學校這個兒童遊樂場的入場卷而已。他們認為學習成語只需給學生一個概略印象就已足夠,所以選材應集中在能夠望文生義的成語為主。

 本來這次編輯大戰的結果亦會一如既往:將工作一分為二,你負責的部份你照走你的套路,我管不著;我當家作主的部分自然聽我的,容不得你插嘴。

 這時,一個經常將眼睛黏在手提電話的同事提了個建議:在現今這個大數據年代,何不讓數據本身來決定編輯選材方式呢?這引起了所有人的興趣,異口同聲追問他這話怎講,且聽他娓娓道來:

 所謂大數據,就是你採集到足夠的數據時,只要用上適當的工具,就能發掘出一些你從未想過的答案。例如現在大家爭辯不休的選材問題,假如我們找來一大批書,然後將我們的候選成語,每一個都在這批書內查找一遍,紀錄下它們的出現次數。查找完成後,出現頻率最高的,就是學生最有機會遇到的,所以再艱深也要學。因為教的都是學生最需要的材料,所以能大量縮短學習時間,有助增加學生的歡樂時光。

 他的建議獲得大家一致認同,只是擔心公司有沒有資源執行這計畫,他讓我們放一萬個心,這方面包在他身上,我們管好選材就可以了。

成語選材

 既然有人處理,大家都將平時收集到的材料,連壓箱底的都拿了出來,因為大家很好奇,這些珍藏到底有沒有人在使用呢!

 當其中一個同事悄悄將「以其人之道,還治其人之身」這個十二字成語加進候選名單時,立即引起一片嘩然。接著你一個,我一個,收集到的名單由三個字到十五個字都有。有人甚至連兩字成語也想插隊,雖然受到大家猛攻,他仍然擇善固執,要不是負責處理數據的同事出言恐嚇,連兩字成語也加入,隨時會令超負荷運行處理數據的電腦起火,其他同事起火他毫不介意,但電腦起火他可擔當不起,所以他決定鳴金收兵。

 最終,整個候選名單共收錄成語44,368個,可點擊這裏查閱。



書籍選材

 接不來就是要決定使用甚麼書籍來進行調查,大家本來以為這環節定必引進激戰,但卻是意想不到的順利!

 大家都同意,決定選甚麼書之前,還是先決定不選甚麼書比較好,很快,大家就決定了下列材料絕對不適用

(A)古典經史子集
 這些書大量使用成語,或者根本就是成語的發源地,會影響調查的準確性。再者,一般同學絕少會沾手這類書籍。

(B)實體報刊
 現今實體報刊一般寫作水平低下,校對更是笑話一個,若加選用,只會虛耗電腦的青春。

(C)網絡報刊
 在這短命的年代最短命的地方,在上面的東西都以光速消失,會有校對嗎?會有參考價值嗎?

(D)娛樂消閑雜誌
 理由和上面實體報刊一樣。

 較不適用者也有,但也可使用:

(1)翻譯書籍
 這些書使用成語機率較低,不宜多選。

(2)科學書籍
 這些書使用成語機率更低,更不宜多選用。

選書原則
 以近現代為主,盡量擴大類型的光譜。同一作者只選一兩本代表作,因為每個作者都有本身慣用的詞彙,多選只是重覆點算某些特定詞類。雜誌亦需選用,因為它們是最具時代感的,但應以文學和社會科學為主。

 最後,我們選出了2726件作品(點擊這裏查閱),大約六億字左右。其中編號17的萬卷文集已經包括幾萬篇文章,另外編號988的百科知識,編號989的百科全書和編號1845的名家散文都是龐然大物,每本都過百萬字。

 這不是份很完美的選單,但已經是當時能夠做得最好的了!

調查結果

 將材料交付給科技部門後,不到一個月,調查就已經完成。大家都滿懷熱情地去分析處理。現在將部分最重要的資料在此公佈,與大家分享。(點擊這裏查閱)