Home 新鲜推荐当月精选 【当月精选】文学近未来|甘耀明小说大数据分析与人造仿写

【当月精选】文学近未来|甘耀明小说大数据分析与人造仿写

written by 李奕樵 2017-12-29
【当月精选】文学近未来|甘耀明小说大数据分析与人造仿写

这次进行小说家甘耀明的作品分析,主要的手段是透过开源工具Jieba分词工具来进行。虽然 Viterbi 演算法尚不能成功识别出某些精妙奇诡的用词,但透过机率路径完成的分词手段有别于 n-gram 演算法,可以更容易找出「只在文本中出现一次的词」,所以此次文本风格分析的目标,就是利用新的工具特性找出小说家甘耀明的长篇小说作品风格用词偏好差异。小说家拣选的用词,暗示他对该词的质感、语感、意象上的偏好,如果能观察到小说家用词倾向的改变,也许就能揣测出小说家艺术经营策略的变化。值得一提的是,各本小说分词出现次数的中位数皆为1,代表超过半数的词种都只出现一次,由此可以看到资料零碎分散的程度。为了直接呈现视觉上有意义的资料,笔者搜寻出四本小说皆有使用过的词,并且在找出该词在各本小说的词频之后,将其最大值除以最小值,以求出使用频率在四篇作品中有明显起伏的词。这就是图表上所呈现的,「变化幅度最明显的共用词Top 20」。

 

《丧礼上的故事》

分词种类数量:11485
平均出现次数:4.1
标准差 :32.9

《冬将军的夏天》

分词种类数量:14055
平均出现次数:5.2
标准差 :48.1

《杀鬼》

分词种类数量:28734
平均出现次数:5.6
标准差 :68.9

《查邦女孩》

分词种类数量:32124
平均出现次数:6.9
标准差 :94.3

 

•标准差

标准差数值越高,代表字词出现次数越分散。
亦即,大部分词的出现次数都与平均值有段距离。

•词频

单词出现次数,除以单本小说的总词数。

•中位数

中位数是统计数字从小排到大,位于正中间的数字。中位数是1,且平均值大于1的情况,代表小说中绝大多数的词,都只出现一次。

 


李奕樵
一九八七年生。全人实验中学肄业。高雄中学毕业。耕莘青年写作会成员。秘密读者成员。曾获林荣三文学奖小说奖二奖,入选九歌一○二年小说选。撰写软体维生。短篇小说集即将集结出版。

 

◆本文原刊载于《联合文学》第399期

0 comment

You may also like

发表意见

这个网站采用 Akismet 服务减少垃圾留言。进一步了解 Akismet 如何处理网站访客的留言资料