电脑阅读汉语文章时可能会遇到各种问题和困惑,现在随便聊聊,供大家消遣。
比较简单的一个问题是标点符号的使用,例如这个句子: “这次迎春诗词决赛,直言老师战败独享老师获得冠军。” 如果在“败”字后面加一个逗号,那就是独享老师得了冠军;但是如果在“独享老师”之后加一个逗号,那就是直言老师夺冠了。所以,这里的问题就是少了标点。由于汉语的文章中间没有空格,所以标点需要注意,不能随便省略。
下面再举一个例子,请看这幅门联,据说是祝枝山写的: “此地安能居住 其人好不伤悲”。 如果这样加标点: “此地,安能居住 其人,好不伤悲” 那就完全是贬义,很不吉利;但是如果这样: “此地安,能居住 其人好,不伤悲” 那就完全是赞扬的意思了。 但是严格地说,“此地,安能居住”里面的逗号加得不合理,因为“此地”并不是一个句子。所以,我们宁愿把这个问题叫做分词问题,就是把这句话里的各个字分成哪些词。很明显:分词的方式不是唯一的,不同的分词方式可能带来不同甚至截然相反的解释。
下面这个例子是在网上看到的:有人写了两句话:“黑夜总会过去,光明就在前头”,结果被系统封杀了。他质问说:我什么地方错了?有网友回答:你第一句话的二三四三个字!可见,分词很重要,电脑分词是会出错的。
还有更复杂的情况:分词没有问题,句子却有歧义。例如: “老张昨天做了一个手术。” 单看这句,我们就不清楚:它说的是老张是医生,给病人做了手术,还是老张是患者,被做了手术?这时,必须结合这个句子的上下文才能明白。
我就曾经问过AI: “西安的独享老师要去三亚。她早上5点起床,6点钟赶到机场登机,6点半到达三亚。出了机场,老师感到口渴,买了一瓶矿泉水花了50元,你觉得合理吗?” 这时,AI就只会回答矿泉水太贵,而忽略了老师半个小时不可能飞到三亚。
|