。”
“原来你是说这个啊,吓我一跳,你就不能好好说话么?”
“我是在好好说话啊,难道你平时打字就不会出现这样的情况?”
“这……”李松感觉无言以对:是啊,手机、电脑打字聊天时,出现错别字很正常,甚至还有不少错别字“转正”呢。
比如“斑竹”本应该是“版主”,由于人们经常误打,后来干脆将错就错,正式使用“斑竹”这个称呼了。
陈岩提醒道:“发现问题了吧?遇到错别字,松江府不能识别,也就无法进行应答,这可不能适应互联网的实际需要啊。”
“你说得对,但这个问题有点难办。”李松有些苦恼:机器学习的前提,是依据正确的材料,不断进行自我提升。网上的大量文章,要是也像聊天那样经常包含错别字,那非把松江府带沟里去不可。
但是这个问题又必须解决,聊天环境毕竟跟正儿八经写文章不同,不能要求太高。
接下来的两天,李松研究出了一个“关键词匹配”的方案:遇到疑似错别字,如果在替换成读音相近的关键词后,语义上说得通,那就按关键词理解。
大年初三,李松再次邀请陈岩一起测试。
当陈岩说“想去余元商城买个手掌”时,松江府反问道:“@陈岩,你是想去豫园商城吧?还有,手掌是不能买的,你说的是手杖吧?”
这回陈岩不得不老实承认:“哦对,是我打错了字。”
松江府热情地介绍:“今天豫园商
本章还未完,请点击下一页继续阅读>>>