然语言识别读写也是机器学习的一种。
如果资源足够,苏航大可以像谷歌一样,上亿的数据集砸下去,然后硬生生炼出一个自然语言识别程序。
就像是
如果数据集更加规范有序,进一步让程序能够自动生成文章也不是不行。
但是小C明显不是这样的。
当初小C所有的数据不过是字典词典和一些书籍,对了,还有团团和主流媒体的文章等等。
数据量少,而识别相契合度高,说明小C有着更加先进的算法。
尤其是自然语言有着大量的隐性信息。
汉语尤其如此。
比如,这是什么意思?
根据不同的语气就有不同的解读方式。
所以,对于模糊的汉语识别是非常困难的。
但是,理解诗词韵味对小C而言也许有些困难,但是结合语境理解自然语言的含义却是不在话下。
通过对小C的代码分析,苏航大概摸索清楚了小C的“逻辑”。
数据的价值不仅取决于量,还取决于质。
就像有些人可以见微知著,数据量虽少,但是却能够通过分析发挥更大的作用。
纯粹的用大量数据进行“筛选”,用淘汰的方式来选择合适的拟合路径,对算力的浪费是极大的。
小C则不一样。
在收集到数据后,首先建立了特殊的读写数据库。
就像是小学生学组词造句一样,小C也把每一个汉字
本章还未完,请点击下一页继续阅读>>>