最近chatgpt爆火,想必用过的小伙伴都大呼神奇,我也同感,也感觉到作为一个程序员对这一行前景的担忧。
今天突然很想搞清楚chatgpt到底是怎么实现的,就去研究了自回归语言模型。代码也是chatgpt 教给我的,我转译成了易语言,方便大家理解。
自回归语言模型(Autoregressive LM, AR)是一种根据上文或者下文内容预测下一个可能跟随的单词的语言模型。例如,通过“LM is a typical task in natural language ____”预测单词“processing”
了解更多:https://zhuanlan.zhihu.com/p/378514578
最终的目的是抛砖引玉,希望有大佬可以搞一个 易语言chatgpt模型出来!
代码很简单,有丰富的注释可供学习!
代码中调用了两个模块,一个是 分词模块,有能力的可以删了模块自己写。
同时调用了我自己的模块,主要用了哈希表和取随机数,也可以自行删掉,用自己的。
更强的版本正在编写中:包含了损失函数,优化器随机梯度下降SGD,迭代训练并计算损失和梯度,向前传播和反向传播神经模型
源码下载【包含分词库】:https://rtb4.lanzouw.com/iqfFU0sl8u1e
不含分词库的附件下载(注意:附件下载的,请先用 分词模块测试.e 源码中界面 “重置词库” 按钮功能,生成新的词库)