如何从NumPy直接创建RNN？

发布时间：2024-12-04 点击：86

使用成熟的tensorflow、pytorch框架去实现递归神经网络（rnn），已经极大降低了技术的使用门槛。
但是，对于初学者，这还是远远不够的。知其然，更需知其所以然。
要避免低级错误，打好理论基础，然后使用rnn去解决更多实际的问题的话。
那么，有一个有趣的问题可以思考一下：
不使用tensorflow等框架，只有numpy的话，你该如何构建rnn？
没有头绪也不用担心。这里便有一项教程：使用numpy从头构建用于nlp领域的rnn。
可以带你行进一遍rnn的构建流程。
初始化参数
与传统的神经网络不同，rnn具有3个权重参数，即：
输入权重（input weights），内部状态权重（internal state weights）和输出权重（output weights）
首先用随机数值初始化上述三个参数。
之后，将词嵌入维度（word_embedding dimension）和输出维度（output dimension）分别初始化为100和80。
输出维度是词汇表中存在的唯一词向量的总数。
hidden_dim=100output_dim=80#thisisthetotaluniquewordsinthevocabularyinput_weights=np.random.uniform(0,1,(hidden_dim,hidden_dim))internal_state_weights=np.random.uniform(0,1,(hidden_dim,hidden_dim))output_weights=np.random.uniform(0,1,(output_dim,hidden_dim))
变量prev_memory指的是internal_state（这些是先前序列的内存）。
其他参数也给予了初始化数值。
input_weight梯度，internal_state_weight梯度和output_weight梯度分别命名为du，dw和dv。
变量bptt_truncate表示网络在反向传播时必须回溯的时间戳数，这样做是为了克服梯度消失的问题。
prev_memory=np.zeros((hidden_dim,1))learning_rate=0.0001nepoch=25t=4#lengthofsequencebptt_truncate=2du=np.zeros(input_weights.shape)dv=np.zeros(output_weights.shape)dw=np.zeros(internal_state_weights.shape)
前向传播
输出和输入向量
例如有一句话为：i like to play.，则假设在词汇表中：
i被映射到索引2，like对应索引45，to对应索引10、对应索引64而标点符号. 对应索引1。
为了展示从输入到输出的情况，我们先随机初始化每个单词的词嵌入。
input_string=[2,45,10,65]embeddings=[]#thisisthesentenceembeddinglistthatcontainstheembeddingsforeachwordforiinrange(0,t):x=np.random.randn(hidden_dim,1)embeddings.append(x)
输入已经完成，接下来需要考虑输出。
在本项目中，rnn单元接受输入后，输出的是下一个最可能出现的单词。
用于训练rnn，在给定第t 1个词作为输出的时候将第t个词作为输入，例如：在rnn单元输出字为“like”的时候给定的输入字为“i”.
现在输入是嵌入向量的形式，而计算损失函数（loss）所需的输出格式是独热编码（one-hot）矢量。
这是对输入字符串中除第一个单词以外的每个单词进行的操作，因为该神经网络学习只学习的是一个示例句子，而初始输入是该句子的第一个单词。
rnn的黑箱计算
现在有了权重参数，也知道输入和输出，于是可以开始前向传播的计算。
训练神经网络需要以下计算：
其中：
u代表输入权重、w代表内部状态权重，v代表输出权重。
输入权重乘以input(x)，内部状态权重乘以前一层的激活（prev_memory）。
层与层之间使用的激活函数用的是tanh。
deftanh_activation(z):return(np.exp(z)-np.exp(-z))/(np.exp(z)-np.exp(-z))#thisisthetanhfunctioncanalsobewrittenasnp.tanh(z)defsoftmax_activation(z):e_x=np.exp(z-np.max(z))#thisisthecodeforsoftmaxfunctionreturne_x/e_x.sum(axis=0) defrnn_forward(input_embedding,input_weights,internal_state_weights,prev_memory,output_weights):forward_params=[]w_frd=np.dot(internal_state_weights,prev_memory)u_frd=np.dot(input_weights,input_embedding)sum_s=w_frd u_frdht_activated=tanh_activation(sum_s)yt_unactivated=np.asarray(np.dot(output_weights,tanh_activation(sum_s)))yt_activated=softmax_activation(yt_unactivated)forward_params.append([w_frd,u_frd,sum_s,yt_unactivated])returnht_activated,yt_activated,forward_params
计算损失函数
之后损失函数使用的是交叉熵损失函数，由下式给出：
defcalculate_loss(output_mapper,predicted_output):total_loss=0layer_loss=[]fory,y_inzip(output_mapper.values(),predicted_output):#thisforloopcalculationisforthefirstequation,wherelossforeachtime-stampiscalculatedloss=-sum(y[i]*np.log2(y_[i])foriinrange(len(y)))lossloss=loss/float(len(y))layer_loss.append(loss)foriinrange(len(layer_loss)):#thisthetotallosscalculatedforallthetime-stampsconsideredtogether.total_losstotal_loss=total_loss layer_loss[i]returntotal_loss/float(len(predicted_output))
最重要的是，我们需要在上面的代码中看到第5行。
正如所知，ground_truth output(y)的形式是[0，0，….，1，…0]和predicted_output(y^hat)是[0.34，0.03，……，0.45]的形式，我们需要损失是单个值来从它推断总损失。
为此，使用sum函数来获得特定时间戳下y和y^hat向量中每个值的误差之和。
total_loss是整个模型（包括所有时间戳）的损失。
反向传播
反向传播的链式法则：
如上图所示：
cost代表误差，它表示的是y^hat到y的差值。
由于cost是的函数输出，因此激活a所反映的变化由dcost/da表示。
实际上，这意味着从激活节点的角度来看这个变化（误差）值。
类似地，a相对于z的变化表示为da/dz，z相对于w的变化表示为dw/dz。
最终，我们关心的是权重的变化（误差）有多大。
而由于权重与cost之间没有直接关系，因此期间各个相对的变化值可以直接相乘（如上式所示）。
rnn的反向传播
由于rnn中存在三个权重，因此我们需要三个梯度。input_weights(dloss / du)，internal_state_weights(dloss / dw)和output_weights(dloss / dv)的梯度。
这三个梯度的链可以表示如下：
所述dloss/dy_unactivated代码如下：
defdelta_cross_entropy(predicted_output,original_t_output):li=[]grad=predicted_outputfori,linenumerate(original_t_output):#checkifthevalueintheindex

视频打不开 -其他问题
中小企业或个人站长如何做好移动端SEO优化？
开错用户数-企业邮局
进行网站设计时要怎样进行需求沟通?有哪些网站设计风格流行?
在云服务器配置smtp
茶饮连锁品牌“7分甜”完成1.5亿元融资品牌域名尚需提升!
购买域名哪个网站好
小未云服务器价格比较

上一篇：云服务器配置列表

下一篇：【蚌埠网站建设】企业网站建设的开发程序步骤