LSTM Neural Networks for Chinese Word Segmentation

0.摘要

现在绝大多数的先进的中文分词方法都是基于有监督学习,其特征多数从本地文本中提取。这些方法不能利用一些至关重要的长距离的信息。在本篇文章中,我们发表了一篇对于中文分词的神经网络模型,它采用了长短记忆(LSTM)网络将先前的重要信息保存在记忆细胞中,并且避免了本地文本窗口的限制。实验在PKU,MSRA和CTB6人工标注的训练集,并展现出了比以往先进模型更出色的表现。

1.介绍

分词是中文自然语言处理中的一项基本任务。近些年,中文分词(CWS)的到了巨大的发展。流行的方法是将分词任务视为序列标记的问题。序列标注的目标是给序列中每一个元素分配标签,使用最大熵(ME)和条件随机场(CRF)等有监督学习算法可以实现。然而,这些模型受制于特征的设计,并且特征种类繁多以至于结果模型太大不利于实际应用,还被证明对于训练语料会产生过拟合。