首页 > 自然语言处理 > 正文

意图分类是怎么实现的

标签：nlp

如何进行意图分析

之前开始做语义理解的时候，笔者采用的是比较粗暴的方法进行匹配。随着语料的积累，语料库的规模变得越来越大，匹配的效率也随着越来越低，对语料进行意图分类的想法也就随着产生。

当用户输入之后，系统首先对输入进行意图分类，然后对分类下的语料进行匹配，从而减轻计算量，提高系统的匹配效率。

本文只是简单的阐述一下意图分析的典型思路和方法，并实现一个基本的意图分类器，而无意系统的探究意图分类。更详细的探讨后文再进行。

本文按照如下流程进行叙述：

数据准备
特征提取
模型准备
训练模型
使用模型

数据准备

假设有3个场景：吃饭、打招呼、再见。那么三个场景下会有什么样的对话呢？比如：

今天这个菜真好吃！
嗨！今天天气不错！
今天很开心，明天见！

很明显，人眼一看就能看出对应的句子应该是哪个类别了：

今天这个菜真好吃！ ->吃饭
嗨！今天天气不错！ ->打招呼
今天很开心，明天见！ ->再见

到这里，我们模型需要的数据就有了。可以很清晰的写出下面的代码：

list_sen=['今天这个菜真好吃！','嗨！今天天气不错！','今天很开心，明天见！']

需要的数据就有了，下一步是提取特征。

特征提取

特征的提取是为了方便进行分类计算，每一个特征都具备一定的权重，表明它的权值。通过特征的权值，就能够确定句子属于哪一个类别。这里我们将每一个字作为一个特征，1/（字出现的总次数）作为权值。首先构造一个字典，key为字，value为频率：

dict_voc=dict()
for s in list_sen:
    for w in s:
        if w in dict_voc.keys():
            dict_voc[w]+=1
        else:
            dict_voc[w]=1

输出为：

{'这': 1.0, '嗨': 1.0, '好': 1.0, '气': 1.0, '真': 1.0, '错': 1.0, '不': 1.0, '个': 1.0, '心': 1.0, '天': 0.2, '菜': 1.0, '今': 0.3333333333333333, '，': 1.0, '！': 0.25, '吃': 1.0, '明': 1.0, '见': 1.0, '很': 1.0, '开': 1.0}

到这里字典构造完毕，下一步就是构造类别的特征了。前面说了，我们把每一个类别下的每一个字作为特征，代码也就可以写出来了。

features_one=dict()#吃饭  {字：频率}
features_two=dict()#打招呼
features_three=dict()#再见
for w in list_sen[0]:
    if w in features_one.keys():
        features_one[w]+=1
    else:
        features_one[w]=1
for w in list_sen[1]:
    if w in features_two.keys():
        features_two[w]+=1
    else:
        features_two[w]=1
for w in list_sen[2]:
    if w in features_three.keys():
        features_three[w]+=1
    else:
        features_three[w]=1
print(features_one)
print(features_two)
print(features_three)

#{'好': 1, '天': 1, '真': 1, '吃': 1, '！': 1, '菜': 1, '今': 1, '个': 1, '这': 1}
#{'不': 1, '！': 2, '气': 1, '嗨': 1, '错': 1, '今': 1, '天': 2}
#{'明': 1, '心': 1, '开': 1, '见': 1, '，': 1, '很': 1, '今': 1, '天': 2, '！': 1}

到这里特征的提取已经完成

模型准备

模型准备需要的是建立分类模型。这里我们通过给每一个特征赋予一个得分，然后将句子中每一个字的特征得分进行相加，然后就可以得到句子在某一个类别下特征的总得分，从而能够对句子进行分类。

比方说：今天的工作就到这里吧，大家早点回去，明天再继续吧。这句话在每一个类别下的得分为：

特征命中：今、天、这、天
类别：吃饭
得分：4

特征命中：今、天、天
类别：打招呼
得分：3

特征命中：今、天、明、天、，、，
类别：再见
得分：6

这里，我们假设每一个字的权重为1，。显然，得分6最高，所属的类别应该是：再见。到这里，我们所需要的模型就已经建立起来了。

训练模型

上一节有一个问题，比如今天在所有的类别都出现了，拜拜只出现在了再见类别，菜也只出现在了吃饭类别。这是不是意味这每一个特征应该具备不同的权重呢？或者说有些字的辨识度应该更高，有些字的辨识度应该更低呢？

是的，我们在这里通过1/（字出现的总次数）来对字的特征得分进行加权。

特征命中：今（0.3）、天（0.2）、这（1）、天（0.2）
类别：吃饭
得分：1.73

特征命中：今（0.3）、天（0.2）、天（0.2）
类别：打招呼
得分：1.13

特征命中：今（0.3）、天（0.2）、明（1.0）、天（0.2）、，（1.0）、，（1.0）
类别：再见
得分：4.13

结果还是属于类别再见。

有了前面的叙述，可以很方便的进行编码实现：

sen='今天的工作就到这里吧，大家早点回去，明天再继续吧。'
score1=0.0
score2=0.0
score3=0.0
print('class1:')
for w in sen:
    if w in features_one:
        print('word:',w,features_one[w],dict_voc[w])
        score1+=features_one[w]*dict_voc[w]
print('score1:',score1)
print('---------------------')
print('class2:')
for w in sen:
    if w in features_two:
        print('word', w,features_two[w],dict_voc[w])
        score2+=features_two[w]*dict_voc[w]
print('score2:',score2)
print('---------------------')
print('class3:')
for w in sen:
    if w in features_three:
        print('word', w,features_three[w],dict_voc[w])
        score3+=features_three[w]*dict_voc[w]
print('score3:',score3)
print('---------------------')

输出如下：

class1:
word: 今 1 0.3333333333333333
word: 天 1 0.2
word: 这 1 1.0
word: 天 1 0.2
score1: 1.7333333333333332
---------------------
class2:
word 今 1 0.3333333333333333
word 天 2 0.2
word 天 2 0.2
score2: 1.1333333333333333
---------------------
class3:
word 今 1 0.3333333333333333
word 天 2 0.2
word ， 1 1.0
word ， 1 1.0
word 明 1 1.0
word 天 2 0.2
score3: 4.133333333333334
---------------------

总结

以上就完成了意图分类模型的建立。本文只是对意图分类进行了简单的探讨，实际上的意图分类并不是这么简单，当然，这就是后话了。

原创文章，转载请注明出处！
本文链接：http://youran.tech/posts/simple-intent-detection.html

上篇： 2.Detect Language with MLP

下篇： 2017年深度学习在NLP领域的进展和趋势

意图分类是怎么实现的

数据准备

特征提取

模型准备

训练模型

总结

留言:

栏目分类

最新文章