斯坦福公布任务导向型多领域多轮对话数据集

来源于：搜狐媒体平台

2017-07-04 14:03:32

　　安妮编译自斯坦福NLP小组官方博客

　　量子位出品|公众号QbitAI

　　任务导向型对话侧重于参与用户发起的特定话题的对话。一般来说，如果做任务导向型对话的程序员训练模型数据集不够大且不够多样，那么接下来的工作很有可能受阻。

　　为了帮助缓解这个问题，斯坦福自然语言处理小组公布了一组语料库。这组数据集包含了3031条多轮对话数据，内容主要分布在日程安排、天气信息检索和兴趣点导航。

　　这个对话集是通过知识库建立的，确保系统对自然语言处理得灵活流利。数据集与人类的对话差不多是下面的画风——

1/5

　　在驾驶员模式中，用户会收到一份包含了明确信息的任务，里面列出了他们试图从助手中提取的某些信息，以及驾驶员和助手之间的历史对话。驾驶员只负责提供一组对话，并根据之前的历史对话消息和指定任务将对话进行下去。这些任务是通过3到5个可选值（比如时间、日期、地点等）随机指定的。