TA的每日心情 | 18 小时前 |
---|
签到天数: 3669 天 [LV.Master]伴坛终老1
|
九歌——人工智能诗词写作:https://jiuge.thunlp.org/这是清华大学研制的一个智能写作的软件,代表中国智能技术在传统古典文化领域的可实现的智能化创作的阶段性水平,是一个系统的软件,现在还在不断的更新中。发在这里供大家创作时研究尝试一下。
附录:
THUNLP-AIPoet:诗歌自动生成模型及数据资源
2020-08-17
“九歌”是清华大学自然语言处理与社会人文计算实验室(THUNLP)在负责人孙茂松教授带领下研发的中文诗歌自动生成系统。作为目前最好的中文诗歌生成系统之一,“九歌”曾于2017年登上央视一套大型科技类挑战节目《机智过人》第一季的舞台,与当代优秀青年诗人同台竞技比拼诗词创作。2017年上线至今,“九歌”已累计为用户创作超过1000万首诗词,并荣获全国计算语言学学术会议最佳系统展示奖(2017,2019)和最佳论文奖(2018)。
“九歌”团队开源了AIPoet诗歌自动生成模型及数据资源,包含如下内容:
诗歌数据集:涵盖绝句数据、诗歌情感标注数据、格律韵表等资源。
诗歌生成模型:开源了包括风格诗歌生成、多关键词诗歌生成等模型。
预训练资源:基于大规模古诗文预训练的Masked Language Model。
Poetry&AI 论文列表:收集整理了诗歌和AI交叉方向的论文。
资源地址:
https://github.com/THUNLP-AIPoet/

“九歌”在线系统网址:
http://jiuge.thunlp.org/

诗歌数据集

图1:开源数据集列表
AIPoet目前开放了四个中文诗歌数据集:
中文古典诗歌数据集THU-CCPC:包含约13万首中文绝句(已划分训练、测试、开发集),可用于相关模型的训练。
中文格律及韵律数据集THU-CRRD:包含整理好的平声字表、仄声字表以及平水韵表,可用于诗歌生成以及诗歌自动分析研究。
中文诗歌细粒度情感标注语料THU-FSPC:包含5,000首人工标注的绝句,每首诗包含诗歌整体以及每一句的情感标签。可用于训练情感可控的诗歌生成模型,以及进行诗歌情感自动分析。
中文诗歌质量标注数据集THU-PQED:包含173首古人诗作,每一首诗附有诗歌质量不同侧面(如通顺性、上下文连贯性等)的人工评分。可用于诗歌评价指标分析和研究。
诗歌生成模型
AIPoet已开源如下诗歌自动生成模型:
WMPoetry
基于Memory Network的诗歌生成模型。该模型支持多关键词输入,并将中文古典诗歌的格律拆解为字级别的格式embeding,能够较好地控制生成诗歌的格律和韵脚,并提升诗歌的上下文关联性和扣题程度。相关论文发表于IJCAI 2018。
StylisticPoetry
基于互信息解耦的无监督风格诗歌生成模型。该模型无需任何标注数据,能够自动将生成的诗歌划分为用户指定的任意数量个不同风格。 相关论文发表于EMNLP 2018。
MixPoet
基于对抗因素混合的半监督风格诗歌生成模型。该模型利用少量标注数据,通过组合不同的影响因素,创造出多种可控的诗歌风格。相关论文发表于AAAI 2020。
预训练资源BERT-CCPoem
AIPoet基于超过90万首古诗文训练的BERT模型,该模型能提供任何一首古典诗词的任何一个句子的向量表示,可广泛应用于古典诗词智能检索与推荐、风格分析及情感计算等诸多下游任务。
oetry&AI 论文列表
AIPoet整理了人工智能与诗歌交叉领域的相关论文列表。此清单列出了针对诗歌这一文学体裁的相关论文,包括 1.中文古典诗歌(绝句、宋词等)生成,2.中文对联生成,3.中文现代诗生成,4.外文诗生成,5.多模态诗歌生成, 6.诗歌自动分析, 7.诗歌自动翻译, 8. Demo及Survey 等部分。每篇论文都附有下载链接,部分论文也附上了作者公开的源码和数据链接。此清单在不断更新中,力求为读者提供该领域较为全面和最新的研究方法与趋势。
结语
近年来AI和文学艺术不断交融,产生了很多有趣的研究方向,如自动绘画生成、诗歌生成、音乐生成、小说生成等。这些研究在学术界和普通人群中都引起了热烈的讨论,并且具有娱乐、教育、辅助文艺研究等广泛的应用价值。本团队会持续维护和开放AI+Poetry的相关资源,助力NLP和计算人文方向的研究。
开发团队
指导教师:
孙茂松 清华大学计算机系教授,
https://nlp.csai.tsinghua.edu.cn/staff/sms/
团队成员:矣晓沅、杨成、陈慧敏、郭志芃、梁健楠、胡锦毅、李文浩等。

THUNLP
Address: Room 4-505, FIT Building, Tsinghua University
Tel: (+8610) 627-77701

|
|