NLP合集:教程/实体抽取/关系(三元组)抽取/文本分类/知识图谱/Bert系列/相似度判定/机

Cool-NLPCV （持续更新中…）

Some Cool NLP and CV Repositories and Solutions

Cool-NLP | Cool-CV

旨在收集NLP中常见任务的开源解决方案、数据集、工具、学习资料、优质博客等，方便学习或快速查找。在此分享出来，供大家参考。欢迎积极分享并Star，谢谢!

会持续不定时更新，也欢迎加入共同分享。将在github持续更新

所有内容来源于网络，如果有侵权等问题，请及时联系我删除

1、机器学习&深度学习入门精选

Python-100天从新手到大师斯坦福大学（吴恩达）机器学习教程中文笔记《统计学习方法》第二版的代码实现Coursera深度学习教程中文笔记(deeplearning.ai吴恩达)《动手学深度学习》TensorFlow2.0版本《动手学深度学习》Pytorch版本Deep-learning-with-keras-notebooksTensorFlow2教程及深度学习入门指南Pytorch模型训练实用教程《机器学习》(西瓜书)公式推导解析数据科学笔记以及资料搜集Data-Science-Notes李宏毅《深度强化学习》笔记Pandas中文教程各种框架的深度学习环境Docker镜像

2、词向量&Bert系列预训练模型

100+ Chinese Word Vectors上百种预训练中文词向量腾讯词向量Pre-Training with Whole Word Masking for Chinese BERT(中文BERT-wwm系列模型)谷歌官方BERT中文ELECTRA预训练模型中文XLNet预训练模型中文MacBERT预训练模型中文AlBert预训练模型开源预训练语言模型合集JD客服对话数据(42G,12亿句子)预训练BERT及WordEmbedding以词为基本单位的中文BERT高质量中文预训练模型集合：最先进大模型、最快小模型、相似度专门模型

3、自然语言处理数据集&数据下载网站

任务型对话数据、文本分类、实体识别&词性标注、搜索匹配、推荐系统、百科数据、指代消歧、中文完形填空数据集、中华古诗词数据库、保险行业语料库、汉语拆字字典、中文数据集平台情感/观点/评论倾向性分析、中文命名实体识别、推荐系统、FAQ 问答系统维基百科、新闻语料、百科问答、社区问答、中英翻译语料中文语言理解测评基准，包括代表性的数据集、基准(预训练)模型、语料库、排行榜知识图谱的数据集:常识、城市、金融、农业、地理、气象、社交、物联网、医疗、娱乐、生活、商业、出行、科教等新冠开放知识图谱《大词林》开源75万核心实体和围绕核心实体的细粒度概念、关系列表大规模医疗对话数据集:包含110万医学咨询，400万条医患对话新冠及其他类型肺炎中文医疗对话数据集MedQuAD：(英文)医学问答数据集中文医疗对话数据集Chinese medical dialogue data大规模中文知识图谱数据中文语音语料:说话人约3200个，音频约900小时，文本约113万条，共有约1300万字THUOCL（THU Open Chinese Lexicon）中文词库面向中文处理的12类、百万规模的语义常用词典，包括34万抽象语义库、34万反义语义库、43万同义语义库等百度知道问答语料库，包括超过580万的问题，938万的答案，5800个分类标签公司名语料库、机构名语料库中英文NLP数据集智源数据开放研究中心百度大脑滴滴数据开放计划

4、基于Bert(bert4keras)的各类任务统一框架实现：

中文分词、实体识别、文本(情感)分类、阅读理解、标题生成、关系抽取(三元组抽取)、对抗训练、图像描述生成、文本生成

5、BAT机器学习面试1000题系列

6、Macadam是一个以Tensorflow(Keras)和bert4keras为基础，专注于文本分类、序列标注和关系抽取的自然语言处理工具包，

支持RANDOM、WORD2VEC、FASTTEXT、BERT、ALBERT、ROBERTA、NEZHA、XLNET、ELECTRA、GPT-2等EMBEDDING嵌入支持FineTune、FastText、TextCNN、CharCNN、BiRNN、RCNN、DCNN、CRNN、DeepMoji、SelfAttention、HAN、Capsule等文本分类算法支持CRF、Bi-LSTM-CRF、CNN-LSTM、DGCNN、Bi-LSTM-LAN、Lattice-LSTM-Batch、MRC等序列标注算法

7、论文合集&实战分享

NLP相关顶会(如ACL、EMNLP、NAACL、COLING、AAAI、IJCAI)的论文、开源代码项目合集NLP论文多个领域经典、顶会、必读整理分享深度学习模型在各大公司实战落地细节解读,主要包括搜索/推荐/自然语言处理方向

8、实体识别合集

基于TF：BERT-BiLSTM-CRF-NER基于TF+Pytorch:CLUENER 细粒度命名实体识别基于Pytorch:Chinese NER(Named Entity Recognition) using BERT(Softmax, CRF, Span)基于TF：命名实体识别实践与探索工业界如何解决NER问题？12个trick，与你分享中文NER的正确打开方式: 词汇增强方法总结 (从Lattice LSTM到FLAT)支持批并行的LatticeLSTMmedical_NER - 中文医学知识图谱命名实体识别BERT/CRF实现的命名实体识别用预训练语言模型ALBERT做中文NER用 bilstm-crf,bert及相关方法进行序列标注BILSTM+CRF做医疗实体识别,包含医疗NER数据DeepIE:基于深度学习的信息抽取技术

9、文本(情感)分类

基于CNN，RNN 和NLP中预训练模型构建的多个常见的文本分类模型中文文本分类，TextCNN，TextRNN，FastText，TextRCNN，BiLSTM_Attention, DPCNN, Transformer,基于pytorch腾讯开源深度学习文本分类工具:NeuralNLP-NeuralClassifier,基于PytorchKeras-TextClassification中文ULMFiT 情感分析文本分类基于Bert、Xlnet + cnn、lstm、gru的文本分类如何解决NLP分类任务的11个关键问题文本分类资料综述总结(含代码)

10、关系抽取(三元组抽取)

基于远监督的中文关系抽取基于DGCNN和概率图的轻量级信息抽取模型用bert4keras做三元组抽取信息抽取冠军方案分享：嵌套NER+关系抽取+实体标准化ACL信息抽取相关论文汇总Nlp中的实体关系抽取方法总结DeepKE:基于 Pytorch 的深度学习中文关系抽取框架基于TensorFlow的实体及关系抽取,语言与智能技术竞赛信息抽取任务解决方案一种级联指针三元组抽取框架事件抽取方法总结(含代码)DeepIE:基于深度学习的信息抽取技术

11、文本生成、文本摘要

动手做个DialoGPT：基于LM的生成式多轮对话模型

12、阅读理解

基于MLM的阅读理解问答

13、知识图谱

基于医药知识图谱的智能问答系统京东商品知识图谱军事领域知识图谱问答项目百度百科中文页面，抽取三元组信息，构建中文知识图谱基于知识图谱的问答系统《知识图谱》课程资料农业知识图谱(AgriKG)：农业领域的信息检索，命名实体识别，关系抽取，智能问答，辅助决策知识图谱构建，自动问答，基于kg的自动问答:以疾病为中心的一定规模医药领域知识图谱，并以该知识图谱完成自动问答与分析服务知识图谱相关学习资料，提供系统化的知识图谱学习路径

14、文本相似度计算(判定)

中文问题句子相似度计算比赛及方案汇总中国法研杯相似案例匹配Top1团队解决方案常用文本匹配模型tf版本，数据集为QA_corpus文本匹配的相关模型DSSM,ESIM,ABCNN,BIMPM等，数据集为LCQMC官方数据基于Siamese bilstm模型的相似句子判定模型,提供训练数据集和测试数据集

15、Attention(注意力机制)、Transformer

《Attention is All You Need》浅读(简介+代码)通俗易懂：8大步骤图解注意力机制Transformer如戏，全靠Mask放弃幻想，全面拥抱Transformer：自然语言处理三大特征抽取器（CNN/RNN/TF）比较

16、机器人、问答

智能客服、聊天机器人的应用和架构、算法分享和介绍微软聊天机器人框架BotFramework聊天机器人框架RASAGPT2 for Chinese chitchat/用于中文闲聊的GPT2模型基于金融-司法领域(兼有闲聊性质)的聊天机器人基于rasa_nlu，rasa_core，rasa_core_sdk构建的聊天机器人

17、Embedding系列

nlp中的词向量对比：word2vec/glove/fastText/elmo/GPT/bert乘风破浪的PTM：两年来预训练模型的技术进展万字长文解析词向量(W2C/Fasttext/Glove)Embedding入门必读的十篇论文

18、Bert解读系列

BERT模型图解NLP预训练模型：从transformer到albertBert时代的创新（应用篇）：Bert在NLP各领域的应用进展从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史XLNet:运行机制及和Bert的异同比较

19、NLP任务处理合集，包括但不限于词向量、命名实体识别、文本分类、文本生成、文本相似性计算、关系抽取、中文分词、词性标注、情感分析、新词发现、关键词、文本摘要、文本聚类等

NLP相关的一些论文及代码, 包括主题模型、词向量、命名实体识别、文本分类、文本生成、文本相似性计算等，涉及到各种与nlp相关的算法，基于keras和tensorflowJiagu自然语言处理工具 - 以BiLSTM等模型为基础，提供知识图谱关系抽取中文分词词性标注命名实体识别情感分析新词发现关键词文本摘要文本聚类等功能Texthero：文本数据高效处理包，包括预处理、关键词提取、命名实体识别、向量空间分析、文本可视化等基于Pytorch的Bert应用，包括命名实体识别、情感分析、文本分类以及文本相似度等

20、NLP基础工具包

清华THULACHanLP哈工大LTPJiebaNLPIR汉语分词JioNLP：中文NLP任务预处理工具包，准确、高效、零使用门槛Time-Extractor:中文文本时间抽取、时间转换及标准化

21、文本对抗、数据增强

TextAttack:一个用于NLP对抗性攻击、数据扩充和模型训练的框架对抗训练浅谈：意义、方法和思考(附Keras实现)中文语料的EDA数据增强工具一文搞懂NLP中的对抗训练FGSM/FGM/PGD/FreeAT/YOPO/FreeLB/SMARTNLP中的对抗训练 + PyTorch实现

22、NLP标注工具或平台

BRAT:基于web的文本标注工具YEDDAMarkTool 基于web的通用文本标注工具,支持大规模实体标注、关系标注、事件标注、文本分类等doccano:一站式文本标注工具

23、NLP面试指南

NLP算法面试必备！史上最全！PTMs：NLP预训练模型的全面总结NLP/AI面试全记录(持续更新，最全预训练总结)机器学习、NLP面试中常考到的知识点和代码实现关于Attention和Transformer的灵魂拷问

24、人工智能技术系列报告

清华大学人工智能技术系列报告

25、国内自然语言处理(NLP)研究组

26、语音识别

MASR 中文语音识别基于深度学习的中文语音识别系统 A Deep-Learning-Based Chinese Speech Recognition System

27、Seq2Seq

无监督编程语言转换(Python、C++、Java)

28、NLP竞赛精选

NLP比赛的TOP方案首届中文NL2SQL挑战赛冠军方案首届中文NL2SQL挑战赛季军方案与代码Kaggle竞赛宝典方案汇总推荐算法竞赛TOP方案合集

29、模型蒸馏

BERT模型蒸馏完全指南（原理/技巧/代码）一个基于PyTorch的NLP知识蒸馏工具包

30、训练技巧

神经网络分布式训练、混合精度训练、梯度累加…一文带你优雅地训练大型模型BERT预训练实操总结

31、竞赛网站

阿里云天池DataFountainBiendata competitionsDC-labKaggle图灵联邦FlyaiEval

NLP合集:教程/实体抽取/关系(三元组)抽取/文本分类/知识图谱/Bert系列/相似度判定/机器人问答/文本工具/竞赛方案精选/面试指南/NLP各类任务数据集等集合