Merge branch 'master' of https://github.com/EssayKillerBrain/EssayKiller_V2

Y1ran · Y1ran · commit 0d4eaac7ce17 · 2020-10-25T16:51:48.000+08:00
diff --git a/README.md b/README.md
@@ -3,18 +3,18 @@
 
 
 
-![image](https://img.shields.io/badge/License-Apache--2.0-green) ![image](https://img.shields.io/badge/License-MIT-orange)  ![image](https://img.shields.io/badge/pypi-v0.0.1a4-yellowgreen) ![image](https://img.shields.io/badge/stars-%3C%201k-blue) ![image](https://img.shields.io/badge/issues-1%20open-brightgreen)
+![image](https://img.shields.io/badge/License-Apache--2.0-green) ![image](https://img.shields.io/badge/License-MIT-orange)  ![image](https://img.shields.io/badge/License-Anti--996-red)  ![image](https://img.shields.io/badge/pypi-v0.0.1a4-yellowgreen) ![image](https://img.shields.io/badge/stars-%3C%201k-blue) ![image](https://img.shields.io/badge/issues-1%20open-brightgreen)  
 
 通用型议论文创作人工智能框架，仅限交流与科普。
 
-Bilibili视频地址：
+Bilibili视频地址：https://www.bilibili.com/video/av669847658/
 
 ## 项目简介
 EssayKiller是基于OCR、NLP领域的最新模型所构建的生成式文本创作AI框架，目前第一版finetune模型针对高考作文（主要是议论文），可以有效生成符合人类认知的文章，多数文章经过测试可以达到正常高中生及格作文水平。
 
 | 项目作者        | 主页1           | 主页2  | 主页3 |
 | ------------- |:-------------:|:----:|:---:|
-| 图灵的猫       | [知乎](https://www.zhihu.com/people/dong-xi-97-29)       | [B站](https://space.bilibili.com/371846699) | [Youtube](https://www.youtube.com/channel/UCoEVP6iTw5sfozUGLLWJyDg/channels) |
+| 图灵的猫       | [知乎](https://www.zhihu.com/people/dong-xi-97-29) |[B站](https://space.bilibili.com/371846699) | [Youtube](https://www.youtube.com/channel/UCoEVP6iTw5sfozUGLLWJyDg/featured) |
 
 
 **致谢**
@@ -27,15 +27,15 @@ EssayKiller是基于OCR、NLP领域的最新模型所构建的生成式文本创
 - [x] 基于EAST、CRNN、Bert和GPT-2语言模型的高考作文生成AI
 - [x] 支持bert tokenizer，当前版本基于clue chinese vocab
 - [x] 17亿参数多模块异构深度神经网络，超2亿条预训练数据
-- [x] 线上点击即用的文本生成效果demo：[17亿参数作文杀手](https://colab.research.google.com/drive/1rcgQ2Zh_eBilJ40bJ5fd9Xq14D9YGAeh#scrollTo=9W1aX_U0K2VH)
+- [x] 线上点击即用的文本生成效果demo：[17亿参数作文杀手](https://colab.research.google.com/github/EssayKillerBrain/EssayKiller_V2/blob/master/colab_online.ipynb)
 - [x] 端到端生成，从试卷识别到答题卡输出一条龙服务
 
 
 
 ### Colab线上作文生成功能
 国内没有足够显存的免费GPU平台，所以配合Google Drive将训练好的AI核心功能Language Network写作模块迁移到Colab。
 
-当前线上仅开放文本生成功能，输入对应句子，AI返回生成文章。同一个句子可以输入多次，每一次输出都不同。也可以选择同时生成多篇文章。具体见：[17亿参数作文杀手](https://colab.research.google.com/drive/1rcgQ2Zh_eBilJ40bJ5fd9Xq14D9YGAeh#scrollTo=9W1aX_U0K2VH)
+当前线上仅开放文本生成功能，输入对应句子，AI返回生成文章。同一个句子可以输入多次，每一次输出都不同。也可以选择同时生成多篇文章。具体见：[17亿参数作文杀手](https://colab.research.google.com/github/EssayKillerBrain/EssayKiller_V2/blob/master/colab_online.ipynb)
 
 * 第一步：安装环境
 ![](https://github.com/EssayKillerBrain/EssayKiller_V2/blob/master/References/attachments/Clipboard_2020-09-29-15-22-13.png)
@@ -74,7 +74,7 @@ EssayKiller是基于OCR、NLP领域的最新模型所构建的生成式文本创
 * 2020.09.14 排版脚本与输出装置改装
 
 ## 模型结构
-整个框架分为EAST、CRNN、Bert、GPT-2、DNN 5个模块，每个模块的网络单独训练，参数相互独立。infer过程使用pipeline串联，通过外接装置直接输出到答题卡。
+整个框架分为EAST、CRNN、Bert、GPT-2、DNN 5个模块，每个模块的网络单独训练，参数相互独立。infer过程使用pipeline串联，通过外接装置直接输出到答题卡。  
 ![](https://github.com/EssayKillerBrain/EssayKiller_V2/blob/master/References/attachments/Clipboard_2020-09-29-15-35-00.png)
 
 
@@ -85,7 +85,7 @@ EssayKiller是基于OCR、NLP领域的最新模型所构建的生成式文本创
 
 ### 2. 识别网络
 #### 2.1 EAST文本检测
-OpenCV 的EAST文本检测器是一个深度学习模型，它能够在 720p 的图像上以13帧/秒的速度实时检测任意方向的文本，并可以获得很好的文本检测精度。
+OpenCV 的EAST文本检测器是一个深度学习模型，它能够在 720p 的图像上以13帧/秒的速度实时检测任意方向的文本，并可以获得很好的文本检测精度。  
 ![](https://github.com/EssayKillerBrain/EssayKiller_V2/blob/master/References/attachments/Clipboard_2020-09-29-15-45-54.png)
 
 <br>
@@ -126,7 +126,7 @@ python multigpu_train.py --gpu_list=0 --input_size=512 --batch_size_per_gpu=14 -
 
 下载[训练集](https://pan.baidu.com/s/1E_1iFERWr9Ro-dmlSVY8pA)：共约364万张图片，按照99: 1划分成训练集和验证集
 
-数据利用中文语料库（新闻 + 文言文），通过字体、大小、灰度、模糊、透视、拉伸等变化随机生成。包含汉字、英文字母、数字和标点共5990个字符，每个样本固定10个字符，字符随机截取自语料库中的句子，图片分辨率统一为280x32。
+数据利用中文语料库（新闻 + 文言文），通过字体、大小、灰度、模糊、透视、拉伸等变化随机生成。包含汉字、英文字母、数字和标点共5990个字符，每个样本固定10个字符，字符随机截取自语料库中的句子，图片分辨率统一为280x32。  
 
 *修改/train/config.py中train_data_root，validation_data_root以及image_path*
 
@@ -224,15 +224,15 @@ python run.py --model bert
 预训练语料来自 [THUCNews](http://thuctc.thunlp.org/#%E4%B8%AD%E6%96%87%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BB%E6%95%B0%E6%8D%AE%E9%9B%86THUCNews) 以及 [nlp_chinese_corpus](https://github.com/brightmart/nlp_chinese_corpus)，清洗后总文本量约 15G。
  Finetune语料来自历年满分高考作文、优质散文集以及近现代散文作品，约1000篇。  
 
-**预训练**
+**预训练**  
 参考 [GPT2-ML](https://github.com/imcaspar/gpt2-ml/) 预训练模型，使用 [Quadro RTX 8000](https://www.nvidia.com/en-us/design-visualization/quadro/rtx-8000/) 训练 28w 步
 
 >![](https://github.com/EssayKillerBrain/EssayKiller_V2/blob/master/References/attachments/2233.PNG)
 
 
 <br>
 
-**Finetue**
+**Finetune**
 
 ```bash
 1、进入dataset目录
@@ -255,10 +255,10 @@ CUDA_VISIBLE_DEVICES=0  python train/train_wc.py --input_file=/data/EssayKiller/
 ![](https://github.com/EssayKillerBrain/EssayKiller_V2/blob/master/References/attachments/Clipboard_2020-09-29-18-59-12.png)
 
 这部分直接调用百度API。有现成的模型就不重复造轮子了，具体实现方式百度没有开源，这里简单描述一下语言模型的概念：
-语言模型是通过计算给定词组成的句子的概率，从而判断所组成的句子是否符合客观语言表达习惯。通常用于机器翻译、拼写纠错、语音识别、问答系统、词性标注、句法分析和信息检索等。
+语言模型是通过计算给定词组成的句子的概率，从而判断所组成的句子是否符合客观语言表达习惯。通常用于机器翻译、拼写纠错、语音识别、问答系统、词性标注、句法分析和信息检索等。  
 ![](https://github.com/EssayKillerBrain/EssayKiller_V2/blob/master/References/attachments/Clipboard_2020-09-29-18-59-57.png)
 
-这里使用通顺度打分作为判断依据。
+这里使用通顺度打分作为判断依据。  
 
 #### 3.2 高考排版器
 
@@ -272,7 +272,7 @@ CUDA_VISIBLE_DEVICES=0  python train/train_wc.py --input_file=/data/EssayKiller/
 3. 每个字符尽量保持在字体框内
 4. 字数不能过长或过短
 
-由于模型输出的文章不保证换行和分段，通过统计高考作文的常见段数、每段句数，编写脚本对输出进行划分。大多数情况下分段排版的结果都比较合理。
+由于模型输出的文章不保证换行和分段，通过统计高考作文的常见段数、每段句数，编写脚本对输出进行划分。大多数情况下分段排版的结果都比较合理。  
 ![](https://github.com/EssayKillerBrain/EssayKiller_V2/blob/master/References/attachments/Clipboard_2020-09-29-19-04-24.png)
 
 <br>
@@ -284,7 +284,7 @@ CUDA_VISIBLE_DEVICES=0  python train/train_wc.py --input_file=/data/EssayKiller/
 **外接装置**
 
 基于aedraw，一款开源的CNC(Computer Numerical Control数控机床)画图机器人，具有绘制图案、写字等功能，它也可以升级为激光雕刻等用途。
-详细教程见 http://aelab.net/ ，不仅能自己制作一台写字绘画机器人，而且能够掌握其工作原理拓展更多的应用。
+详细教程见 http://aelab.net/ ，不仅能自己制作一台写字绘画机器人，而且能够掌握其工作原理拓展更多的应用。  
 
 ![](https://github.com/EssayKillerBrain/EssayKiller_V2/blob/master/References/attachments/Clipboard_2020-09-29-19-12-07.png)
 
@@ -299,39 +299,57 @@ CUDA_VISIBLE_DEVICES=0  python train/train_wc.py --input_file=/data/EssayKiller/
 
 | 模型        | 参数量           | 下载链接  | 备注 |
 | ------------- |:-------------:|:----:|:---:|
-| EAST  | < 0.1 Billion  | [GoogleDrive](https://pan.baidu.com/s/1S9WpyXZ_wVWbKo-WsB0q5A) 提取码：sxhh| 检测模型 |
+| EAST  | < 0.1 Billion  | [GoogleDrive](https://drive.google.com/file/d/1fF4IYaL7CWghYCDvRrACM57WVx83Yvny/view?usp=sharing) | 检测模型 |
 | CRNN | < 0.1 Billion   | [网盘链接](https://eyun.baidu.com/s/3dEUJJg9) 提取码：vKeD| 识别模型 |
-| BERT | 0.1 Billion   | [GoogleDrive](https://pan.baidu.com/s/1BrdFSx9_n1q2uWBiQrpalw) 提取码：kim2| 摘要模型 |
+| BERT | 0.1 Billion   | [GoogleDrive](https://drive.google.com/file/d/15DbA07DZNT3gMXu2aLliA3CkuR5XHhlt/view?usp=sharing) | 摘要模型 |
 | GPT-2 | 1.5 Billion   | [GoogleDrive](https://drive.google.com/file/d/1ujWYTOvRLGJX0raH-f-lPZa3-RN58ZQx/view?usp=sharing)  | 生成模型 |
 
 整个AI的参数量分布不均匀，主要原因在于，这是一个语言类AI，99%的参数量集中在语言网络中，其中GPT-2（15亿）占88%，BERT（1.1亿）占7%，其他的识别网络和判分网络共占5%。
 
 ### 当前问题
 * 输出的格式和高考作文还不能完美契合，之后的参数需要微调一下。为了国庆前完成，我还没来得及优化
 * 生成的100篇作文里有很大一部分其实算不上合格的作文，有些只能勉强及格，有些甚至能拿零分（占比不多），显然GPT-2的能力有限。为了视频效果我只选了相对好的几篇做展示
+* 英文版的说明还没来得及写，有空的同学可以翻译一下提个pr
 
 ## Q&A
-* **我能否用EssayKiller来帮自己写作业？**
-  不能。所以有下一个问题：
+* **我能否用EssayKiller来帮自己写作业？**  
+  不能。所以有下一个问题：  
   
-* **为什么缺少一些关键文件？**
-项目在一开始是完全开源的，经过慎重考虑我认为完全开源会被部分别有用心的人用以牟利，甚至用作不法用途。参考咸鱼和淘宝上一些魔改的开源框架应用。部分懂技术又不想动笔的小同志可能会让Essaykiller帮自己写作业，比如读后感、课后作文、思修小论文。我想说，这样不好。
+* **为什么缺少一些关键文件？**  
+项目在一开始是完全开源的，经过慎重考虑我认为完全开源会被部分别有用心的人用以牟利，甚至用作不法用途。参考咸鱼和淘宝上一些魔改的开源框架应用。部分懂技术又不想动笔的小同志可能会让Essaykiller帮自己写作业，比如读后感、课后作文、思修小论文。我想说，这样不好。  
 
-* **为什么不直接加密？**
-本来打算用混淆加密，但一些模块本就是开源的，所以我开源了整体的模型文件，只隐藏了关键的，包括pipeline、输入输出在内的文件，另外有些文件里也加了盐。
+* **为什么不直接加密？**  
+本来打算用混淆加密，但一些模块本就是开源的，所以我开源了整体的模型文件，只隐藏了关键的，包括pipeline、输入输出在内的文件，另外有些文件里也加了盐。  
 
-* **有哪些模组可用？**
+* **有哪些模组可用？**  
 目前完全开源，可以独立复用的部分包括：
   - [x] 检测网络
   - [x] 文本摘要网络
   - [x] 文本生成网络
-  - [x] 判分网络与排版脚本
+  - [x] 判分网络与排版脚本  
 
-* **为什么不用GPT-3**
-训练一个中文GPT-3的价格至少为1200万美元，折合人民币将近1亿。要是真有人训练出来一个中文GPT-3还开源模型文件了，我愿称之为最强。
+* **为什么不用GPT-3**  
+训练一个中文GPT-3的价格至少为1200万美元，折合人民币将近1亿。要是真有人训练出来一个中文GPT-3还开源模型文件了，我愿称之为最强。  
+
+* **训练EssayKiller需要多少钱？**  
+从头到尾训练完pipeline的话在1K～100K人民币不等，取决于你有无分布式集群可用  
+
+<br>
+
+## Citation
+```
+@misc{EssayKillerBrain,
+  author = {Turing's Cat},
+  title = {Autowritting Ai Framework},
+  year = {2020},
+  publisher = {GitHub},
+  journal = {GitHub repository},
+  howpublished = {\url{https://github.com/EssayKillerBrain/EssayKiller}},
+}
+```
+
+<br>
 
-* **训练EssayKiller需要多少钱？**
-从头到尾训练完pipeline的话在1K～100K人民币不等，取决于你有无分布式集群可用
 
 ## 参考资料  
 [1] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding  
@@ -364,22 +382,6 @@ CUDA_VISIBLE_DEVICES=0  python train/train_wc.py --input_file=/data/EssayKiller/
 [28] https://github.com/CLUEbenchmark/CLUECorpus2020  
 [29] https://github.com/zhiyou720/chinese_summarizer  
 
-<br>
-
-## Citation
-```
-@misc{EssayKillerBrain,
-  author = {Turing's Cat},
-  title = {Autowritting Ai Framework},
-  year = {2020},
-  publisher = {GitHub},
-  journal = {GitHub repository},
-  howpublished = {\url{https://github.com/EssayKillerBrain/EssayKiller}},
-}
-```
-
-<br>
 
 ## 免责声明
 该项目中的内容仅供技术研究与科普，不作为任何结论性依据，不提供任何商业化应用授权
-