BERT文本检测项目

本项目使用BERT模型来检测文本是否由AI生成。

本地运行指南

1. 环境准备

安装Python 3.9
安装依赖包：

pip install -r requirements.txt

2. 数据集准备

下载Ghostbuster数据集
将数据集放在项目目录下的 ghostbuster-data 文件夹中
确保数据集路径正确（在 main.py 中检查 DATA_PATH 变量）

3. 运行训练

python main.py

集群运行指南

1. 准备文件

确保你有以下文件：

main.py：主训练脚本
data_loader.py：数据加载脚本
requirements.txt：依赖包列表
submit.sh：集群作业提交脚本

2. 登录集群

ssh -p 10022 [email protected]

密码：SKwFeThVz(8p6q*23a

3. 创建项目目录

mkdir -p ~/bert_train
cd ~/bert_train

4. 上传文件

在本地Windows PowerShell中执行：

scp -P 10022 main.py data_loader.py requirements.txt submit.sh [email protected]:~/bert_train/

5. 提交作业

在集群终端中执行：

sbatch submit.sh

6. 查看作业状态

# 查看作业是否在运行
squeue -u cse12211617

# 查看训练输出
cat train_*.log

# 实时查看训练进度
tail -f train_*.log

7. 取消作业（如果需要）

# 查看作业ID
squeue -u cse12211617

# 取消作业
scancel <作业ID>

集群资源说明

可用分区

A100分区
- 每个用户最多1个GPU
- 每个用户最多1个作业
- 使用 --partition=a100 和 --qos=a100
RTX2080Ti分区
- 每个用户最多2个GPU
- 每个用户最多1个作业
- 使用 --partition=rtx2080ti 和 --qos=rtx2080ti
Titan分区
- 每个用户最多2个GPU
- 每个用户最多1个作业
- 使用 --partition=titan 和 --qos=titan

修改分区

如果需要修改使用的GPU分区，编辑 submit.sh 文件中的以下行：

#SBATCH --partition=a100  # 改为需要的分区
#SBATCH --qos=a100       # 改为对应的qos

注意事项

确保数据集路径正确
作业提交后会自动安装依赖包
训练过程可能需要几个小时
可以随时查看日志了解训练进度
如果遇到问题，可以查看错误日志：cat train_*.err

代码说明

main.py

主训练脚本
包含模型训练和评估的完整流程
使用BERT模型进行文本分类
支持GPU训练

data_loader.py

数据加载脚本
处理Ghostbuster数据集
将文本转换为BERT可用的格式

训练参数

批次大小：32
学习率：2e-5
训练轮数：4
最大序列长度：512
优化器：AdamW
损失函数：CrossEntropyLoss

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
CS310_NLP_Group_Project_Guideline.pdf		CS310_NLP_Group_Project_Guideline.pdf
README.md		README.md
data_loader.py		data_loader.py
download_model.py		download_model.py
main.py		main.py
requirements.txt		requirements.txt
submit.sh		submit.sh
test best.ipynb		test best.ipynb
test.ipynb		test.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

BERT文本检测项目

本地运行指南

1. 环境准备

2. 数据集准备

3. 运行训练

集群运行指南

1. 准备文件

2. 登录集群

3. 创建项目目录

4. 上传文件

5. 提交作业

6. 查看作业状态

7. 取消作业（如果需要）

集群资源说明

可用分区

修改分区

注意事项

代码说明

main.py

data_loader.py

训练参数

About

Uh oh!

Releases

Packages

Uh oh!

Contributors 2

Uh oh!

Languages

XTC917/CS310_Project

Folders and files

Latest commit

History

Repository files navigation

BERT文本检测项目

本地运行指南

1. 环境准备

2. 数据集准备

3. 运行训练

集群运行指南

1. 准备文件

2. 登录集群

3. 创建项目目录

4. 上传文件

5. 提交作业

6. 查看作业状态

7. 取消作业（如果需要）

集群资源说明

可用分区

修改分区

注意事项

代码说明

main.py

data_loader.py

训练参数

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors 2

Uh oh!

Languages

Packages