Skip to content

delcok/IllegalContext

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 
 
 
 
 

Repository files navigation

违规言论数据集

介绍

本项目致力于构建一个高质量的违规言论数据集,旨在为自动化违规言论检测模型提供支持。随着互联网的快速发展,违规言论的泛滥给各类平台带来了不少挑战。我们希望通过这个数据集,利用机器学习技术帮助开发者自动识别和屏蔽不良言论,提升互联网环境的健康性和安全性。

本数据集将面向广大开发者开放,我们诚挚地邀请每一位对该项目感兴趣的朋友参与贡献数据,帮助完善该数据集,共同推动这一项目的进步。

数据格式

为了确保数据集的规范性和易用性,我们要求所有贡献的数据遵循以下格式:

  • 数据格式:CSV(逗号分隔值)
  • 列结构
    1. 内容(文本类型):该列包含用户输入的言论内容。
    2. 是否违规(整数类型):该列标明该言论是否违规,1 表示违规,0 表示不违规。

示例:

内容 是否违规
"这真是个糟糕的游戏!" 0
"你个傻逼,真是个废物!" 1
"我支持你,继续加油!" 0

请确保数据的准确性,尤其是在标注“是否违规”这一列时。正确的标注对于训练模型至关重要。

数据要求

  1. 言论内容:请确保内容真实有效,符合实际互联网用户的发言风格。内容可以来源于社交媒体、评论区、论坛等。
  2. 违规定义:本数据集中的“违规”指的是明显违反社会道德、法律法规或平台规定的言论,例如辱骂、恶意攻击、色情、种族歧视、政治敏感等内容。具体的定义可以根据平台需求进行调整。
  3. 多样性:为了提高模型的泛化能力,数据集应包含多种类型的言论,涵盖不同的语境、语言风格和违规类型。

如何贡献

  1. 准备你的数据,确保数据符合上述格式要求。
  2. 将数据文件(CSV 格式)提交到本项目的 data 文件夹中,或者通过 pull request 提交。
  3. 如果有多个数据文件,可以通过命名规则(例如 dataset_v1.csv)进行区分。
  4. 对于大量数据,可以考虑将数据分批提交,方便我们进行整合和审核。

项目目标

我们的最终目标是通过该数据集,帮助开发者构建一个高效、准确的自动违规言论检测系统。这个系统能够自动识别和屏蔽不良言论,减轻人工审核的压力,并提高平台的内容质量。通过你的贡献,我们希望能够创建一个免费的、开源的检测工具,让更多开发者和平台能够使用。

感谢

非常感谢每一位贡献者!你们的付出将为互联网社区的健康发展贡献力量。在未来的版本中,我们会不断优化数据集,并根据反馈进行改进。如果你对本项目有任何建议或意见,欢迎通过 Issues 或 PR 与我们沟通。


About

Violation Dataset

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published