违规言论数据集

介绍

本项目致力于构建一个高质量的违规言论数据集，旨在为自动化违规言论检测模型提供支持。随着互联网的快速发展，违规言论的泛滥给各类平台带来了不少挑战。我们希望通过这个数据集，利用机器学习技术帮助开发者自动识别和屏蔽不良言论，提升互联网环境的健康性和安全性。

本数据集将面向广大开发者开放，我们诚挚地邀请每一位对该项目感兴趣的朋友参与贡献数据，帮助完善该数据集，共同推动这一项目的进步。

数据格式

为了确保数据集的规范性和易用性，我们要求所有贡献的数据遵循以下格式：

数据格式：CSV（逗号分隔值）
列结构：
1. 内容（文本类型）：该列包含用户输入的言论内容。
2. 是否违规（整数类型）：该列标明该言论是否违规，1 表示违规，0 表示不违规。

示例：

内容	是否违规
"这真是个糟糕的游戏！"	0
"你个傻逼，真是个废物！"	1
"我支持你，继续加油！"	0

请确保数据的准确性，尤其是在标注“是否违规”这一列时。正确的标注对于训练模型至关重要。

数据要求

言论内容：请确保内容真实有效，符合实际互联网用户的发言风格。内容可以来源于社交媒体、评论区、论坛等。
违规定义：本数据集中的“违规”指的是明显违反社会道德、法律法规或平台规定的言论，例如辱骂、恶意攻击、色情、种族歧视、政治敏感等内容。具体的定义可以根据平台需求进行调整。
多样性：为了提高模型的泛化能力，数据集应包含多种类型的言论，涵盖不同的语境、语言风格和违规类型。

如何贡献

准备你的数据，确保数据符合上述格式要求。
将数据文件（CSV 格式）提交到本项目的 data 文件夹中，或者通过 pull request 提交。
如果有多个数据文件，可以通过命名规则（例如 dataset_v1.csv）进行区分。
对于大量数据，可以考虑将数据分批提交，方便我们进行整合和审核。

项目目标

我们的最终目标是通过该数据集，帮助开发者构建一个高效、准确的自动违规言论检测系统。这个系统能够自动识别和屏蔽不良言论，减轻人工审核的压力，并提高平台的内容质量。通过你的贡献，我们希望能够创建一个免费的、开源的检测工具，让更多开发者和平台能够使用。

感谢

非常感谢每一位贡献者！你们的付出将为互联网社区的健康发展贡献力量。在未来的版本中，我们会不断优化数据集，并根据反馈进行改进。如果你对本项目有任何建议或意见，欢迎通过 Issues 或 PR 与我们沟通。

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
data/hate_chinese_words		data/hate_chinese_words
EN_README.md		EN_README.md
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

违规言论数据集

介绍

数据格式

示例：

数据要求

如何贡献

项目目标

感谢

About

Releases

Packages

License

delcok/IllegalContext

Folders and files

Latest commit

History

Repository files navigation

违规言论数据集

介绍

数据格式

示例：

数据要求

如何贡献

项目目标

感谢

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Packages