Skip to content

Latest commit

 

History

History
77 lines (52 loc) · 3.92 KB

README.md

File metadata and controls

77 lines (52 loc) · 3.92 KB

主要功能(ULR->EXCEL):

  1. 多文件格式支持:可以从多种文件格式中提取URL,包括TXTDOCXCSVExcel
  2. URL可用性检查:通过发送HTTP请求检查URL的可用性,判断其是否可用、可疑或不可用,并记录相关信息(如状态码、内容类型、页面长度等)。
  3. 分类与导出:根据检查结果将URL分类为可用、可疑、不可用,并将结果保存为Excel文件。
  4. 多线程并发处理:支持多线程执行,用户可以自定义并发线程数,加速URL的检查过程。
  5. 日志输出:在GUI中实时显示处理日志,反馈每个URL的检查结果和进度。
  6. 自动去重:提取URL时会对域名进行去重处理,防止对同一域名的URL重复检查。

格式注意

1. TXT文件 (.txt)

格式说明:

  • 纯文本文件,每行可以包含一个或多个URL,URL之间可以使用各种分隔符(如逗号、空格、换行符等)。

注意点:

  • 换行符分隔:每行可以包含一个或多个URL,系统会识别并提取每行中的所有URL。
  • 分隔符问题:如果多个URL在同一行,分隔符可以是逗号、分号、空格或其他特殊字符,系统会自动拆分并识别URL。
  • 编码格式:TXT文件应为UTF-8编码。如果使用其他编码,可能会导致URL读取错误。

示例:

unknownhttps://example.com
http://test.com, https://another-example.com
https://www.example.org/page1 https://www.example.org/page2

2. Word文件 (.docx)

格式说明:

  • Microsoft Word文档格式,可以包含文本、段落、图片、表格等内容。URL通常出现在段落文本或表格中。

注意点:

  • 段落提取:系统会从文档的每个段落中提取可能的URL,段落中的每个URL会被识别和处理。
  • 表格中的URL:支持从Word表格单元格中提取URL,并处理单元格中包含的多个URL。
  • 超链接格式:系统会提取文本中的显式URL,但不会自动解析Word中的嵌入式超链接(即使用超链接文本隐藏真实URL的情况)。如果超链接显示为文本形式(如http://example.com),它将被提取;否则,嵌入在超链接下的实际URL可能无法提取。

示例:

text文档段落1: 请访问我们的网站 https://example.com 了解更多信息。
文档段落2: 其他有用的链接:http://test.com, https://another-example.com。
表格内容:
| 网站1                  | 网站2                  |
|------------------------|------------------------|
| https://example1.com    | https://example2.com    |

4. Excel文件和CSV文件 (.xlsx/.csv)

格式说明:

  • Microsoft Excel格式,包含多个工作表,每个工作表包含表格数据。URL通常出现在单元格中,可能是一列或多列的内容。

注意点:

  • 工作表格式:默认会从第一个工作表中读取数据,通常表格包含一个URL列。系统会自动查找列名为URL的列并进行URL提取。
  • 单元格中的多个URL:单元格可能包含多个URL,系统会根据分隔符(如逗号、分号、空格)自动拆分每个URL。
  • 空值处理:对于空单元格或没有URL的单元格,系统会自动跳过,不会将空值作为URL进行处理。

示例:

ID Name URL
1 Example Site 1 https://example1.com
2 Example Site 2 http://example2.com; https://test.com
3 Example Site 3 https://example3.com

额外注意点:

  • Excel文件通常会有多个工作表,但默认只读取第一个工作表。