- 多文件格式支持:可以从多种文件格式中提取URL,包括
TXT
、DOCX
、CSV
、Excel
。 - URL可用性检查:通过发送HTTP请求检查URL的可用性,判断其是否可用、可疑或不可用,并记录相关信息(如状态码、内容类型、页面长度等)。
- 分类与导出:根据检查结果将URL分类为可用、可疑、不可用,并将结果保存为Excel文件。
- 多线程并发处理:支持多线程执行,用户可以自定义并发线程数,加速URL的检查过程。
- 日志输出:在GUI中实时显示处理日志,反馈每个URL的检查结果和进度。
- 自动去重:提取URL时会对域名进行去重处理,防止对同一域名的URL重复检查。
- 纯文本文件,每行可以包含一个或多个URL,URL之间可以使用各种分隔符(如逗号、空格、换行符等)。
- 换行符分隔:每行可以包含一个或多个URL,系统会识别并提取每行中的所有URL。
- 分隔符问题:如果多个URL在同一行,分隔符可以是逗号、分号、空格或其他特殊字符,系统会自动拆分并识别URL。
- 编码格式:TXT文件应为UTF-8编码。如果使用其他编码,可能会导致URL读取错误。
unknownhttps://example.com
http://test.com, https://another-example.com
https://www.example.org/page1 https://www.example.org/page2
- Microsoft Word文档格式,可以包含文本、段落、图片、表格等内容。URL通常出现在段落文本或表格中。
- 段落提取:系统会从文档的每个段落中提取可能的URL,段落中的每个URL会被识别和处理。
- 表格中的URL:支持从Word表格单元格中提取URL,并处理单元格中包含的多个URL。
- 超链接格式:系统会提取文本中的显式URL,但不会自动解析Word中的嵌入式超链接(即使用超链接文本隐藏真实URL的情况)。如果超链接显示为文本形式(如
http://example.com
),它将被提取;否则,嵌入在超链接下的实际URL可能无法提取。
text文档段落1: 请访问我们的网站 https://example.com 了解更多信息。
文档段落2: 其他有用的链接:http://test.com, https://another-example.com。
表格内容:
| 网站1 | 网站2 |
|------------------------|------------------------|
| https://example1.com | https://example2.com |
- Microsoft Excel格式,包含多个工作表,每个工作表包含表格数据。URL通常出现在单元格中,可能是一列或多列的内容。
- 工作表格式:默认会从第一个工作表中读取数据,通常表格包含一个
URL
列。系统会自动查找列名为URL
的列并进行URL提取。 - 单元格中的多个URL:单元格可能包含多个URL,系统会根据分隔符(如逗号、分号、空格)自动拆分每个URL。
- 空值处理:对于空单元格或没有URL的单元格,系统会自动跳过,不会将空值作为URL进行处理。
ID | Name | URL |
---|---|---|
1 | Example Site 1 | https://example1.com |
2 | Example Site 2 | http://example2.com; https://test.com |
3 | Example Site 3 | https://example3.com |
- Excel文件通常会有多个工作表,但默认只读取第一个工作表。