gomate-community
diff --git a/‎.gitignore‎
Lines changed: 4 additions & 1 deletion b/‎.gitignore‎
Lines changed: 4 additions & 1 deletion
diff --git a/‎README_zh.md‎
Lines changed: 3 additions & 3 deletions b/‎README_zh.md‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎app.py‎
Lines changed: 6 additions & 4 deletions b/‎app.py‎
Lines changed: 6 additions & 4 deletions
diff --git a/‎config.json‎
Lines changed: 2 additions & 2 deletions b/‎config.json‎
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/datasets/arxiv_download.py‎
Lines changed: 221 additions & 0 deletions b/‎examples/datasets/arxiv_download.py‎
Lines changed: 221 additions & 0 deletions
diff --git a/‎examples/datasets/parse_papers.py‎
Lines changed: 65 additions & 0 deletions b/‎examples/datasets/parse_papers.py‎
Lines changed: 65 additions & 0 deletions
@@ -25,4 +25,7 @@ examples/rag/indexs
 examples/rag/mobile_rag.py
 **/.ipynb_checkpoints/
 .virtual_documents/
-examples/retrievers/dense_cache
+examples/retrievers/dense_cache
+examples/datasets/papers
+examples/download/models
+.gradio
@@ -34,7 +34,7 @@ DeepResearch 框架通过分层查询、递归迭代以及智能决策等步骤
 系统会根据如下条件判断是否继续执行：
    1. **Token 预算是否超出**
    2. **动作深度是否超出**
->如果满足上述条件，则终止查询并直接返回答案；否则进入递归执行步骤。
+  >如果满足上述条件，则终止查询并直接返回答案；否则进入递归执行步骤。
 
 3. 递归执行步骤
 在递归执行过程中，系统执行信息检索、模型推理及上下文处理等任务
@@ -44,7 +44,7 @@ DeepResearch 框架通过分层查询、递归迭代以及智能决策等步骤
 - **递归遍历**
 - **深度优先搜索**
 -**模型推理**
->系统进行模型推理，通过系统提示和上下文理解来判断下一步动作。
+  >系统进行模型推理，通过系统提示和上下文理解来判断下一步动作。
 4. 动作类型判定
 根据推理结果，系统决定下一步执行的动作类型：
 - **answer**：回答动作
@@ -53,7 +53,7 @@ DeepResearch 框架通过分层查询、递归迭代以及智能决策等步骤
 - **read**：阅读动作
 - **coding**：代码动作
 
->这些动作会影响上下文，并不断更新系统状态。
+  >这些动作会影响上下文，并不断更新系统状态。
 
 5. 结果反馈
 根据最终的动作类型，系统执行相应的任务，并将结果返回给用户，完成整个流程。
 
@@ -17,7 +17,6 @@
 import pandas as pd
 
 from trustrag.applications.rag_openai import RagApplication, ApplicationConfig
-from trustrag.modules.reranker.bge_reranker import BgeRerankerConfig
 from trustrag.modules.retrieval.dense_retriever import DenseRetrieverConfig
 from datetime import datetime
 import pytz
@@ -533,7 +532,7 @@ def predict(question,
                 )
             with gr.Column(scale=4):
                 with gr.Row():
-                    chatbot = gr.Chatbot(label='TrustRAG Application').style(height=650)
+                    chatbot = gr.Chatbot(label='TrustRAG Application', height=650)
                 with gr.Row():
                     message = gr.Textbox(label='Please enter a question')
                 with gr.Row():
@@ -583,13 +582,16 @@ def predict(question,
                                state
                            ],
                            outputs=[message, chatbot, state, search, rewrite] + checkbox_outputs)
+    with gr.Tab("\N{book} DeepRsearch"):
+        with gr.Row():
+            gr.Markdown(
+                """>Remind：[TrustRAG Application](https://github.com/gomate-community/TrustRAG/issues)If you have any questions, please provide feedback in [Github Issue区](https://github.com/gomate-community/TrustRAG/issues) .""")
 
-demo.queue(concurrency_count=2).launch(
+demo.queue(max_size=2).launch(
     server_name='0.0.0.0',
     server_port=7860,
     share=True,
     show_error=True,
     debug=True,
-    enable_queue=True,
     inbrowser=False,
 )
@@ -2,12 +2,12 @@
     "services": {
         "dmx": {
             "base_url": "https://www.dmxapi.com/v1",
-            "api_key": "sk-gDbFoQAYz9pwqBsH0aPA1H8DN9s0B9F3vWNjjPcijRBFjk7f",
+            "api_key": "sk-xx",
             "description": "DMX API 服务"
         },
         "rerank": {
             "base_url": "http://localhost:3600",
-            "api_key": "sk-XTcBLdakFcZjdQTt7e29Ca9bF8F1495dB447E3Af023cF4E6",
+            "api_key": "sk-xxx",
             "description": "重排序服务"
         }
     },
 
@@ -0,0 +1,221 @@
+import arxiv
+import os
+import json
+import time
+from tqdm import tqdm
+import logging
+from datetime import datetime
+
+def process_metadata(result):
+    """
+    将ArXiv结果对象转换为结构化的字典
+
+    Args:
+        result: arxiv.Result对象
+
+    Returns:
+        dict: 结构化的元数据字典
+    """
+    metadata = {
+        "entry_id": result.entry_id,
+        "updated": str(result.updated),
+        "published": str(result.published),
+        "title": result.title,
+        "authors": [author.name for author in result.authors],
+        "summary": result.summary,
+        "comment": str(result.comment),
+        "journal_ref": str(result.journal_ref),
+        "doi": str(result.doi),
+        "primary_category": result.primary_category,
+        "categories": result.categories,
+        "links": [{"title": link.title, "href": link.href, "rel": link.rel} for link in result.links],
+        "pdf_url": result.pdf_url,
+        "download_time": datetime.now().isoformat()
+    }
+
+    return metadata
+
+
+def download_arxiv_papers(topic, max_papers=200, save_dir="papers", sleep_interval=2):
+    """
+    下载指定主题的ArXiv论文并保存结构化元数据
+
+    Args:
+        topic (str): 要搜索的主题/查询
+        max_papers (int): 要下载的最大论文数量
+        save_dir (str): 保存论文的基本目录
+        sleep_interval (float): 下载间隔时间(避免API限制)
+
+    Returns:
+        int: 成功下载的论文数量
+    """
+    # 配置日志
+    topic_safe = topic.replace(' ', '_').replace('/', '_').replace('\\', '_')
+    logging.basicConfig(
+        level=logging.INFO,
+        format='%(asctime)s - %(levelname)s - %(message)s',
+        handlers=[
+            logging.FileHandler(f"{save_dir}/{topic_safe}_download.log"),
+            logging.StreamHandler()
+        ]
+    )
+
+    logger = logging.getLogger(__name__)
+    logger.info(f"开始下载主题: {topic}")
+
+    # 创建文件夹结构
+    topic_dir = os.path.join(save_dir, f"topic_{topic_safe}")
+    pdfs_dir = os.path.join(topic_dir, "pdfs")
+    metadata_dir = os.path.join(topic_dir, "metadata")
+
+    os.makedirs(pdfs_dir, exist_ok=True)
+    os.makedirs(metadata_dir, exist_ok=True)
+
+    logger.info(f"创建目录: {pdfs_dir} 和 {metadata_dir}")
+
+    # 创建一个总体元数据文件，包含所有下载的论文信息
+    all_metadata_file = os.path.join(topic_dir, f"{topic_safe}_all_metadata.json")
+    all_metadata = []
+
+    # 配置搜索
+    search = arxiv.Search(
+        query=topic,
+        max_results=max_papers,
+        sort_by=arxiv.SortCriterion.Relevance
+    )
+
+    client = arxiv.Client()
+
+    # 初始化计数器
+    successful_downloads = 0
+    failed_downloads = 0
+
+    # 下载论文
+    try:
+        results = list(client.results(search))
+        total_results = len(results)
+        logger.info(f"找到 {total_results} 篇关于主题 '{topic}' 的论文")
+
+        for i, result in enumerate(tqdm(results, desc=f"下载主题 '{topic}' 的论文")):
+            try:
+                # 获取论文ID并创建文件名
+                paper_id = result.get_short_id()
+                pdf_filename = f"{paper_id}.pdf"
+                metadata_filename = f"{paper_id}.json"
+
+                # 处理元数据
+                metadata = process_metadata(result)
+                metadata_path = os.path.join(metadata_dir, metadata_filename)
+
+                # 保存单个论文元数据
+                with open(metadata_path, 'w', encoding='utf-8') as f:
+                    json.dump(metadata, f, ensure_ascii=False, indent=2)
+
+                # 添加到总体元数据
+                all_metadata.append(metadata)
+
+                # 保存总体元数据每10篇论文更新一次
+                if (i + 1) % 10 == 0 or (i + 1) == total_results:
+                    with open(all_metadata_file, 'w', encoding='utf-8') as f:
+                        json.dump(all_metadata, f, ensure_ascii=False, indent=2)
+
+                # 下载PDF
+                pdf_path = os.path.join(pdfs_dir, pdf_filename)
+                result.download_pdf(dirpath=pdfs_dir, filename=pdf_filename)
+                successful_downloads += 1
+
+                # 休眠以避免速率限制
+                time.sleep(sleep_interval)
+
+            except Exception as e:
+                logger.error(f"下载论文 {paper_id} 时出错: {str(e)}")
+                failed_downloads += 1
+
+            # 每10篇论文记录一次进度
+            if (i + 1) % 10 == 0:
+                logger.info(f"进度: {i + 1}/{total_results} 篇论文已处理")
+            time.sleep(0.5)
+    except Exception as e:
+        logger.error(f"搜索或下载过程中出错: {str(e)}")
+
+    # 记录最终统计信息
+    logger.info(f"主题 '{topic}' 的下载已完成")
+    logger.info(f"成功下载: {successful_downloads} 篇论文")
+    logger.info(f"下载失败: {failed_downloads} 篇论文")
+
+    return successful_downloads
+
+
+def batch_download_topics(topics_list, max_papers_per_topic=200, base_dir="papers"):
+    """
+    批量下载多个主题的论文
+
+    Args:
+        topics_list (list): 主题列表
+        max_papers_per_topic (int): 每个主题要下载的最大论文数量
+        base_dir (str): 基本保存目录
+
+    Returns:
+        dict: 每个主题的下载统计信息
+    """
+    os.makedirs(base_dir, exist_ok=True)
+
+    results = {}
+    total_start_time = time.time()
+
+    for i, topic in enumerate(topics_list):
+        print(f"\n[{i + 1}/{len(topics_list)}] 开始下载主题: {topic}")
+
+        topic_start_time = time.time()
+        papers_downloaded = download_arxiv_papers(
+            topic=topic,
+            max_papers=max_papers_per_topic,
+            save_dir=base_dir,
+            sleep_interval=3  # 为批量下载增加一点休眠时间
+        )
+
+        topic_elapsed_time = time.time() - topic_start_time
+
+        results[topic] = {
+            "papers_downloaded": papers_downloaded,
+            "elapsed_time": f"{topic_elapsed_time:.2f} 秒"
+        }
+
+        print(f"主题 '{topic}' 已完成: 下载 {papers_downloaded} 篇论文，用时 {topic_elapsed_time:.2f} 秒")
+
+        # 在主题之间添加额外休眠以减轻API负担
+        if i < len(topics_list) - 1:
+            rest_time = 10
+            print(f"休息 {rest_time} 秒后继续下一个主题...")
+            time.sleep(rest_time)
+
+    total_elapsed_time = time.time() - total_start_time
+    print(f"\n批量下载已完成! 总用时: {total_elapsed_time:.2f} 秒")
+
+    # 保存批量下载的摘要
+    summary_file = os.path.join(base_dir, "batch_download_summary.json")
+    with open(summary_file, 'w', encoding='utf-8') as f:
+        summary = {
+            "total_topics": len(topics_list),
+            "total_time": f"{total_elapsed_time:.2f} 秒",
+            "completed_at": datetime.now().isoformat(),
+            "topics_results": results
+        }
+        json.dump(summary, f, ensure_ascii=False, indent=2)
+
+    return results
+
+
+# 使用示例:
+if __name__ == "__main__":
+    # 单个主题下载
+    # download_arxiv_papers("Reasoning Large Language Models", max_papers=200)
+
+    # 多个主题批量下载
+    topics = [
+        "Reasoning Large Language Models",
+        # "LLM Post-Training",
+        # "Chain of Thought",
+    ]
+
+    batch_download_topics(topics, max_papers_per_topic=200)
@@ -0,0 +1,65 @@
+import os
+from magic_pdf.data.data_reader_writer import FileBasedDataWriter, FileBasedDataReader
+from magic_pdf.data.dataset import PymuDocDataset
+from magic_pdf.model.doc_analyze_by_custom_model import doc_analyze
+from magic_pdf.config.enums import SupportedPdfParseMethod
+from tqdm import tqdm
+
+# 要处理的目录列表
+directories = [
+    "papers/topic_Chain_of_Thought/pdfs",
+    "papers/topic_LLM_Post-Training/pdfs",
+    "papers/topic_Reasoning_Large_Language_Models/pdfs",
+]
+
+def process_pdf(pdf_file_path, output_dir):
+    pdf_file_name = os.path.basename(pdf_file_path)  # 获取 PDF 文件名
+    name_without_suff = pdf_file_name.split(".")[0]  # 去掉文件扩展名
+
+    # 准备环境
+    local_image_dir = os.path.join(output_dir, "images")  # 图片输出目录
+    local_md_dir = output_dir  # Markdown 输出目录
+    image_dir = str(os.path.basename(local_image_dir))  # 图片目录名称
+
+    os.makedirs(local_image_dir, exist_ok=True)  # 创建图片输出目录
+
+    # 创建文件写入对象
+    image_writer, md_writer = FileBasedDataWriter(local_image_dir), FileBasedDataWriter(local_md_dir)
+
+    # 读取 PDF 文件字节
+    reader1 = FileBasedDataReader("")
+    pdf_bytes = reader1.read(pdf_file_path)  # 读取 PDF 文件内容
+
+    # 处理 PDF 文件
+    # 创建数据集实例
+    ds = PymuDocDataset(pdf_bytes)
+
+    # 推断 PDF 文件类型并进行相应处理
+    if ds.classify() == SupportedPdfParseMethod.OCR:
+        infer_result = ds.apply(doc_analyze, ocr=True)  # 使用 OCR 进行解析
+        pipe_result = infer_result.pipe_ocr_mode(image_writer)  # 处理 OCR 模式结果
+    else:
+        infer_result = ds.apply(doc_analyze, ocr=False)  # 使用文本模式进行解析
+        pipe_result = infer_result.pipe_txt_mode(image_writer)  # 处理文本模式结果
+
+    # 绘制结果并获取内容
+    infer_result.draw_model(os.path.join(local_md_dir, f"{name_without_suff}_model.pdf"))  # 绘制模型结果
+    model_inference_result = infer_result.get_infer_res()  # 获取模型推断结果
+    pipe_result.draw_layout(os.path.join(local_md_dir, f"{name_without_suff}_layout.pdf"))  # 绘制布局结果
+    pipe_result.draw_span(os.path.join(local_md_dir, f"{name_without_suff}_spans.pdf"))  # 绘制跨度结果
+    md_content = pipe_result.get_markdown(image_dir)  # 获取 Markdown 内容
+    pipe_result.dump_md(md_writer, f"{name_without_suff}.md", image_dir)  # 导出 Markdown 文件
+    content_list_content = pipe_result.get_content_list(image_dir)  # 获取内容列表
+    pipe_result.dump_content_list(md_writer, f"{name_without_suff}_content_list.json", image_dir)  # 导出内容列表 JSON 文件
+    middle_json_content = pipe_result.get_middle_json()  # 获取中间 JSON 内容
+    pipe_result.dump_middle_json(md_writer, f'{name_without_suff}_middle.json')  # 导出中间 JSON 文件
+
+# 处理每个目录
+for directory in directories:
+    output_dir = os.path.join(directory, "output")  # 输出目录
+    os.makedirs(output_dir, exist_ok=True)  # 创建输出目录
+
+    for file_name in tqdm(os.listdir(directory)):
+        if file_name.endswith(".pdf"):  # 检查文件是否为 PDF
+            pdf_file_path = os.path.join(directory, file_name)  # 获取 PDF 文件路径
+            process_pdf(pdf_file_path, output_dir)  # 处理 PDF 文件