Arxiv Daily AIGC:一个arXiv论文爬虫、分析和整理自动化工具
Arxiv Daily AIGC是什么?
Arxiv Daily AIGC 是一个AI驱动的arXiv论文爬虫、分析和整理自动化工具,每天从 arXiv 的 cs.CV 领域提取最新论文,通过 OpenRouter API 筛选出与图像、视频和多模态生成相关的论文,并对其价值进行评估。筛选后的论文信息会被保存为 JSON 文件,再根据这些数据生成美观的 HTML 每日报告,并更新主页。整个流程,包括每日定时抓取、筛选、生成和部署到 GitHub Pages,都是通过 GitHub Actions 自动完成的。
Arxiv Daily AIGC功能特点
数据抓取:每天自动从arXiv的计算机视觉(cs.CV)领域抓取最新论文。
AI筛选:使用大型语言模型(LLM,目前通过OpenRouter API)智能筛选与图像/视频/多模态生成相关的论文,并从不同维度对论文的价值进行评分。
数据存储:将筛选后的论文信息(标题、摘要、链接等)以日期命名的JSON文件形式保存(存储在daily_json/目录中)。
网页生成:基于JSON数据使用预设模板生成每日HTML报告(存储在daily_html/目录中),并更新主入口页面index.html。
自动化部署:通过GitHub Actions实现每日定时抓取、筛选、生成和部署到GitHub Pages的完整流程。
Arxiv Daily AIGC技术栈
后端/脚本:Python 3.x(使用arxiv、requests、jinja2等库)。
前端:HTML5、TailwindCSS(CDN)、JavaScript、Framer Motion(CDN)。
自动化:GitHub Actions。
部署:GitHub Pages。
Arxiv Daily AIGC安装与使用
克隆仓库:使用git clone命令克隆项目到本地。
创建并激活虚拟环境:推荐使用Python虚拟环境。
安装依赖:安装requirements.txt文件中列出的所有Python库。
配置API密钥:项目需要OpenRouter API密钥进行AI筛选。
Arxiv Daily AIGC使用方法
本地运行:直接运行主脚本main.py手动触发完整流程(抓取、筛选、生成)。
GitHub Actions自动化:仓库配置了GitHub Actions工作流(.github/workflows/daily_arxiv.yml),默认每天定时运行。
相关链接
Github:https://github.com/onion-liu/arxiv_daily_aigc
项目主页:https://www.aha-time.com/arxiv_daily_aigc/