Paper2Code:科研论文转换代码
Paper2Code是什么?
Paper2Code是能把机器学习论文变成能用的代码框架。这是韩国科学技术院和DeepAuto.ai联合开发出来的,它像人开发软件一样,分“规划-分析-编码”三个阶段来生成代码。
Paper2Code工作原理
规划阶段,先搭个大概的框架,设计系统架构,像画UML图、定文件结构这些,再规划文件和模块怎么协作,最后生成配置文件。
分析阶段,仔细看每个文件的功能、输入输出,以及和其他文件怎么连。
生成阶段,根据前面的规划和分析,生成有依赖关系的模块化代码。
Paper2Code核心功能
自动化代码生成,能把机器学习论文直接变成完整的代码仓库,包括系统架构、依赖文件和配置文件。
多格式输入,支持PDF和LaTeX格式的论文,还能把PDF论文转成JSON格式。
三阶段处理流程,每个阶段都有专门的代理来处理,保证代码结构清楚,符合论文原意。
规划阶段,画高层次路线图,确定核心组件,建模模块间结构关系,识别文件依赖和执行顺序,生成配置文件方便研究人员定制实验。
分析阶段,细致解析每个文件和函数,明确功能、交互以及算法架构约束。
代码生成阶段,根据前面的成果合成整个代码库,保证模块调用一致,减少bug,保持逻辑连贯。
代码质量评估,支持有参考和无参考的评估,评分1 - 5。
优势:
高质量代码生成,在PaperBench基准测试里,Paper2Code比现有的代码生成框架和简单基线方法都好。
多智能体协作,通过多智能体框架让各阶段更好完成,提升代码生成质量。
结构化输出,生成的代码库结构清晰,有文件、模块、架构图和配置文件。
高可执行性,生成的代码基本不用改就能运行。
限制:
目前只支持机器学习领域的论文。
有些边缘情况还得人工调试。
还不支持生物学、物理学、经济学等领域。
Paper2Code应用场景
科研复现:帮研究人员从没代码的论文里复现结果。
教育:给学生从理论到实践的学习机会。
加速研究:让研究人员能更快在别人工作基础上研究。
实验调整:方便研究人员调整配置、架构和数据集。
实验评估显示,PaperCoder从机器学习论文生成的代码质量高,接近作者实现水平,比其他基线模型好。
开源链接
Github:https://github.com/going-doer/Paper2Code