问题变多了
AI 写作、图片复用、隐藏提示词、引用污染,让普通人很难第一眼判断风险。
面向 AI 论文时代的科研诚信工具
#2026AIAgent清客松上传论文 PDF,先免费完成风险初筛。没有疑点,流程结束;出现风险信号,再解锁证据卡、图像对比和复核报告。
paperhunt.lol不是在开玩笑。学术是严谨的事,任何质疑都必须回到可复核证据。
产品理念
AI 写作、图片复用、隐藏提示词、引用污染,让普通人很难第一眼判断风险。
正式调查需要专家、原始数据和机构流程,但很多 PDF 连要不要复核都没人先筛。
只把可疑信号整理成证据卡,明确方法、位置、置信度和下一步动作。
AI 论文循环
学生用 AI 写,导师用 AI 批,学生再用 AI 按导师的 AI 意见改,改完再交回给导师的 AI。 每个人都参与了,但最后没人说得清:哪些内容被谁判断过,哪些风险真正被人看见过。
摘要、引言、讨论先搭出来,看起来像一篇完整论文。
导师时间不够,把稿子交给 AI 做结构、逻辑和语言意见。
学生把导师的 AI 批注复制回去,让另一个 AI 继续润色。
新版本再回到导师,导师继续用 AI 查问题,循环开始加速。
回到下一轮谁都可以用 AI,但每篇论文都应该留下证据:哪里可疑、为什么可疑、下一步该人工核验什么。
现场演示
这不是静态截图。开始扫描后,系统会调用后端分析一篇带有风险信号的 PDF,并把进度、日志、风险分和证据卡同步展示出来。
读取 PDF 的文本层、图片、页码和 DOI 线索。
把论文里的图片候选拆出来,准备做相似度比对。
检查图片复用、隐藏提示词、引用异常等风险信号。
把可疑位置、方法、置信度和下一步动作整理成证据卡。
给出风险分、证据包和可下载的复核报告。
开始扫描后,这里会出现可疑图片、隐藏提示词、引用核验等证据卡。
用户群体
不是所有人都要做学术调查,但很多人都需要一个便宜、快速、能解释的风险入口。
投稿前自查,避免低级风险拖垮一篇本来可以发表的论文。
先看机器证据卡,再决定哪些稿件值得人工重点复核。
把匿名举报、毕业审核、项目结题的初筛流程标准化。
把“感觉有问题”变成“这里需要进一步核验”。
产品主张
Paper Hunter 不说“实锤”,也不替机构定性。它只做三件事:找到疑点、解释为什么可疑、告诉你下一步该找什么材料。
收费方式
每篇论文都可以先做免费初筛。只有系统发现疑点,用户才需要解锁证据包和复核报告。
上传 PDF、得到风险分、知道有没有疑点。扫不到疑点,不收钱。
解锁证据卡、图像对比、引用核验和可下载报告。适合个人投稿前自查。
批量扫描、团队复核、导出审查记录。适合期刊编辑部和科研诚信办公室。
模型与论文库
面向机构场景,Paper Hunter 不强绑单一模型。用户可以配置自己的推理模型, 后端同时聚合公开论文知识库,用来核验 DOI、预印本、引用网络和医学文献记录。
检索后会显示来自 OpenAlex、Crossref、Semantic Scholar、arXiv 和 PubMed 的论文线索。
扫描工作台
Paper Hunter 会把论文拆成风险分、证据卡、图片对比、引用核验和报告,让复核者先看到问题在哪里。
没有疑点就免费结束;出现疑点,再解锁证据包、图像对比和复核报告。
技术实现逻辑
Paper Hunter 不靠一句“AI 觉得可疑”下结论。它把论文拆开,分别检查图片、文本和引用线索, 再把每个疑点包装成能被人工追问、复查和导出的证据卡。
前端把上传 PDF 或内置样例提交到 /api/tasks。后端创建任务编号,保存源文件,并返回结构化扫描结果。
后端用 PyMuPDF 读取文本层、页码、图片对象和基础元数据,把论文从一个 PDF 文件拆成可分析的材料。
系统抽取论文内嵌图片,计算感知哈希和像素差异;相似度过高时生成并排对比图和差异热图。
文本层会被扫描隐藏提示词、AI 审稿指令和 DOI 线索。当前版本先做本地规则识别,再把可疑点交给人工复核。
每个疑点都会变成证据卡:包含类型、严重等级、置信度、位置、检测方法、推荐复核动作和关联图片。
前端把风险分、证据卡、图像对比、引用核验和 Markdown 报告展示出来,方便现场讲解和后续人工审查。
机构可以在前端配置自己的模型、Base URL 和密钥。后端只保存脱敏状态,后续用于证据解释、引用核验和报告润色。
后端并行请求 OpenAlex、Crossref、Semantic Scholar、arXiv 和 PubMed,上游异常时自动降级,继续返回可用论文线索。
左边是用户看到的产品,右边是后端真实跑的分析链路。我们先给免费风险初筛; 只有出现疑点时,才让用户付费解锁证据包。核心价值不是替人定罪,而是把“哪里可疑”说清楚。
Next.js 产品页和扫描工作台,负责上传、状态展示、证据切换、报告预览和现场演示动画。
FastAPI 分析服务,负责 PDF 解析、图片取证、文本规则扫描、风险评分和证据报告生成。
前后端均部署在 Vercel。演示环境使用临时任务存储;生产环境可切换到机构私有存储或对象存储。
模型配置和论文库连接都是独立接口,后续可以接机构网关、私有知识库、撤稿库和审稿系统。
团队介绍
我们把产品表达、工程实现和专业支持放在同一条线上:先让大家看懂,再让系统跑起来。

负责产品叙事、商业化路径和现场演示节奏,把技术能力翻译成评委能立刻理解的产品价值。

负责扫描工作台和交互链路,把复杂的论文检测过程做成现场观众能看懂、能跟上的产品体验。

负责后端服务、PDF 分析链路和线上部署,让演示不是静态页面,而是可以真实跑通的产品。

负责关键环节支持和现场稳定性保障,帮助团队把想法快速落成可展示、可验证的作品。