LLM 辅助 OCR 项目是一个先进的系统,旨在显著提高光学字符识别 (OCR) 输出的质量。通过利用尖端的自然语言处理技术和大型语言模型 (LLM),将原始 OCR 文本转换为高度准确、格式良好且可读的文档成为可能。本篇文章将介绍一款在github上拥有1.7k star的开源实现工具 LLM-Aided OCR。
本项目支持以下功能:
工作原理
LLM 辅助 OCR 项目采用多步骤流程将原始 OCR 输出转换为高质量、可读的文本:
代码优化
效果展示
原始文档
OCR识别结果
LLM 校正的 Markdown 输出
项目地址:
相比传统的处理流程,需要使用大量的时间进行格式校对、格式调整;用了该工作后,直接一步到位了,轻松很多。代码全开源,跑起来吧。
原文链接:
© 版权声明