图片识别不求人，一个免费工具全解决！

工具分享1年前更新 admin

230 0 0

还在为图片中的文字烦恼吗？

想必你一定遇到过这些令人抓狂的场景：

拍下的 PPT 照片无法直接编辑
纸质文档需要手动输入电脑
社交平台上的有趣文字图片无法复制粘贴
大量需要数字化的纸质文件堆积如山

在这个信息爆炸的时代，我们每天都在与文字图片打交道。你可能尝试过各种方法：付费 OCR 服务价格高得吓人，免费工具又处处受限。难道真的只能花费大量时间手动输入吗？

别担心，今天我们将为你揭示一个改变游戏规则的神器！

它不仅完全免费，还能轻松应对各种图片文字识别难题。无论是截图识别，还是批量处理，它都能帮你轻松搞定。

准备好了吗？让我们一起来认识这个强大的免费且开源的工具 —— Umi-OCR！它将彻底改变你处理图片文字的方式，让文字识别不再是噩梦！

什么是 Umi-OCR？

Umi-OCR 是一款免费，开源，可批量的离线 OCR（光学字符识别）软件。

完全免费：作为一款开源软件，Umi-OCR 对所有用户完全免费，没有任何隐藏收费。
使用便捷：解压即用，离线运行，无需网络，所有的识别过程都在你的本地电脑上进行，无需担心隐私泄露问题。
高效处理：自带高效率的离线 OCR 引擎，内置多种语言识别库。
界面友好：简洁直观的用户界面，即使是技术小白也能轻松上手。
功能强大：截图 OCR / 批量图片和文档 OCR / 二维码识别和生成 / 公式识别。
持续更新：作为一个活跃的开源项目，Umi-OCR 不断推出新功能和改进，确保用户始终享受到最佳体验。

安装 Umi-OCR

Umi-OCR 目前支持 Windows 和 Linux 使用，我们这里以 Windows 版本来介绍。

1. 下载地址

蓝奏云（国内推荐，免注册/无限速）

https://hiroi-sora.lanzoul.com/s/umi-ocr
GitHub

https://github.com/hiroi-sora/Umi-OCR/releases/latest

需要提醒大家的是，Windows 版本提供 2 个版本，请根据自己的电脑配置进行选择安装：

Paddle 引擎插件版

性能好，速度快，占用率高，适合高配机器。不兼容奔腾、赛扬、凌动 CPU

重要提示：如果执行 OCR 时报错 0xc0000142、[Error] OCR init fail，大概率是 CPU 不兼容 Paddle，请换用 Rapid 版本。

Rapid 引擎插件版

速度稍慢，内存占用低，适合低配机器，兼容性好。

2. 安装使用Umi-OCR 软件发布包下载为 .7z 压缩包或 .7z.exe 自解压包。自解压包可在没有安装压缩软件的电脑上，解压文件。

Umi-OCR 软件无需安装。解压后，双击 Umi-OCR.exe 即可启动程序。

使用 Umi-OCR

1. 全局设置（仅需要时设置）

Umi-OCR 支持多语言，在第一次打开软件时，将会按照我们的电脑的系统设置，自动切换成对应语言。

如果需要手动切换语言，请前往：「全局设置」 → 「语言/Language 」，如下图：

除了语言意外，还可以设置其他全局配置，这里的设置配置好之后，全局生效，不需要在单独的功能中再次修改，比如：

快捷方式

在桌面添加快捷方式图标，方便启用
将 Umi-OCR 添加到电脑的开始菜单
添加到开机启动

界面和外观

语言（前面提到的）
主题
字体
界面与文字大小
渲染器：软件界面默认支持显卡加速渲染。如果在你的机器上出现截屏闪烁、UI 错位的情况，请调整界面和外观 → 渲染器，尝试切换到不同渲染方案，或关闭硬件加速。
等等

窗口

启动时缩小到任务栏
窗口置顶（这样 Umi-OCR 的界面将会至于所有窗口的最上方）
锁定标签栏，可以防止日常使用中误触关闭标签页
等等

截图

Umi-OCR 自带截图功能，这里设置截图的时候是否隐藏 Umi-OCR 的主窗口

文字识别

操作：如果批量操作文件比较多，或者任务比较多，想要终止任务，点击这里可以强制终止
当前接口：这里的接口可以理解为「插件」，一些特殊处理的功能，作者开发完成后，我们需要导入插件，比如公式识别
线程数，默认是 8，可以修改更大 16 或者 32，处理更快，当然这取决于我们的电脑配置

2. 截图 OCR

支持功能：

屏幕截图，快捷转文字。也支持粘贴图片。
左侧的图片预览栏，可直接用鼠标划选复制文字。
右侧的识别记录栏，可以编辑文字，允许划选多个记录复制。
也支持在别处复制图片，粘贴到 Umi-OCR 进行识别。

文本识别后处理：

关于 OCR 文本后处理 – 排版解析方案：可以整理 OCR 结果的排版和顺序，使文本更适合阅读和使用。预设方案有：

多栏-按自然段换行：适合大部分情景，自动识别多栏布局，按自然段规则进行换行。
多栏-总是换行：每段语句都进行换行。
多栏-无换行：强制将所有语句合并到同一行。
单栏-按自然段换行/总是换行/无换行：与上述类似，不过不区分多栏布局。
单栏-保留缩进：适用于解析代码截图，保留行首缩进和行中空格。
不做处理：OCR 引擎的原始输出，默认每段语句都进行换行。

上述方案，均能自动处理横排和竖排（从右到左）的排版。（竖排文字还需要 OCR 引擎本身支持）。

3. 批量 OCR

支持功能:

导入本地图片或文件夹，批量转换文字。
支持格式：jpg, jpe, jpeg, jfif, png, webp, bmp, tif, tiff。
保存识别结果的支持格式：txt, jsonl, md, csv(Excel)。
与截图 OCR 一样，支持文本后处理功能，整理 OCR 文本的排版和顺序。
没有数量上限，可一次性导入几百张图片进行任务。
支持任务完成后自动关机/待机。
如果要识别像素超大的长图或大图，请调整：页面的设置→文字识别→限制图像边长→【调高数值】。
拥有特殊功能 – 忽略区域。

忽略区域：

批量 OCR 中的一种特殊功能，适用于排除图片中的不想要的文字。

在批量识别页的右栏设置中可进入忽略区域编辑器。
如上方示例，不想要文章内容之外的信息，或者图片存在多个水印 / LOGO。如果批量识别这类图片，水印会对识别结果造成干扰，如下图（图 1：忽略区域操作）所示。
按住右键，绘制多个矩形框。这些区域内的文字将在任务中被忽略。
请尽量将矩形框画得大一些，完全包裹住水印所有可能出现的位置。
注意，只有处于忽略区域框内部的整个文本块（而不是单个字符）会被忽略。如下图（图 2：有效和无效忽略区域）所示，黄色边框的深色矩形是一个忽略区域。那么只有 key_mouse 才会被忽略。pubsub_connector.py、pubsub_service.py 这两个文本块得以保留。

3. 批量文档 OCR

支持功能：

支持格式：pdf, xps, epub, mobi, fb2, cbz。
对扫描件进行 OCR，或提取原有文本。可输出为双层可搜索PDF。
支持设定忽略区域，可用于排除页眉页脚的文字。
可设置任务完成后自动关机/休眠。

4. 二维码识别和生成

支持功能：

截图/粘贴/拖入本地图片，读取其中的二维码、条形码。
支持一图多码。
支持 19 种协议，如下：Aztec,Codabar,Code128,Code39,Code93,DataBar,DataBarExpanded,DataMatrix,EAN13,EAN8,ITF,LinearCodes,MatrixCodes,MaxiCode,MicroQRCode,PDF417,QRCode,UPCA,UPCE
输入文本，生成二维码图片。支持 19 种协议和纠错等级等参数。