还在为图片中的文字烦恼吗?
想必你一定遇到过这些令人抓狂的场景:
-
拍下的 PPT 照片无法直接编辑 -
纸质文档需要手动输入电脑 -
社交平台上的有趣文字图片无法复制粘贴 -
大量需要数字化的纸质文件堆积如山
在这个信息爆炸的时代,我们每天都在与文字图片打交道。你可能尝试过各种方法:付费 OCR 服务价格高得吓人,免费工具又处处受限。难道真的只能花费大量时间手动输入吗?
别担心,今天我们将为你揭示一个改变游戏规则的神器!
它不仅完全免费,还能轻松应对各种图片文字识别难题。无论是截图识别,还是批量处理,它都能帮你轻松搞定。
准备好了吗?让我们一起来认识这个强大的免费且开源的工具 —— Umi-OCR!它将彻底改变你处理图片文字的方式,让文字识别不再是噩梦!
什么是 Umi-OCR?
Umi-OCR 是一款免费,开源,可批量的离线 OCR(光学字符识别)软件。
-
完全免费
:作为一款开源软件,Umi-OCR 对所有用户完全免费,没有任何隐藏收费。 -
使用便捷
:解压即用,离线运行,无需网络,所有的识别过程都在你的本地电脑上进行,无需担心隐私泄露问题。 -
高效处理
:自带高效率的离线 OCR 引擎,内置多种语言识别库。 -
界面友好
:简洁直观的用户界面,即使是技术小白也能轻松上手。 -
功能强大
:截图 OCR / 批量图片和文档 OCR / 二维码识别和生成 / 公式识别。 -
持续更新
:作为一个活跃的开源项目,Umi-OCR 不断推出新功能和改进,确保用户始终享受到最佳体验。

安装 Umi-OCR
Umi-OCR 目前支持 Windows 和 Linux 使用,我们这里以 Windows 版本来介绍。
1. 下载地址
-
蓝奏云(国内推荐,免注册/无限速) https://hiroi-sora.lanzoul.com/s/umi-ocr -
GitHub https://github.com/hiroi-sora/Umi-OCR/releases/latest

需要提醒大家的是,Windows 版本提供 2 个版本,请根据自己的电脑配置进行选择安装:
-
Paddle 引擎插件版
性能好,速度快,占用率高,适合高配机器。不兼容奔腾、赛扬、凌动 CPU
重要提示:如果执行 OCR 时报错 0xc0000142、[Error] OCR init fail,大概率是 CPU 不兼容 Paddle,请换用 Rapid 版本。
-
Rapid 引擎插件版
速度稍慢,内存占用低,适合低配机器,兼容性好。
2. 安装使用Umi-OCR 软件发布包下载为 .7z 压缩包或 .7z.exe 自解压包。自解压包可在没有安装压缩软件的电脑上,解压文件。
Umi-OCR 软件无需安装。解压后,双击 Umi-OCR.exe 即可启动程序。

使用 Umi-OCR
1. 全局设置(仅需要时设置)
Umi-OCR 支持多语言,在第一次打开软件时,将会按照我们的电脑的系统设置,自动切换成对应语言。
如果需要手动切换语言,请前往:「全局设置」 → 「语言/Language 」,如下图:

除了语言意外,还可以设置其他全局配置,这里的设置配置好之后,全局生效,不需要在单独的功能中再次修改,比如:
-
快捷方式
-
在桌面添加快捷方式图标,方便启用 -
将 Umi-OCR 添加到电脑的开始菜单 -
添加到开机启动

-
界面和外观
-
语言(前面提到的) -
主题 -
字体 -
界面与文字大小 -
渲染器:软件界面默认支持显卡加速渲染。如果在你的机器上出现截屏闪烁、UI 错位的情况,请调整界面和外观 → 渲染器 ,尝试切换到不同渲染方案,或关闭硬件加速。 -
等等

-
窗口
-
启动时缩小到任务栏 -
窗口置顶(这样 Umi-OCR 的界面将会至于所有窗口的最上方) -
锁定标签栏,可以防止日常使用中误触关闭标签页 -
等等

-
截图
-
Umi-OCR 自带截图功能,这里设置截图的时候是否隐藏 Umi-OCR 的主窗口

-
文字识别
-
操作:如果批量操作文件比较多,或者任务比较多,想要终止任务,点击这里可以强制终止 -
当前接口
:这里的接口可以理解为「插件」,一些特殊处理的功能,作者开发完成后,我们需要导入插件,比如公式识别 -
线程数,默认是 8,可以修改更大 16 或者 32,处理更快,当然这取决于我们的电脑配置

2. 截图 OCR
支持功能
:
-
屏幕截图,快捷转文字。也支持粘贴图片。 -
左侧的图片预览栏,可直接用鼠标划选复制文字。 -
右侧的识别记录栏,可以编辑文字,允许划选多个记录复制。 -
也支持在别处复制图片,粘贴到 Umi-OCR 进行识别。

文本识别后处理
:
关于 OCR 文本后处理 – 排版解析方案:可以整理 OCR 结果的排版和顺序,使文本更适合阅读和使用。预设方案有:
-
多栏-按自然段换行
:适合大部分情景,自动识别多栏布局,按自然段规则进行换行。 -
多栏-总是换行
:每段语句都进行换行。 -
多栏-无换行
:强制将所有语句合并到同一行。 -
单栏-按自然段换行/总是换行/无换行
:与上述类似,不过不区分多栏布局。 -
单栏-保留缩进
:适用于解析代码截图,保留行首缩进和行中空格。 -
不做处理
:OCR 引擎的原始输出,默认每段语句都进行换行。
上述方案,均能自动处理横排和竖排(从右到左)的排版。(竖排文字还需要 OCR 引擎本身支持)。

3. 批量 OCR
支持功能
:
-
导入本地图片或文件夹,批量转换文字。 -
支持格式: jpg, jpe, jpeg, jfif, png, webp, bmp, tif, tiff
。 -
保存识别结果的支持格式:txt, jsonl, md, csv(Excel)。 -
与截图 OCR 一样,支持文本后处理功能,整理 OCR 文本的排版和顺序。 -
没有数量上限,可一次性导入几百张图片进行任务。 -
支持任务完成后自动关机/待机。 -
如果要识别像素超大的长图或大图,请调整:页面的设置→文字识别→限制图像边长→【调高数值】。 -
拥有特殊功能 – 忽略区域。


忽略区域
:
批量 OCR 中的一种特殊功能,适用于排除图片中的不想要的文字。
-
在批量识别页的右栏设置中可进入忽略区域编辑器。 -
如上方示例,不想要文章内容之外的信息,或者图片存在多个水印 / LOGO。如果批量识别这类图片,水印会对识别结果造成干扰,如下图(图 1:忽略区域操作)所示。 -
按住右键,绘制多个矩形框。这些区域内的文字将在任务中被忽略。 -
请尽量将矩形框画得大一些,完全包裹住水印所有可能出现的位置。 -
注意,只有处于忽略区域框内部的整个文本块(而不是单个字符)会被忽略。如下图(图 2:有效和无效忽略区域)所示,黄色边框的深色矩形是一个忽略区域。那么只有 key_mouse 才会被忽略。pubsub_connector.py、pubsub_service.py 这两个文本块得以保留。


3. 批量文档 OCR
支持功能
:
-
支持格式: pdf, xps, epub, mobi, fb2, cbz
。 -
对扫描件进行 OCR,或提取原有文本。可输出为双层可搜索PDF。 -
支持设定忽略区域,可用于排除页眉页脚的文字。 -
可设置任务完成后自动关机/休眠。


4. 二维码识别和生成
支持功能
:
-
截图/粘贴/拖入本地图片,读取其中的二维码、条形码。 -
支持一图多码。 -
支持 19 种协议,如下: Aztec,Codabar,Code128,Code39,Code93,DataBar,DataBarExpanded,DataMatrix,EAN13,EAN8,ITF,LinearCodes,MatrixCodes,MaxiCode,MicroQRCode,PDF417,QRCode,UPCA,UPCE
-
输入文本,生成二维码图片。支持 19 种协议和纠错等级等参数。



说在最后
无论你是学生、职场人士,还是普通用户,Umi-OCR 都能极大地提升你的工作效率。它能帮你轻松应对各种文字识别场景,让繁琐的文字处理工作变得轻松愉快。
现在,是时候亲自体验 Umi-OCR 的魔力了!下载安装,开始你的 OCR 之旅吧。相信很快,你就会发现:有了 Umi-OCR,再也不用为图片中的文字烦恼了!
(全文完)