Tesseract 是一个 OCR 库,目前由 Google 赞助(Google 也是一家以 OCR 和机器学习技术闻名于世的公司)。Tesseract 是目前公认最优秀、最精确的开源 OCR 系统,除了极高的精确度,Tesseract 也具有很高的灵活性。它可以通过训练识别出任何字体,也可以识别出任何 Unicode 字符。
下载可执行安装文件:https://code.google.com/p/tesseract-ocr/downloads/list 安装。
添加环境变量
# /usr/local/share/Tesseract 为语言训练库路径, 可以编辑 ~/.bash_file export TESSDATA_PREFIX=/usr/local/share/Tesseract添加环境变量
# C:\Program Files\Tesseract OCR\Tesseract 为语言训练库路径 setx TESSDATA_PREFIX C:\Program Files\Tesseract OCR\Tesseract显示帮助
tesseract --help显示当前训练语言列表
tesseract --list-langs识别
tesseract 图片 输出路径 -l 训练库名称