PHP中如何使用OCR技术识别图片中的文字

2024-11-04 14:14 • Php, 编程语言 • 阅读 1497

tesseract-ocr是一个流行的开源OCR引擎库，它使用C++编写。 PHP作为一种流行的服务器端语言，也提供了一些ocr识别的库和工具。可以通过tesseract-ocr识别PDF、JPEG、GIF、PNG等格式的图像。 tesseract-ocr的最大特点是它是针对多语言设计的，可以识别世界上大部分语言的文本。

使用 Tesseract OCR 和 PHP

1. 安装 Tesseract

在开始之前，你需要在你的系统上安装 Tesseract OCR。安装步骤因操作系统而异。

在 Ubuntu 上安装 Tesseract：

sudo apt update
sudo apt install tesseract-ocr

在 macOS 上安装 Tesseract：

使用 Homebrew 安装：

brew 
install
tesseract

2. 安装 PHP 扩展

在 PHP 中，可以通过使用 exec 函数调用 Tesseract，或者使用 PHP 的封装库，例如 thiagoalessio/tesseract_ocr-for-php。

使用 Composer 安装：

composer require thiagoalessio/tesseract_ocr-for-php

3. 使用 Tesseract 识别图片中的文字

下面是一个简单的示例，展示了如何使用 PHP 通过 Tesseract 识别图片中的文字。

<?php
require 'vendor/autoload.php';

use thiagoalessio\TesseractOCR\TesseractOCR;

// 指定图片路径
$imagePath = 'path/to/your/image.png';

// 创建 TesseractOCR 实例
$ocr = new TesseractOCR($imagePath);

// 可选：设置语言
$ocr->lang('eng'); // 或者 'chi_sim' 用于简体中文

// 执行 OCR 识别
$text = $ocr->run();

// 输出识别结果
echo "识别的文字：\n$text";
?>

4. 代码解析

require ‘vendor/autoload.php’;：引入 Composer 的自动加载器，以便使用 TesseractOCR 类。

$imagePath：指定要识别的图片路径。

new TesseractOCR($imagePath)：创建 TesseractOCR 实例并传入图片路径。

$ocr->lang(‘eng’)：可选设置识别的语言。

$ocr->run()：执行 OCR 识别，并返回识别的文字。

echo：输出识别结果。

额外提示

1、图片质量：确保传入的图片质量良好，清晰度高，字符对比度明显，这样可以提高识别的准确性。

2、支持的语言：如果你需要识别特定语言的文字，可以下载对应语言的 Tesseract 语言包，并在代码中指定语言。

3、异常处理：在实际应用中，建议添加异常处理，以便处理识别失败或图片不存在等情况。

使用在线 API 进行 OCR

如果不想在本地安装 Tesseract，您还可以使用在线 OCR 服务，如 Google Cloud Vision、Microsoft Azure OCR 等。以下是使用 Google Cloud Vision API 的简单示例：

1. 安装 Google Cloud Vision 客户端库

composer require google/cloud-vision

2. 使用 Google Cloud Vision 进行 OCR

<?php
require 'vendor/autoload.php';

use Google\Cloud\Vision\V1\ImageAnnotatorClient;

function detect_text($path)
{
    // 创建客户端
    $imageAnnotator = new ImageAnnotatorClient();

    // 读取图像文件
    $image = file_get_contents($path);

    // 调用 API 进行文本检测
    $response = $imageAnnotator->textDetection($image);
    $texts = $response->getTextAnnotations();

    // 输出检测结果
    if ($texts) {
        echo "识别的文字：\n" . $texts[0]->getDescription() . "\n";
    } else {
        echo "没有检测到任何文字。\n";
    }

    // 关闭客户端
    $imageAnnotator->close();
}

// 指定图片路径
$imagePath = 'path/to/your/image.png';
detect_text($imagePath);
?>

总结

使用 PHP 结合 OCR 技术，可以有效地从图片中提取文本信息。可以选择在本地安装 Tesseract 或使用在线 API 来实现。

选择的方法取决于你的需求和应用场景。确保在使用 OCR 技术时处理好图片质量和适当的语言设置，以提高识别的准确性。

原创文章，作者：howkunet，如若转载，请注明出处：https://www.intoep.com/program/63942.html