Skip to content

Tesseract OCR

Tesseract OCR | استخراج النصوص من الصور


Tesseract OCR⚓︎

استخراج النصوص العربية وغير العربية من الصور، وتحويلها نصوص مكتوبة، يمكن التعامل معها من خلال أي محرر نصوص عادي. باستخدام تطبيق Tesseract OCR بتقنية Optical Character Recognition، التطبيق مفتوح المصدر ومجاني ويقدم الدعم لـ 100 لغة، وفي المقدمة اللغة العربية واللغة الإنجليزية.

About Tesseract OCR - تعريف بالأداة⚓︎

wikipedia
Github

install - التنصيب⚓︎

  • Fedora

pre-installed on Fedora 36

sudo dnf install tesseract
  • Ubuntu
sudo apt install tesseract-ocr
  • Arch
sudo pacman -Sy
sudo pacman -S tesseract-data-eng

Arabic Support - دعم اللغة العربية⚓︎

  • Fedora
sudo dnf install tesseract-langpack-ara
  • Ubuntu
sudo apt install tesseract-ocr-ara
  • Arch
sudo pacman -S tesseract-data-ara

Usage - الاستخدام⚓︎

  • Arabic only - اللغة العربية فقط
tesseract -l ara image.png text
  • English only - اللغة الإنجليزية فقط
tesseract -l eng image.png text
  • Arabic and English - العربية والإنجليزية معًا
tesseract -l ara+eng image.png text

More Examples - مزيد من الأمثلة: here - هنا