OCR چیست؟

OCR چیست؟

OCR مخفف عبارت(Optical Character Recognition) است و به مفهوم بازشناسی خودکار متون موجود در تصاویر و تبدیل آنها به متون قابل جستجو و ویرایش توسط رایانه. تصویر غالبا شامل تعدادی پیکسل با رنگهای مختلف و سطوح روشنایی گوناگون است. از دید انسان، یک سند تصویری ممکن است ارزش اطلاعاتی زیادی داشته باشد، لیکن از دید رایانه تصویر یک سند با تصویر یک منظره تفاوتی ندارد، چرا که هر دوی آنها مجموعه‌ای از پیکسل‌ها هستند.
نرم افزارهای OCR مثل یک نفر تایپیست، متن سند را می‌خوانند و آن را به قالب مناسب برای ذخیره در رایانه تبدیل می‌کنند. معمولاً یک اسکنر، تصویر سند را برای OCR فراهم می‌کند. نرم افزار OCR، اشیاء موجود در تصویر سند را که ارقام، حروف، علائم و کلمات هستند، بازشناسی کرده و رشته‌ی متناظر با آن‌ها را در قالب مناسب ذخیره می‌کند. یک فایل تصویری، حجم زیادی دارد و جستجوی متنی در آن ممکن نیست این در حالی است که  فایل خروجی از نرم افزار OCR بسیار کم حجم و قابل جستجو است.
یک نرم افزار OCR مثل بسیاری از نرم افزارهای هوشمند دیگر، پیچیدگی زیادی دارد. پردازش تصویر و بازشناسی الگو دو پایهٔ اصلی این نرم افزارها هستند. پیچیدگی این نرم افزارها برای زبان های گوناگون، متفاوت است. به عنوان مثال کاربرد OCR برای زبانهای لاتین به دلیل اینکه حروف آنها به طور مجزا نوشته می‌شود آسانتر است اما در زبان هایی مثل پارسی و عربی که حروف یک کلمه به یکدیگر می‌چسبند پیچیدگی بیشتری وجود دارد. این موضوع به علاوهٔ جمعیت کم کاربران زبان پارسی، سبب شده نرم افزارهای قدرتمندی برای زبان پارسی نداشته باشیم.

آخرین ویرایش: فروردین ۱۸, ۱۳۹۸  

فروردین ۱۸, ۱۳۹۸   11   پیوست    اطلاعات پایه و مفهومی    
مجموع 0 رای:
0

Tell us how can we improve this post?

+ = Verify Human or Spambot ?

سوالی دارید ؟

به محض دریاف پاسخ یا تغییرات برای شما پیام اطلاع رسانی ارسال خواهیم کرد!

+ = Verify Human or Spambot ?

سوالی دارید ؟

به محض دریاف پاسخ یا تغییرات برای شما پیام اطلاع رسانی ارسال خواهیم کرد!

+ = Verify Human or Spambot ?