پیوست

OCR چیست؟

OCR چیست؟

زمان مطالعه: < 1 دقیقه
OCR مخفف عبارت(Optical Character Recognition) است و به مفهوم بازشناسی خودکار متون موجود در تصاویر و تبدیل آنها به متون قابل جستجو و ویرایش توسط رایانه. تصویر غالبا شامل تعدادی پیکسل با رنگهای مختلف و سطوح روشنایی گوناگون است. از دید انسان، یک سند تصویری ممکن است ارزش اطلاعاتی زیادی داشته باشد، لیکن از دید رایانه تصویر یک سند با تصویر یک منظره تفاوتی ندارد، چرا که هر دوی آنها مجموعه‌ای از پیکسل‌ها هستند.
نرم افزارهای OCR مثل یک نفر تایپیست، متن سند را می‌خوانند و آن را به قالب مناسب برای ذخیره در رایانه تبدیل می‌کنند. معمولاً یک اسکنر، تصویر سند را برای OCR فراهم می‌کند. نرم افزار OCR، اشیاء موجود در تصویر سند را که ارقام، حروف، علائم و کلمات هستند، بازشناسی کرده و رشته‌ی متناظر با آن‌ها را در قالب مناسب ذخیره می‌کند. یک فایل تصویری، حجم زیادی دارد و جستجوی متنی در آن ممکن نیست این در حالی است که  فایل خروجی از نرم افزار OCR بسیار کم حجم و قابل جستجو است.
یک نرم افزار OCR مثل بسیاری از نرم افزارهای هوشمند دیگر، پیچیدگی زیادی دارد. پردازش تصویر و بازشناسی الگو دو پایهٔ اصلی این نرم افزارها هستند. پیچیدگی این نرم افزارها برای زبان های گوناگون، متفاوت است. به عنوان مثال کاربرد OCR برای زبانهای لاتین به دلیل اینکه حروف آنها به طور مجزا نوشته می‌شود آسانتر است اما در زبان هایی مثل پارسی و عربی که حروف یک کلمه به یکدیگر می‌چسبند پیچیدگی بیشتری وجود دارد. این موضوع به علاوهٔ جمعیت کم کاربران زبان پارسی، سبب شده نرم افزارهای قدرتمندی برای زبان پارسی نداشته باشیم.
[کل: ۰ میانگین: ۰]

فروردین ۱۸, ۱۳۹۸   ۱۲۳۳  
Total ۰ Votes:
۰

Tell us how can we improve this post?

+ = Verify Human or Spambot ?

سوالی دارید ؟

به محض بروز رسانی و دریافت پاسخ از طریق ایمیل به شما اطلاع رسانی خواهیم کرد

+ = Verify Human or Spambot ?