OCR فارسی در سامانه مدیریت اسناد داکتیو

OCR فارسی در سامانه مدیریت اسناد داکتیو، تبدیل اسناد در کمترین زمان

همان‌طور که در مقاله‌ی نحوه کار سامانه‌های مدیریت اسناد اشاره کردیم، اولین قدمی که این سیستم‌ها برمی‌دارند، اسکن و خواندن اسناد کاغذی و پرینت‌شده است. نسخه‌ی تصویری این اسناد برای اینکه بتوانند در چرخه‌ی کار قرار بگیرند و قابل‌جستجو و ویرایش باشند، کافی نبوده و باید به نسخه‌های دیجیتال تبدیل شوند.

یک راه این است که اسناد کاغذی یا نسخه‌های تصویری آن‌ها را در اختیار یک یا چند تایپیست قرار دهید تا با صرف انرژی، زمان و هزینه‌ی زیاد برای شما تبدیل به نسخه‌های دیجیتالی و قابل‌ویرایش مثل Ms-Word کنند؛ اما راه بسیار بهتر، سریع‌تر و به‌صرفه‌تری هم هست؛ استفاده از فناوری OCR.

OCR چیست؟

پیش از همه بیایید ببینیم OCR مخفف چیست؟ Optical Character Recognition که معادل فارسی آن طبق معمول اصل کلام را نمی‌رساند؛ اما به هر حال برخی آن را نویسه‌خوان نوری ترجمه کرده‌اند. این فناوری، حروف متن‌های تصویری یا پرینت‌شده را شناسایی کرده و در قالب داده‌های دیجیتال ارائه می‌دهد.

عملکرد کلی فناوری OCR به این صورت است که ابتدا متن یک سند تصویری را بررسی کرده و بعد از شناسایی کاراکترها، آن‌ها را به کدهایی جهت پردازش تبدیل می‌کند. در سامانه‌ی OCR می‌توان از هوش مصنوعی (AI) برای تشخیص زبان یا انواع قلم‌ها با دقت بسیار بالا بهره برد.

یکی از مهم‌ترین کاربردهای OCR در سیستم‌های DMS است

همان‌طور که در ابتدای این مقاله اشاره کردیم، یک OCR هوشمند و دقیق می‌تواند سامانه مدیریت اسناد را بسیار چابک ساخته و بازدهی آن را تا حد زیادی بالا ببرد. زمانی که تصمیم می‌گیرید برای سازمان یا کسب‌وکار خود سیستم DMS راه‌اندازی کنید، با انبوهی از اسناد کاغذی مواجه هستید که چه برای بایگانی و چه قرارگرفتن در فرآیند‌های کاری باید به اسناد دیجیتال و قابل‌ویرایش و جستجو تبدیل شوند. علاوه بر این، چنین اسنادی هر روزه به سازمان شما اضافه می‌شوند و نیاز است که در سامانه مدیریت اسناد درج شوند. حالا مطمئناً به اهمیت وجود OCR پی برده‌اید.

داکتیو؛ یک سامانه مدیریت اسناد که به OCR فارسی مجهز است

یکی از ویژگی‌های متمایز سیستم DMS داکتیو، استفاده از فناوری OCR فارسی است که توسط تیم داکتیو متشکل از دانشجویان نخبه دانشگاه شریف طراحی و تولید شده است. این امتیاز یکی از دلایلی است که باعث شده داکتیو به‌عنوان محصولی دانش‌بنیان ثبت شود.

ویژگی‌های کلی فناوری OCR فارسی که در داکتیو استفاده شده، عبارت‌اند از:

  • تبدیل تصویر نوشتاری به متن با زبان فارسی یا زبان لاتین
  • دقت تشخیص 95درصد روی صفحات چاپی معمولی
  • تشخیص بیش از صد فونت فارسی
  • تشخیص اعداد و علائم نگارشی
  • اصلاح چرخش صفحه
  • اصلاح برخی از نویزهای صفحه
  • دریافت فایل ورودی تصویر در قالب‌های JPG, PNG, TIFF, PDF, BMP
  • تبدیل به فایل خروجی متنی در قالب‌های TXT
  • امکان افزودن کلمات جدید به بانک لغات
  • امکان تشخیص محتویات جدول

امتیازهای فناوری OCR فارسی استفاده‌شده در داکتیو

علاوه بر ویژگی‌های کلی و عملکردی که در قسمت قبل به آن‌ها پرداختیم، فناوری OCR به‌کاررفته در داکتیو دارای ویژگی‌های قابل‌توجهی است که آن را از سایرین متمایز ساخته و در کنار سایر امکاناتی که در سامانه مدیریت اسناد داکتیو فراهم شده، مجموعه‌ای کامل را در اختیار کاربران قرار می‌دهد. بیایید نگاهی داشته باشیم به این ویژگی‌های متمایز:

هوش مصنوعی یادگیرنده

از خصوصیات بارز این فناوری OCR آن است که توسط ماشین لرنینگ توسعه یافته؛ یعنی وقتی در معرض حجم زیادی از نمونه‌های تصویری قرار می‌گیرد، نحوه تشخیص آن‌ها را یاد گرفته و هرچه این نوشته‌ها سخت‌تر باشند، دقت OCR بالاتر می‌رود.

پشتیبانی از صد فونت فارسی

این OCR در حال حاضر بیش از 100 فونت فارسی را می‌تواند تشخیص دهد و با کمک هوش یادگیرنده‌ی خود محدودیتی در تشخیص سایر قلم‌های فارسی عادی نیز نخواهد داشت.

دقت و کیفیت بالا

در صورت بارگذاری فایل‌های ورودی استاندارد، این فناوری می‌تواند با دقت 95درصد متن اسناد را شناسایی کرده و به داده‌های قابل‌پردازش تبدیل کند.

قابلیت OCR منطقه‌ای

قابلیت OCR منطقه‌ای، یکی از امکاناتی است که به این سیستم آموزش داده شده تا فقط اطلاعات بخشی از سند را بخواند که موردنیاز است و در نهایت به بخش دیگر سیستم یعنی فراداده منتقل کند.

تشخیص هویت اسناد

پردازش تصاویر، تشخیص هویت آن‌ها و قراردادن در دسته‌بندی مربوطه از دیگر ویژگی‌های این OCR است؛ برای مثال این قابلیت را دارد که بفهمد سند بارگذاری‌شده شناسنامه است.
موضوع دسته‌بندی اسناد در جریان مدیریت محتوا از اهمیت بالایی برخوردار است؛ به‌خصوص در سازمان‌های بزرگی که تعداد و انواع اسناد زیاد است. این طبقه‌بندی خودکار و دور از خطاهای انسانی، سبب می‌شود جستجوی اسناد آسان‌تر شده و احتمال گم‌شدن آن‌ها به‌شدت پایین بیاید.

فعال در زمینه‌ی بازاریابی محتوای دیجیتال به همراه تجربه و تخصص در مدیریت و سردبیری محتوا

دیدگاه خود را بنویسید:

آدرس ایمیل شما نمایش داده نخواهد شد.