המרת מסמכי PDF סרוקים כתמונה באמצעות OCR

מסמכים דיגיטליים רבים זמינים כמסמכי PDF כשהתוכן בהם  הוטמע כקובצי תמונות. הדוגמה הנפוצה ביותר לכך היא כשסורקים חומר מודפס למחשב ואת התמונות שומרים כקובץ PDF אחד. במצב זה המסמך בלתי נגיש לטכנולוגיות הסיוע וחוויית השימוש בו פחות נעימה. במסמכים מסוג זה לא ניתן למשל לאתר תוכן באמצעות תכונת החיפוש, לא ניתן לקרוא את המסמכים באמצעות טכנולוגיות לסיוע בהקראה והגדלת המסמך באמצעות תוכנות הגדלה משבשים את הטקסט המופיע בתמונה.

מסמכים דיגיטליים המציגים את התוכן כתמונות אינם עומדים בשום תקן של נגישות או שימושיות ומומלץ להימנע מהשימוש בהם ככל שניתן. ישנן מספר דרכים להתגבר על מסמכי PDF סרוקים. האחת היא ע”י מציאת קובץ המקור הכולל את הטקסט החי של הקובץ. הדרך השנייה היא להמיר את המסמך באמצעות טכנולוגיית ה OCR. בשני המקרים מדובר לעיתים קרובות באתגר לא פשוט.

מציאת קובץ המקור של מסמך PDF סרוק

במקרים רבים קשה מאוד או בלתי אפשרי להשיג את קובץ המקור של קובץ PDF  סרוק. אבל במקרה וקובץ המקור המורכב בבסיסו מטקסט חי ניתן לבצע בקובץ התאמות נגישות סבירות בהחלט שיסייעו למרבית טכנולוגיות הסיוע להתמצא בהם.

את המסמכים הדיגיטליים בפורמט PDF הכוללים טקסט חי ניתן לפתוח בתוכנות לעריכת מסמכים כגון Adobe InDesign ו Microsoft Word החל מגרסה 2013. בשני המקרים ניתן להטמיע את מרבית תגיות הנגישות הנדרשות לצורך קריאה באמצעות טכנולוגיות סיוע. יתר על כן, ניתן ליישם חלק גדול מהנחיות Wcag 2.0 גם במסמכים דיגיטליים בשתי הפלטפורמות.

המרת מסמכים באמצעות טכנולוגיות OCR

טכנולוגיות OCR (Optical character recognition )  פותחו על מנת שניתן יהיה להתמודד עם המרת טקסט המוצג כתמונה לטקסט המוצג כתווים חיים הניתנים לעריכה. טכנולוגיות OCR תומכים בעשרות שפות כולל עברית. בנוסף, טכנולוגיות OCR זמינות גם כאפליקציות סלולר. יחד עם זאת בעוד שטכנולוגיות ה OCR פועלות באופן מיטבי עבור טקסט בשפה האנגלית – לא כך הדבר כשמדובר בשפה העברית.

שתי תוכנות OCR נפוצות בשימוש הן

  1. Adobe Acrobat DC Pro המותאמת פחות לביצוע OCR בעברית עבור טקסט סרוק בתמונות שנשמרו כקובצי PDF
  2. ABBYY Fine Reader היוצרת יותר שגיאות בהמרה של טבלאות ו/או טקסטים המופרדים באמצעות טאבים.

טכנולוגיות ה OCR בשפה העברית יוצרים לא פעם לא מעט אתגרים המקשים על תהליך הנגשת המסמכים. לעיתים, כשמדובר במסמך מורכב מאוד וארוך מאוד הליך הנגשת המסמך באמצעות OCR אינו יעילה ו/או משתלמת בשל משאבי התקציב, הזמן וכוח האדם הנדרשים.

הדבר נכון במיוחד כשאדם עם מוגבלות ובמיוחד מוגבלות בראייה נדרש לבצע המרה באמצעות OCR. אנשים עם מוגבלות בראייה אינם מסוגלים במקרים רבים לזהות את כל שגיאות ההמרה ולתקנן. הזמן והמשאבים הנדרשים לכך רבים מאוד ובמקרים רבים מעכבים את האדם בהליך ביצוע המשימה.  יתר על כן, לשגיאות מסוימות עשויות להיות השלכות שליליות או משפטיות  שיהיה מוטב להימנע מהם. כמו כן, עצם הציפייה מאדם עם מוגבלות לבצע את תהליך ההנגשה פוגע מטבע הדברים בערך השוויון.

קשיים בהמרת טקסט תמונה באמצעות OCR בשפה העברית

קשיים בשחזור העימוד המקורי של המסמך

במקרים רבים בהם  מסמכי המקור כתובים ומוצגים בעיצוב ועימוד מסוימים אינם נשמרים בהליך ה OCR. הדבר נכון במיוחד כשמדובר במסמכים הכוללים טבלאות ואובייקטים גראפיים. בנוסף, אם המסמך כולל תמונות הכוללות רכיבי טקסט או מאפיינים הנראים כמו רכיבי טקסט – תוכנות ההמרה ינסו לפענח אותם לטקסט וברוב המקרים התוצאה תהייה פירוק התמונה המקורית לטקסט שיופיע ברוב המקרים כטקסט לא ברור.

המרת טבלאות

קושי גדול נוסף של תוכנות OCR הוא בהמרת טבלאות. ברוב המקרים המרת טבלאות מסתיימת בכך שתוכנת ההמרה לא יוצרת טבלה אלא תיבות טקסט המסודרות אחת ליד השנייה כשבכל תיבת טקסט כלול הטקסט הכלול בתאים בטבלת המקור. לעיתים, תיבות הטקסט אינן מסודרות באופן המשקף את המבנה המקורי של הטבלה. לפיכך, טכנולוגיות הסיוע ובמיוחד תוכנות קוראות מסך לא יזהו את טבלת המקור. הפיכת תיבות טקסט לטבלה מורכבת מאוד ודורשת זמן ומשאבים רבים.

שיבוש אותיות

הבעיה הקשה ביותר  בטכנולוגיית ה OCR בעברית הוא בשיבוש אותיות. לעיתים השיבוש באותיות גדול כל כך שתיקון באמצעות בודק האיות ב Microsoft Word אינו אפקטיבי ובכל מקרה מצריך הצמדות לטקסט המקור.

הגורמים המשפיעים על כמות השגיאות הם סוג הגופן, גודל הגופן, מרווח בין תווים ורוחב אות (הניתנים להגדרה בתיבת הדו שיח גופן). כמו כן אותיות הכתוביות על גבי רקע צבעוני או רקע בגווני אפור – משתבשים אף יותר בהליך ההמרה.

דוגמאות לשיבוש אותיות

  • כ הופכת ל ב וההפך
  • ט הופכת ל ס וההפך
  • ס הופכת ל 0 וההפך
  • ו הופכת ל ן וההפך
  • ו הופכת ל 1 וההפך
  • ך הופכת ל ר וההפך
  • ח הופכת ל ה וההפך
  • ד הופכת ל ר וההפך
  • הסימן ‘ הופך ל י וההפך
  • הסימן ‘ במילה מפריד את המילה ברווח

המלצות

  • עד כמה שהדבר אפשרי, מומלץ לא להשתמש בטכנולוגיות של OCR כשמדובר במסמכים ארוכים, מורכבים ובמסמכים שיש להן השלכות משפטיות.
  • מומלץ ללמוד את תוכנות ה OCR המציעות דרכים להתגבר על חלק מהבעיות באמצעות אפשרויות עיצוב, הגדרת מילונים ומאפיינים נוספים שעשויים לשפר חלקית את הקשיים בהמרת טקסט.

עודכן ע”י אילנה בניש בתאריך 14.08.2016