דף הבית  

 על החברה 

  תוכנות OCR  

 ארכיון דיגיטלי 

  סורקים   

   מצגות  

שרותי סריקה

   זיהוי שאלונים  

 צור קשר  


 שאלות נפוצות ותשובות

 

 

מהו OCR?

 

 

OCR הינם ראשי תיבות של Optical Charachter Recognition. זוהי טכנולוגיה לזיהוי אוטומטי של טקסט בקבצי תמונה: מסמכים מצולמים, סרוקים, פקסים וכדו'. במקרים כאלה לא ידוע מראש מהן האותיות המודפסות, והתוכנה הרלבנטית מנסה להבין מתוך הצורות שבקובץ התמונה, כיווני הקווים, וכדו', מה בעצם כתוב ובאיזו שפה.


מהו HyperOCR?

 

 

מערכות המדף בנושא OCR, בעיקר בעברית, אינן מגיעות לרמת זיהוי מספיק טובה.  אי לכך, פותחה על ידי חברת ERA  טכנולוגיית HyperOCR - המשלבת תוצאות זיהוי  ממספר מערכות OCR מובילות בעולם, כדי לקבל תוצאות איכותיות במיוחד, לא רק של טקסט עברי אלא גם בזיהוי מספרים ואותיות לטיניות.

במערכת HyperOCR מוטמעים בנוסף למערכת ה-OCR של ERA עצמה, המזהה גם ניקוד וכתב רש"י - גם מערכת הזיהוי של חברת ABBYY, הנחשבת לתוכנת מדף טובה לנושא OCR, עם אפשרות לשילוב של מערכות OCR נוספות, אם נדרש (כגון: של חברת NUANCE האמריקאית ושל חברת IRIS הבלגית).


מהו ICR?

 

 

ICR הינם ראשי תיבות של Inteligent Charachter Recognition. זוהי טכנולוגיה לזיהוי אוטומטי של סימנים בכתב-יד בקבצי תמונה. רמת הזיהוי נמוכה בדרך-כלל משמעותית מזו של זיהוי טקסט וטימנים מודפסים.


מהו OMR?
 

 

OMR הינם ראשי תיבות של Optical Mark Recognition. זוהי טכנולוגיה לזיהוי אוטומטי של סימנים כלשהם על דף-נייר, בדרך-כלל סימוני X,V,O בטפסים, כדוגמת שאלונים אמריקאיים, או סימוני ה-X בטפסי הטוטו.


מה מייחד את WisePage משאר התוכנות בשוק?
 

 

WisePage  הינה מערכת המשלבת את כל טכנולוגיות זיהוי המידע הקיימות בעולם: טקסט בשלל שפות, ספרות, סימונים בשאלונים, ברקודים, ספרות מגנטיות בשיקים, ועוד. טכנולוגיה זאת מאפשרת ל- WisePage לנתח ולהבין את כל סוגי המידע המופיעים על דף נייר, ולא רק חלק בודד.

היות והתוכנה יודעת לטפל במגוון סוגי קלט מגוון, היכול להכיל  סוגי מסמכים/טפסים שונים שיש לעבדם בצורה שונה – מכילה WisePage גם  מערכת מיוחדת לזיהוי סוג הטופס/מסמך כשלב מקדים לעיבודו, כדי לזהות את התוכן בצורה מיטבית.

WisePage משתמשת בכל טכנולוגיות הזיהוי הללו, וגם במערכת הארכוב הממוחשב שלה - המאפשרת קליטת מסמכים מסורקים, מפקסים, ממצלמות דיגיטליות ועוד - לזהות מה כתוב בהם, ולתייקם אוטומטית ללא הקלדת נתונים, לארכיב דיגיטלי.


האם כל קובץ תמונה ניתן להמרה לקובץ וורד?
 

 

 כן! תוכנת WisePage יכולה להמיר כל קובץ תמונה הכולל טקסט, כמעט בכל שפה, לקובץ טקסטואלי בר-עריכה בתוכנות עיבוד תמלילים.

כך ניתן להמיר למשל קובץ TIF ל-PDF בר-חיפוש, או קובץ GIF לקובץ WORD ואקסל.

עם זאת, איכות הזיהוי תלויה באיכות הטקסט המודפס בדף, ולפיכך כשאיכות ההדפסה ירודה, עלול לחול שיבוש בזיהוי חלק מן המילים בעמוד.


האם קובץ PDF הוא קובץ תמונה?
 

 

לא בהכרח. קובץ PDF יכול להיות מורכב ממספר רב של אלמנטים שונים, כגון: טקסט, גרפיקה, קטעי תמונה בצבע ובשחור-לבן, ואפילו שכבות שונות של מידע מסוגים שונים באותו עמוד.


מהם הפורמטים המקובלים לקבצי תמונה, והאם WisePage מסוגלת לטפל בכולם?
 

 

הפורמטים הסטנדרטיים לקבצי תמונה הם: TIF ,JPG ,GIF, ותוכנת WisePage קולטת ומעבדת את כולם, כולל קבצי PDF, שאינם בהכרח קבצי תמונה, ולרוב בעלי פורמט מורכב יותר (ראה להלן).


ברצוני לתרגם מסמכים המודפסים בגרמנית לצרפתית, האם זה אפשרי?
 

 

דף מודפס הינו, כאמור, תמונה. אי-לכך כדי לתרגמה לשפה אחרת, יש לזהות את הטקסט הכתוב בה, להמירו ל-Word, ואז ניתן לתרגמו. 

לתוכנת WisePage  יכולת לבצע OCR כדי להמיר את הטקסט המודפס לקובץ טקסטואלי, ואז לתרגמו כמעט מכל שפה לכל שפה.


יש לי ספר ישן ואני רוצה להוציא אותו לאור מחדש. האם אני חייב להקליד את כולו מחדש?
 

 

לא! זוהי בדיוק מהותו של תהליך ה-OCR. ניתן לסרוק את הספר, להריץ עליו את תוכנת WisePage וזו כבר תזהה אותו אוטומטית, ותמיר אותו לקובץ שאותו ניתן לערוך. כך ניתן לשנות גדלי גופנים במסמך, לערוך מבנה טורים וכד'.


האם ניתן לזהות עברית מנוקדת?  ומה לגבי כתב רש"י?
 

 

כן! תוכנת WisePage יודעת להמיר לטקסט גם עברית מנוקדת, תוך שימור סימני הניקוד ולא ע"י מחיקתם, וכן מסוגלת לזהות כתב רש"י, גם במבני-דף מורכבים כמו בכתבי הקודש למיניהם.


מיהם לקוחות ERA?
 

 

בין לקוחותינו ניתן למצוא את: משהב"ט/צה"ל, התעשיה האווירית, מפעל-הפיס, יורוקום-נוקיה, הטכניון, אוניברסיטת בן-גוריון, האוניברסיטה העברית, ארכיון מורשת בן-גוריון בשדה-בוקר, בנק הפועלים, קבוצת ניסקו חשמל ואלקטרוניקה, שפיר הנדסה, פדקס ישראל, הנסון ישראל, קרט ישראל, גסטטנר ישראל, הראל מחשבים, סיסקו מערכות, עורק קפיטל, דפי-זהב, ביתן ספארק, גלאור, ארכה, ציוד חשמל, ניצן פרידברג, תוסף קומפאונדס,  ישיר בית השקעות, משטרת ישראל, סקאנדוק, סופטקופי, גאמידה מדאקוויפ, תיקל איסוף מסמכים, ח.כהן, CMS, ONE1 ועוד..


ENGLISH  |  עמוד הבית |  צרו קשר  |  מצגות  |  שאלות נפוצות   |  שרותי סריקה  |  ארכיון דיגיטלי  |  OCR  |  עמוד הבית  |  סורקים |   לקוחות   

ארה (אנהנסד רקוגנישן אלגוריתמס) בע"מ הברוש 50, נווה ימין,   טל:  077-7878322 ,   פקס: 03-5175124,   דוא"ל: era@picturetranslation.co.il