בטריק של 25.04 על OCR בעברית דיברנו על הקלט. השבוע נדבר על הפלט: איך לפצל PDF גדול לחלקים שמישים בלי לאבד את ההקשר, איך לחבר אותם חזרה בצורה חכמה, ואיך להפוך תיקייה של קבצים ל-"מסמך בר-ניווט" שעובד בשבילכם.
הבעיה
אתם מקבלים PDF של 200 עמודים - דוח, ספר, תיקיית מקרה משפטי. אתם רוצים לחלק אותו לפי פרקים, לקרוא חלקים נבחרים, או להעלות לאחד מכלי ה-AI כמו ChatPDF או Claude שיש להם מגבלת גודל. הכלים הסטנדרטיים מציעים לפצל לפי מספר עמודים. זה בדיוק מה שלא רוצים - הפיצול נופל באמצע משפט, באמצע פרק, לפעמים באמצע טבלה. תוצאה: קבצים שצריך לחבר אותם מנטלית, וזמן עבודה שמתבזבז.
הטריק
במקום לפצל לפי מספר עמודים, פצלו לפי הכותרות הפנימיות של הקובץ. רוב כלי ה-PDF המודרניים יודעים לקרוא את "תוכן העניינים" של ה-PDF (אם יש), והם יכולים לפצל את הקובץ למסמכים נפרדים, אחד לכל פרק. השמות יהיו שמות הפרקים, ההקשר יישמר.
אם אין תוכן עניינים פנימי - יש שני פתרונות: או לבנות אותו (הרבה כלים יודעים לזהות כותרות אוטומטית לפי גודל פונט), או להשתמש בכלים שמסתמכים על מבני תיוג של PDF/A או PDF Tagged. רוב הדוחות הממשלתיים והאקדמיים בישראל מגיעים עם תוכן עניינים פנימי. דוחות פרטיים - לפעמים לא.
הכלים שעובדים בעברית
- pdftk בשורת פקודה - חינם, חזק, דורש קצת התחלה. תומך בעברית בלי בעיה כל עוד הכותרות הפנימיות תקינות. פקודה לדוגמה:
pdftk input.pdf cat 1-50 output chapter1.pdf. - PDFsam Basic - חינם, GUI נוח, תומך בפיצול לפי תוכן עניינים. הכי קל למשתמש לא טכני. גרסת Pro (בתשלום) מוסיפה גם פונקציות חיבור חכם.
- Adobe Acrobat Pro - יקר אבל הכי חלק לעבודה היומיומית. הפיצול לפי תוכן עניינים בנוי-פנימה, ויש גם אפשרות "פצל לפי גודל קובץ" שעוזרת מאוד אם המטרה היא להעלות לכלי AI עם מגבלות.
- pypdf בפייתון - לאוטומציה. אם אתם מטפלים ב-PDFים תכופות, סקריפט פייתון של 30 שורות יכול לחסוך לכם 5 שעות בשבוע.
החלק שאף אחד לא מסביר - קובץ ניווט
אחרי הפיצול, צרו קובץ INDEX.md אחד שהוא "מפת ניווט" של הפרויקט. בכל קובץ-פרק, הוסיפו בעמוד הראשון לינק חזרה לאינדקס (כמובן שלא לינק קליק עם PDF סטטי, אלא רישום ידני של "פרק 3 מתוך 12"). הצעד הקטן הזה הוא ההבדל בין "תיקייה של PDFים" לבין "מסמך בר-ניווט".
זה קריטי במיוחד אם אתם מתכוונים להעביר את הפרקים למודל שפה כמו ChatPDF, Claude, או GPT. כשאתם שואלים שאלה על "פרק 5", המודל מסתכל על הפרק - אבל הוא לא יודע מה היה בפרק 4 שהוביל אליו. אם תכניסו לכל פרק תקציר של הפרק הקודם בעמוד הראשון, איכות התשובות עולה משמעותית.
חיבור חזרה - לא לעשות זאת ב-merge פשוט
אם אחרי שעבדתם על הפרקים אתם רוצים לחבר חזרה לקובץ אחד - אל תעשו merge פשוט. צרו תוכן עניינים חדש, הוסיפו עמודי כותרת בין פרקים, ושמרו על ה-bookmarks בקובץ הסופי. PDFsam Pro ו-Acrobat Pro עושים את זה אוטומטית. אם אתם עובדים עם pdftk - תצטרכו לשלב גם pdftk update_info לעדכון המטא-דאטה.
טריק בונוס - דוקומנט בעברית עם הערות שוליים
אם הקובץ המקורי בעברית מכיל הערות שוליים, פיצול לפי פרקים פוגע בקישוריות. הפתרון: לפני הפיצול, "שטחו" את ההערות - הפכו אותן להערות בסוף כל פרק במקום בסוף כל עמוד. רוב כלי ה-PDF Pro יודעים לעשות את זה, וזה הופך את הפרקים לעצמאיים-קריאתית.
בשבוע הבא
טריק PDF #3: איך להוציא טבלאות מ-PDF שמכבדות את המבנה - בלי גוגל-שיטס שמתבלבל. נכלול דוגמה אמיתית של דוח ביטוח לאומי בעברית עם 12 טבלאות מרובות-עמודות.