טריק PDF השבועי: לפצל ולחבר PDF-ים בלי לאבד את הכותרות

כל אחד יודע לפצל PDF. מה שכמעט אף אחד לא עושה זה לפצל אותו עם חלוקה לפי כותרות פנימיות, עם קובץ ניווט, ועם שמות שלא מתעצבנים. הטריק של השבוע.

בטריק של 25.04 על OCR בעברית דיברנו על הקלט. השבוע נדבר על הפלט: איך לפצל PDF גדול לחלקים שמישים בלי לאבד את ההקשר, איך לחבר אותם חזרה בצורה חכמה, ואיך להפוך תיקייה של קבצים ל-"מסמך בר-ניווט" שעובד בשבילכם.

הבעיה

אתם מקבלים PDF של 200 עמודים - דוח, ספר, תיקיית מקרה משפטי. אתם רוצים לחלק אותו לפי פרקים, לקרוא חלקים נבחרים, או להעלות לאחד מכלי ה-AI כמו ChatPDF או Claude שיש להם מגבלת גודל. הכלים הסטנדרטיים מציעים לפצל לפי מספר עמודים. זה בדיוק מה שלא רוצים - הפיצול נופל באמצע משפט, באמצע פרק, לפעמים באמצע טבלה. תוצאה: קבצים שצריך לחבר אותם מנטלית, וזמן עבודה שמתבזבז.

הטריק

במקום לפצל לפי מספר עמודים, פצלו לפי הכותרות הפנימיות של הקובץ. רוב כלי ה-PDF המודרניים יודעים לקרוא את "תוכן העניינים" של ה-PDF (אם יש), והם יכולים לפצל את הקובץ למסמכים נפרדים, אחד לכל פרק. השמות יהיו שמות הפרקים, ההקשר יישמר.

אם אין תוכן עניינים פנימי - יש שני פתרונות: או לבנות אותו (הרבה כלים יודעים לזהות כותרות אוטומטית לפי גודל פונט), או להשתמש בכלים שמסתמכים על מבני תיוג של PDF/A או PDF Tagged. רוב הדוחות הממשלתיים והאקדמיים בישראל מגיעים עם תוכן עניינים פנימי. דוחות פרטיים - לפעמים לא.

הכלים שעובדים בעברית

  • pdftk בשורת פקודה - חינם, חזק, דורש קצת התחלה. תומך בעברית בלי בעיה כל עוד הכותרות הפנימיות תקינות. פקודה לדוגמה: pdftk input.pdf cat 1-50 output chapter1.pdf.
  • PDFsam Basic - חינם, GUI נוח, תומך בפיצול לפי תוכן עניינים. הכי קל למשתמש לא טכני. גרסת Pro (בתשלום) מוסיפה גם פונקציות חיבור חכם.
  • Adobe Acrobat Pro - יקר אבל הכי חלק לעבודה היומיומית. הפיצול לפי תוכן עניינים בנוי-פנימה, ויש גם אפשרות "פצל לפי גודל קובץ" שעוזרת מאוד אם המטרה היא להעלות לכלי AI עם מגבלות.
  • pypdf בפייתון - לאוטומציה. אם אתם מטפלים ב-PDFים תכופות, סקריפט פייתון של 30 שורות יכול לחסוך לכם 5 שעות בשבוע.

החלק שאף אחד לא מסביר - קובץ ניווט

אחרי הפיצול, צרו קובץ INDEX.md אחד שהוא "מפת ניווט" של הפרויקט. בכל קובץ-פרק, הוסיפו בעמוד הראשון לינק חזרה לאינדקס (כמובן שלא לינק קליק עם PDF סטטי, אלא רישום ידני של "פרק 3 מתוך 12"). הצעד הקטן הזה הוא ההבדל בין "תיקייה של PDFים" לבין "מסמך בר-ניווט".

זה קריטי במיוחד אם אתם מתכוונים להעביר את הפרקים למודל שפה כמו ChatPDF, Claude, או GPT. כשאתם שואלים שאלה על "פרק 5", המודל מסתכל על הפרק - אבל הוא לא יודע מה היה בפרק 4 שהוביל אליו. אם תכניסו לכל פרק תקציר של הפרק הקודם בעמוד הראשון, איכות התשובות עולה משמעותית.

חיבור חזרה - לא לעשות זאת ב-merge פשוט

אם אחרי שעבדתם על הפרקים אתם רוצים לחבר חזרה לקובץ אחד - אל תעשו merge פשוט. צרו תוכן עניינים חדש, הוסיפו עמודי כותרת בין פרקים, ושמרו על ה-bookmarks בקובץ הסופי. PDFsam Pro ו-Acrobat Pro עושים את זה אוטומטית. אם אתם עובדים עם pdftk - תצטרכו לשלב גם pdftk update_info לעדכון המטא-דאטה.

טריק בונוס - דוקומנט בעברית עם הערות שוליים

אם הקובץ המקורי בעברית מכיל הערות שוליים, פיצול לפי פרקים פוגע בקישוריות. הפתרון: לפני הפיצול, "שטחו" את ההערות - הפכו אותן להערות בסוף כל פרק במקום בסוף כל עמוד. רוב כלי ה-PDF Pro יודעים לעשות את זה, וזה הופך את הפרקים לעצמאיים-קריאתית.

בשבוע הבא

טריק PDF #3: איך להוציא טבלאות מ-PDF שמכבדות את המבנה - בלי גוגל-שיטס שמתבלבל. נכלול דוגמה אמיתית של דוח ביטוח לאומי בעברית עם 12 טבלאות מרובות-עמודות.

טיפ PDF: איך לקבל OCR טוב לעברית מסמכים סרוקים גרועים