#WBL 15 Oct 2025 follow directions from
#Richard Allmendinger
#Tue, Oct 14, 2025 at 10:59 AM

from pdf2image import convert_from_path
import pytesseract

# Path to your scanned PDF
pdf_path = 'toropov_1998_GPcsga.pdf'

# Convert PDF pages to images in memory
pages = convert_from_path(pdf_path, 300)  # 300 DPI recommended

# Extract text from each page
all_text = ""
for page_number, page in enumerate(pages, start=1):
    text = pytesseract.image_to_string(page, lang='eng')  # Specify language if needed
    all_text += f"\n\n--- Page {page_number} ---\n{text}"

# Save the extracted text to a file
with open('extracted_text.txt', 'w', encoding='utf-8') as f:
    f.write(all_text)

print("Text extraction complete! Saved to extracted_text.txt")