pdf broken encoding reader #522

sinkudo · 2025-04-03T14:55:39Z

Reader to extract code from PDF with complex background using information from PDF

added my code from project needed to extract text:

reader
config
h5 models
text post processing
fontforge wrapper
example pdf

added script to scripts dir to extract text using reader

edited index.html, api_args, manager_config, gitignore and requirements

…takes too much time), changed imports

requirements.txt

scripts/get_text_broken_pdf.py

dedoc/api/api_args.py

.gitignore

...ders/pdf_reader/pdf_txtlayer_reader/pdf_broken_encoding_reader/pdf_broken_encoding_reader.py

dedoc/api/web/index.html

...ders/pdf_reader/pdf_txtlayer_reader/pdf_broken_encoding_reader/pdf_broken_encoding_reader.py

NastyBoget · 2025-04-07T11:39:26Z

Please look to the logs of test pipelines - they all should pass before merge

.../pdf_reader/pdf_txtlayer_reader/pdf_broken_encoding_reader/data/models/default_models/eng.h5

scripts/get_text_broken_pdf.py

...ders/pdf_reader/pdf_txtlayer_reader/pdf_broken_encoding_reader/pdf_broken_encoding_reader.py

oksidgy · 2025-04-08T11:51:38Z

...ders/pdf_reader/pdf_txtlayer_reader/pdf_broken_encoding_reader/pdf_broken_encoding_reader.py

+                                                                                      call_classifier=False))
+        return lines, tables, page.attachments, []
+
+    def __handle_page(self, page: PDFPage, page_number: int, path: str,


it is dublicated code of dedoc/readers/pdf_reader/pdf_txtlayer_reader/pdfminer_reader/pdfminer_extractor.py with different that you use own layout (pass own layout ). Try to use code of dedoc/readers/pdf_reader/pdf_txtlayer_reader/pdfminer_reader/pdfminer_extractor.py with small changes of code of pdfminer_extractor.py.

For example in file dedoc/readers/pdf_reader/pdf_txtlayer_reader/pdfminer_reader/pdfminer_extractor.py:

do pubic function def __handle_page(...) -> def handle_page(...)

added small changes into code:

def handle_page(self, page: PDFPage, page_number: int, path: str, parameters: ParametersForParseDoc, Layout: Optional[LTPage] = None) -> PageWithBBox: ... if not layout: layout = device.get_result() ...

So, by adding these small changes you will get rid of 300 lines of duplicate code!

Почему добавили еще одну функцию handle_page, если эта функция уже есть? Ее достаточно просто изменить как показано в примере выше. А то снова код дублируется, получается две почти одинаковые функции handle_page в одном классе

...s/pdf_reader/pdf_txtlayer_reader/pdf_broken_encoding_reader/pdf_worker/pdf_text_correcter.py

dedoc/readers/pdf_reader/pdf_txtlayer_reader/pdf_broken_encoding_reader/functions.py

...ers/pdf_reader/pdf_txtlayer_reader/pdf_broken_encoding_reader/ffwrapper/fontforge_wrapper.py

dedoc/readers/pdf_reader/pdf_txtlayer_reader/pdf_broken_encoding_reader/config.py

…pdfminer_extractor, added function handle_page(...) to pdfminer_extractor to use in my reader

…ction to tempfile

…ras#515)

…uoutes

sinkudo · 2025-05-21T04:20:22Z

problems with imports (numpy) during running tests installs numpy 2.0.2 but required numpy<2.0. Runned even on dedoc without my commits on devolopment branch, but problem remains. Please check

pyproject.toml

Co-authored-by: Zykina (Bogatenkova) Anastasiya <[email protected]>

sinkudo added 7 commits March 26, 2025 00:51

встроил, надо разобраться с импортами и т.п.

29454d6

changed script to extract text, but problem with get_text() remains (…

d3ef3cf

…takes too much time), changed imports

adding reader to manager, cleaning comments

62ec1d1

added reader to api

d0179da

is pdf valid check, (cid:xxx) instead of chars fix

a3b51e7

reduntant funcs

89a320e

imports

db17824

NastyBoget self-requested a review April 7, 2025 11:10

NastyBoget assigned sinkudo Apr 7, 2025

NastyBoget added the enhancement New feature or request label Apr 7, 2025

NastyBoget reviewed Apr 7, 2025

View reviewed changes

requirements.txt Outdated Show resolved Hide resolved

NastyBoget reviewed Apr 7, 2025

View reviewed changes

scripts/get_text_broken_pdf.py Outdated Show resolved Hide resolved

NastyBoget reviewed Apr 7, 2025

View reviewed changes

dedoc/api/api_args.py Outdated Show resolved Hide resolved

NastyBoget reviewed Apr 7, 2025

View reviewed changes

.gitignore Outdated Show resolved Hide resolved

NastyBoget reviewed Apr 7, 2025

View reviewed changes

...ders/pdf_reader/pdf_txtlayer_reader/pdf_broken_encoding_reader/pdf_broken_encoding_reader.py Outdated Show resolved Hide resolved

NastyBoget reviewed Apr 7, 2025

View reviewed changes

...ders/pdf_reader/pdf_txtlayer_reader/pdf_broken_encoding_reader/pdf_broken_encoding_reader.py Outdated Show resolved Hide resolved

NastyBoget reviewed Apr 7, 2025

View reviewed changes

...ders/pdf_reader/pdf_txtlayer_reader/pdf_broken_encoding_reader/pdf_broken_encoding_reader.py Show resolved Hide resolved

NastyBoget reviewed Apr 7, 2025

View reviewed changes

dedoc/api/web/index.html Show resolved Hide resolved

NastyBoget reviewed Apr 7, 2025

View reviewed changes

...ders/pdf_reader/pdf_txtlayer_reader/pdf_broken_encoding_reader/pdf_broken_encoding_reader.py Show resolved Hide resolved