ispras
diff --git a/‎.gitignore
Lines changed: 1 addition & 1 deletion b/‎.gitignore
Lines changed: 1 addition & 1 deletion
diff --git a/‎Dockerfile
Lines changed: 1 addition & 0 deletions b/‎Dockerfile
Lines changed: 1 addition & 0 deletions
diff --git a/‎dedoc/api/api_args.py
Lines changed: 1 addition & 1 deletion b/‎dedoc/api/api_args.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎dedoc/api/web/index.html
Lines changed: 1 addition & 0 deletions b/‎dedoc/api/web/index.html
Lines changed: 1 addition & 0 deletions
diff --git a/‎dedoc/manager_config.py
Lines changed: 2 additions & 0 deletions b/‎dedoc/manager_config.py
Lines changed: 2 additions & 0 deletions
diff --git a/‎dedoc/readers/__init__.py
Lines changed: 2 additions & 1 deletion b/‎dedoc/readers/__init__.py
Lines changed: 2 additions & 1 deletion
diff --git a/‎dedoc/readers/pdf_reader/pdf_txtlayer_reader/pdf_broken_encoding_reader/__init__.py b/‎dedoc/readers/pdf_reader/pdf_txtlayer_reader/pdf_broken_encoding_reader/__init__.py
diff --git a/‎dedoc/readers/pdf_reader/pdf_txtlayer_reader/pdf_broken_encoding_reader/config.py
Lines changed: 123 additions & 0 deletions b/‎dedoc/readers/pdf_reader/pdf_txtlayer_reader/pdf_broken_encoding_reader/config.py
Lines changed: 123 additions & 0 deletions
@@ -148,4 +148,4 @@ crashlytics-build.properties
 fabric.properties
 
 # Mac OS extentions
-*.DS_Store
+*.DS_Store
@@ -8,6 +8,7 @@ ENV RESOURCES_PATH "/dedoc_root/resources"
 
 COPY requirements.txt .
 RUN pip3 install --no-cache-dir -r requirements.txt
+RUN apt-get update && apt-get install -y --fix-missing --no-install-recommends fontforge
 
 RUN mkdir /dedoc_root
 RUN mkdir /dedoc_root/dedoc
 
@@ -24,7 +24,7 @@ class QueryParameters:
     table_type: str = Form("", description="Pipeline mode for table recognition")
 
     # pdf handling
-    pdf_with_text_layer: str = Form("auto_tabby", enum=["true", "false", "auto", "auto_tabby", "tabby"],
+    pdf_with_text_layer: str = Form("auto_tabby", enum=["true", "false", "auto", "auto_tabby", "tabby", "bad_encoding_reader"],
                                     description="Extract text from a text layer of PDF or using OCR methods for image-like documents")
     fast_textual_layer_detection: str = Form("false", enum=["true", "false"],
                                              description="Use non-ML solution to detect textual layer. Much faster but less accurate.")
 
@@ -110,6 +110,7 @@ <h4>PDF handling</h4>
                             <option value="auto">auto</option>
                             <option value="auto_tabby" selected>auto_tabby</option>
                             <option value="tabby">tabby</option>
+                            <option value="bad_encoding_reader">bad_encoding_reader</option>
                         </select> pdf_with_text_layer
                     </label>
                 </p>
 
@@ -34,6 +34,7 @@ def _get_manager_config(config: dict) -> dict:
     from dedoc.readers.pdf_reader.pdf_image_reader.pdf_image_reader import PdfImageReader
     from dedoc.readers.pdf_reader.pdf_txtlayer_reader.pdf_tabby_reader import PdfTabbyReader
     from dedoc.readers.pdf_reader.pdf_txtlayer_reader.pdf_txtlayer_reader import PdfTxtlayerReader
+    from dedoc.readers.pdf_reader.pdf_txtlayer_reader.pdf_broken_encoding_reader.pdf_broken_encoding_reader import PdfBrokenEncodingReader
     from dedoc.readers.pptx_reader.pptx_reader import PptxReader
     from dedoc.readers.reader_composition import ReaderComposition
     from dedoc.readers.txt_reader.raw_text_reader import RawTextReader
@@ -73,6 +74,7 @@ def _get_manager_config(config: dict) -> dict:
         PdfAutoReader(config=config),
         PdfTabbyReader(config=config),
         PdfTxtlayerReader(config=config),
+        PdfBrokenEncodingReader(config=config),
         PdfImageReader(config=config),
         EmailReader(config=config),
         MhtmlReader(config=config)
 
@@ -12,6 +12,7 @@
 from .pdf_reader.pdf_auto_reader.pdf_auto_reader import PdfAutoReader
 from .pdf_reader.pdf_base_reader import PdfBaseReader
 from .pdf_reader.pdf_image_reader.pdf_image_reader import PdfImageReader
+from .pdf_reader.pdf_txtlayer_reader.pdf_broken_encoding_reader.pdf_broken_encoding_reader import PdfBrokenEncodingReader
 from .pdf_reader.pdf_txtlayer_reader.pdf_tabby_reader import PdfTabbyReader
 from .pdf_reader.pdf_txtlayer_reader.pdf_txtlayer_reader import PdfTxtlayerReader
 from .pptx_reader.pptx_reader import PptxReader
@@ -20,4 +21,4 @@
 
 __all__ = ['ArchiveReader', 'ArticleReader', 'BaseReader', 'CSVReader', 'DocxReader', 'EmailReader', 'ExcelReader', 'HtmlReader', 'JsonReader', 'MhtmlReader',
            'NoteReader', 'PptxReader', 'ReaderComposition', 'RawTextReader', 'PdfBaseReader', 'PdfImageReader', 'PdfTabbyReader', 'PdfTxtlayerReader',
-           'PdfAutoReader']
+           'PdfAutoReader', 'PdfBrokenEncodingReader']
@@ -0,0 +1,123 @@
+import enum
+from functools import cached_property
+from pathlib import Path
+from typing import Dict, List, Type
+
+char_pool = dict(
+    rus_eng=[
+        "a", "b", "c", "d", "e", "f", "g", "h", "i", "j", "k", "l", "m", "n", "o", "p", "q", "r", "s", "t", "u",
+        "v", "w", "x", "y", "z", "A", "B", "C", "D", "E", "F", "G", "H", "I", "J", "K", "L", "M", "N", "O", "P",
+        "Q", "R", "S", "T", "U", "V", "W", "X", "Y", "Z", "а", "б", "в", "г", "д", "е", "ж", "з", "и", "й", "к",
+        "л", "м", "н", "о", "п", "р", "с", "т", "у", "ф", "х", "ц", "ч", "ш", "щ", "ъ", "ы", "ь", "э", "ю", "я",
+        "А", "Б", "В", "Г", "Д", "Е", "Ж", "З", "И", "Й", "К", "Л", "М", "Н", "О", "П", "Р", "С", "Т", "У", "Ф",
+        "Х", "Ц", "Ч", "Ш", "Щ", "Ъ", "Ы", "Ь", "Э", "Ю", "Я", "0", "1", "2", "3", "4", "5", "6", "7", "8", "9",
+        "!", '"', "#", "$", "%", "&", "'", "(", ")", "*", "+", "-", ".", ",", "/", ":", ";", "<", "=", ">", "?",
+        "@", "[", "\\", "]", "^", "_", "`", "{", "|", "}", "~", "©", "™"
+    ],
+    rus_eng_no_reg_diff=[
+        "a", "b", "c", "d", "e", "f", "g", "h", "i", "j", "k", "l", "m", "n", "o", "p", "q", "r", "s",
+        "t", "u", "v", "w", "x", "y", "z", "а", "б", "в", "г", "д", "е", "ж", "з", "и", "й", "к",
+        "л", "м", "н", "о", "п", "р", "с", "т", "у", "ф", "х", "ц", "ч", "ш", "щ", "ъ", "ы", "ь", "э",
+        "ю", "я", "0", "1", "2", "3", "4", "5", "6", "7", "8", "9", "!", '"', "#", "$", "%", "&", "'",
+        "(", ")", "*", "+", "-", ".", ",", "/", ":", ";", "<", "=", ">", "?", "@", "[", "\\", "]", "^",
+        "_", "`", "{", "|", "}", "~", "©", "™"
+    ],
+    rus=[
+        "а", "б", "в", "г", "д", "е", "ж", "з", "и", "й", "к", "л", "м", "н", "о", "п", "р", "с", "т", "у", "ф",
+        "х", "ц", "ч", "ш", "щ", "ъ", "ы", "ь", "э", "ю", "я", "А", "Б", "В", "Г", "Д", "Е", "Ж", "З", "И", "Й",
+        "К", "Л", "М", "Н", "О", "П", "Р", "С", "Т", "У", "Ф", "Х", "Ц", "Ч", "Ш", "Щ", "Ъ", "Ы", "Ь", "Э", "Ю",
+        "Я", "0", "1", "2", "3", "4", "5", "6", "7", "8", "9", "!", '"', "#", "$", "%", "&", "'", "(", ")", "*",
+        "+", "-", ",", ".", "/", ":", ";", "<", "=", ">", "?", "@", "[", "\\", "]", "^", "_", "`", "{", "|",
+        "}", "~", "©", "™"
+    ],
+    rus_no_reg_diff=[
+        "а", "б", "в", "г", "д", "е", "ж", "з", "и", "й", "к", "л", "м", "н", "о", "п", "р", "с", "т", "у",
+        "ф", "х", "ц", "ч", "ш", "щ", "ъ", "ы", "ь", "э", "ю", "я", "0", "1", "2", "3", "4", "5", "6", "7",
+        "8", "9", "!", '"', "#", "$", "%", "&", "'", "(", ")", "*", "+", "-", ",", ".", "/", ":", ";", "<",
+        "=", ">", "?", "@", "[", "\\", "]", "^", "_", "`", "{", "|", "}", "~", "©", "™"
+    ],
+    eng=[
+        "a", "b", "c", "d", "e", "f", "g", "h", "i", "j", "k", "l", "m", "n", "o", "p", "q", "r", "s", "t", "u",
+        "v", "w", "x", "y", "z", "A", "B", "C", "D", "E", "F", "G", "H", "I", "J", "K", "L", "M", "N", "O", "P",
+        "Q", "R", "S", "T", "U", "V", "W", "X", "Y", "Z", "0", "1", "2", "3", "4", "5", "6", "7", "8", "9", "!",
+        '"', "#", "$", "%", "&", "'", "(", ")", "*", "+", "-", ",", ".", "/", ":", ";", "<", "=", ">", "?", "@",
+        "[", "\\", "]", "^", "_", "`", "{", "|", "}", "~", "©", "™"
+    ],
+    eng_no_reg_diff=[
+        "a", "b", "c", "d", "e", "f", "g", "h", "i", "j", "k", "l", "m", "n", "o", "p", "q", "r", "s", "t",
+        "u", "v", "w", "x", "y", "z", "0", "1", "2", "3", "4", "5", "6", "7", "8", "9", "!", '"', "#", "$",
+        "%", "&", "'", "(", ")", "*", "+", "-", ",", ".", "/", ":", ";", "<", "=", ">", "?", "@", "[",
+        "\\", "]", "^", "_", "`", "{", "|", "}", "~", "©", "™"
+    ]
+)
+
+other = dict(
+    bottom_align=[",", ".", "_"],
+    dont_aug=[
+        ",", "dot", "\\", "`", "_", "-", "=", ";", ":", "quotedbl", "colon", "backslash", ")", "(", "[", "]", "<",
+        ">", "~", "+", "'"
+    ]
+)
+
+convert = dict(
+    convert_chars_to_rus={
+        "a": "а", "b": "в", "c": "с", "d": "д", "e": "е", "h": "н", "k": "к", "m": "м", "o": "о", "p": "р", "r": "г",
+        "y": "у", "t": "т", "u": "и", "x": "х"
+    }
+)
+
+
+class FolderPaths:
+    @cached_property
+    def paths(self) -> Dict[str, Path]:
+        from dedoc.readers.pdf_reader.pdf_txtlayer_reader.pdf_broken_encoding_reader.functions import get_project_root
+        root_dir = get_project_root()
+        return dict(
+            fonts_folders=Path(root_dir, "data", "fonts_folders"),
+            images_folder=Path(root_dir, "data/datasets/test2"),
+            output_train=Path(root_dir, "data/datasets/images/output"),
+            last_prepared_data=Path(root_dir, "data/datasets/last_prepared"),
+            extracted_data_folder=Path(root_dir, "data/pdfdata"),
+            extracted_fonts_folder=Path(root_dir, "data/pdfdata/extracted_fonts"),
+            extracted_glyphs_folder=Path(root_dir, "data/pdfdata/glyph_images"),
+            default_models_folder=Path(root_dir, "data/models/default_models"),
+            custom_models_folder=Path(root_dir, "data/models/custom_models"),
+            datasets_folder=Path(root_dir, "data", "datasets"),
+            ffwraper_folder=Path(root_dir, "ffwrapper", "fontforge_wrapper.py")
+        )
+
+
+folders = FolderPaths().paths
+
+
+def get_default_models() -> List[str]:
+    models_folder = Path(folders.get("default_models_folder"))
+    return [f.stem for f in models_folder.glob("*.pt")]
+
+
+default_models = get_default_models()
+
+
+def chars_to_code(char_list: List[str]) -> List[int]:
+    return [ord(i) for i in char_list]
+
+
+class Language(enum.Enum):
+    Russian_and_English_no_reg_diff = char_pool["rus_eng_no_reg_diff"]
+    Russian_no_reg_diff = char_pool["rus_no_reg_diff"]
+    English_no_reg_diff = char_pool["eng_no_reg_diff"]
+    Russian_and_English = char_pool["rus_eng"]
+    Russian = char_pool["rus"]
+    English = char_pool["eng"]
+
+    @classmethod
+    def from_string(cls: Type["Language"], model_name: str) -> "Language":
+        mapping = {
+            "ruseng": cls.Russian_and_English,
+            "rus": cls.Russian,
+            "eng": cls.English
+        }
+        try:
+            return mapping[model_name.lower()]
+        except KeyError:
+            raise ValueError("Incorrect model_name (rus, eng, ruseng)")