OCR tesseract, jeho učení nefunguje v LIOS

Problémy a zkušenosti s programy, softwarovými nástroji nebo balíčkovacími systémy pro jejich instalaci
Zamčeno
Zpráva
Autor
soundeng
Příspěvky: 93
Registrován: 03 říj 2018, 07:55

OCR tesseract, jeho učení nefunguje v LIOS

#1 Příspěvek od soundeng »

Potřebuji rozpoznat některé texty tištěné ve starších knihách. Pro OCR používám s úspěchem tesseract a gimagereader. Teď potřebuji větší spolehlivost rozpoznávání a našel jsem LIOS, který má i nástroj pro učení tesseractu novým znakům (train-tesseract). Shlédl jsem i video na youtube, jak to má fungovat, ale mě se nenačte ani soubor pro daný jazyk. Konzole hlásí:

Kód: Vybrat vše

$ train-tesseract
/usr/lib/python3/dist-packages/lios/ui/gtk/loop.py:21: PyGIWarning: Gtk was imported without specifying a version first. Use gi.require_version('Gtk', '3.0') before import to ensure that the right version gets loaded.
  from gi.repository import Gtk
/usr/lib/python3/dist-packages/lios/ui/gtk/terminal.py:21: PyGIWarning: Vte was imported without specifying a version first. Use gi.require_version('Vte', '2.91') before import to ensure that the right version gets loaded.
  from gi.repository import Gtk, GObject, Vte

(train-tesseract:8121): Gtk-WARNING **: 09:23:20.768: Cannot connect attribute 'text' for cell renderer class 'lios+ui+gtk+tree_view+CellRendererToggle' since attribute does not exist
language_combobox_changed Started
Exception in thread Thread-1:
Traceback (most recent call last):
  File "/usr/lib/python3.8/threading.py", line 932, in _bootstrap_inner
    self.run()
  File "/usr/lib/python3.8/threading.py", line 870, in run
    self._target(*self._args, **self._kwargs)
  File "/usr/lib/python3/dist-packages/lios/train_tesseract.py", line 643, in language_combobox_changed
    self.output_terminal.run_command(cmd)
  File "/usr/lib/python3/dist-packages/lios/ui/gtk/terminal.py", line 48, in run_command
    self.feed_child(command, length)
TypeError: Vte.Terminal.feed_child() takes exactly 2 arguments (3 given)
language_combobox_changed Started
Exception in thread Thread-2:
Traceback (most recent call last):
  File "/usr/lib/python3.8/threading.py", line 932, in _bootstrap_inner
    self.run()
  File "/usr/lib/python3.8/threading.py", line 870, in run
    self._target(*self._args, **self._kwargs)
  File "/usr/lib/python3/dist-packages/lios/train_tesseract.py", line 643, in language_combobox_changed
    self.output_terminal.run_command(cmd)
  File "/usr/lib/python3/dist-packages/lios/ui/gtk/terminal.py", line 48, in run_command
    self.feed_child(command, length)
TypeError: Vte.Terminal.feed_child() takes exactly 2 arguments (3 given)
Dá se z toho rozpoznat, jestli je chyba v softwaru a kontaktovat vývojáře, nebo je to u mně a je potřeba nějak nastavit systém? Přiznávám, že v tomhle se nevyznám, nevím, jak teď postupovat. Když bude potřeba nějaké další údaje, napíšu je sem. Díky předem za pomoc.

Uživatelský avatar
Ventero1
Příspěvky: 2763
Registrován: 31 říj 2016, 14:17
Bydliště: Sokolov, Olomouc

Re: OCR tesseract, jeho učení nefunguje v LIOS

#2 Příspěvek od Ventero1 »

Kontrola cest a jejich zadání - tím bych asi začal - ale to střílím jen tak od boku ..
Zvuky jsou mantrami a myšlenky moudrostí, prostě proto, že se mohou objevovat ...

soundeng
Příspěvky: 93
Registrován: 03 říj 2018, 07:55

Re: OCR tesseract, jeho učení nefunguje v LIOS

#3 Příspěvek od soundeng »

Tesseract má data v

Kód: Vybrat vše

/usr/share/tesseract-ocr/4.00/tessdata/
je tam

Kód: Vybrat vše

ces.traineddata
eng.traineddata
osd.traineddata
train-tesseract je (asi) najde, protože je zobrazí k výběru v menu. Když dokonce jeden soubor zkopíruji a přejmenuji třeba na
pokus.traineddata
train-tesseract vidí všechny 4: ces, eng, osd i pokus. Ale nenačítá. Cesty jsou tedy v pořádku, tedy alespoň cesty k datům, které je potřeba načíst. V GUI pořád běží loading components of ces (eng ... když zvolím jiný jazyk).
Hledal jsem několik dní na různých diskusích, marně.
Nesouvisí to třeba s tím, že při spuštění jiného programu se mi objevuje:

Kód: Vybrat vše

QStandardPaths: XDG_RUNTIME_DIR not set, defaulting to '/tmp/runtime-root'
nebo to je zas jiný problém?

Zamčeno