Skip to content

Алатка за собирање на реченици која работи на секој преземен офлајн веб сајт

License

Notifications You must be signed in to change notification settings

skopjehacklab/sentence-collector

Repository files navigation

Собирач на реченици

Алатка која би требало да ја олесни работата во собирање на реченици за проектот: Mozilla Common Voice. Алатката е далеку од совршена и подлежи на промени. Не се срами да придонесеш во нејзино подобрување и оптимизирање. :)

Потребни алатки

  • wget
  • python3
  • Опционално: virtualenv

Инсталација

$ git clone https://github.com/skopjehacklab/sentence-collector.git && cd sentence-collector
Ако користиш virtualenv:
$ virtualenv venv --python=python3
$ source venv/bin/activate

И потоа во истата датотека:

pip install -r requirements.txt

Упатство за користење

  1. Преземете веб-страница чија содржина е објавена со лиценцата CC-0, со помош на следнава команда:
wget \
     --recursive \
     --no-clobber \
     --page-requisites \
     --html-extension \
     --convert-links \
     --reject '*.js,*.css,*.ico,*.txt,*.gif,*.jpg,*.jpeg,*.png,*.mp3,*.pdf,*.tgz,*.flv,*.avi,*.mpeg,*.iso' \
     --accept html \
     --restrict-file-names=windows \
     --domains [ДОМЕЈНОТ НА СТРАНАТА ТУКА] \
     --no-parent \
         [ВЕБ САЈТОТ ТУКА]

Оставете командата да работи додека ги презема сите страници кои имаат некаква текст содржина.

  1. Во raw_scraper.py, промени ја променливата searchFolder со датотеката каде што се наоѓаат преземаните содржини.

Што ако веќе имам текст и само сакам да извадам реченици?

Изврши ја следнава команда:

$ cat Hamlet.txt | python extractor.py > output.txt

или директно во clipboard

$ cat Hamlet.txt | python extractor.py | xclip -selection clipboard

Програмата ќе ви каже колку реченици се успешно извадени и во кој фајл се зачувани. Фајлот ќе се креира во истата датотека кај што е програмата.

Што ја прави една реченица „валидна“?

  • Реченицата да содржи кирилични букви.
  • Реченицата да не содржи цифри или броеви.
  • Реченицата да не е поголема од 14 зборови или помала од 2 збора.

Лиценца

Лиценцата можеш да ја најдеш овде.

About

Алатка за собирање на реченици која работи на секој преземен офлајн веб сајт

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages