Skip to content

Latest commit

 

History

History
75 lines (53 loc) · 3.09 KB

README.md

File metadata and controls

75 lines (53 loc) · 3.09 KB

Собирач на реченици

Алатка која би требало да ја олесни работата во собирање на реченици за проектот: Mozilla Common Voice. Алатката е далеку од совршена и подлежи на промени. Не се срами да придонесеш во нејзино подобрување и оптимизирање. :)

Потребни алатки

  • wget
  • python3
  • Опционално: virtualenv

Инсталација

$ git clone https://github.com/skopjehacklab/sentence-collector.git && cd sentence-collector
Ако користиш virtualenv:
$ virtualenv venv --python=python3
$ source venv/bin/activate

И потоа во истата датотека:

pip install -r requirements.txt

Упатство за користење

  1. Преземете веб-страница чија содржина е објавена со лиценцата CC-0, со помош на следнава команда:
wget \
     --recursive \
     --no-clobber \
     --page-requisites \
     --html-extension \
     --convert-links \
     --reject '*.js,*.css,*.ico,*.txt,*.gif,*.jpg,*.jpeg,*.png,*.mp3,*.pdf,*.tgz,*.flv,*.avi,*.mpeg,*.iso' \
     --accept html \
     --restrict-file-names=windows \
     --domains [ДОМЕЈНОТ НА СТРАНАТА ТУКА] \
     --no-parent \
         [ВЕБ САЈТОТ ТУКА]

Оставете командата да работи додека ги презема сите страници кои имаат некаква текст содржина.

  1. Во raw_scraper.py, промени ја променливата searchFolder со датотеката каде што се наоѓаат преземаните содржини.

Што ако веќе имам текст и само сакам да извадам реченици?

Изврши ја следнава команда:

$ cat Hamlet.txt | python extractor.py > output.txt

или директно во clipboard

$ cat Hamlet.txt | python extractor.py | xclip -selection clipboard

Програмата ќе ви каже колку реченици се успешно извадени и во кој фајл се зачувани. Фајлот ќе се креира во истата датотека кај што е програмата.

Што ја прави една реченица „валидна“?

  • Реченицата да содржи кирилични букви.
  • Реченицата да не содржи цифри или броеви.
  • Реченицата да не е поголема од 14 зборови или помала од 2 збора.

Лиценца

Лиценцата можеш да ја најдеш овде.