aktualizacja 22.10.2021 – mam również moją prezentację dostępną w formie video, zainteresowanych proszę o kontakt mailowy
aktualizacja 24.10.2021 – rozwinięcie tematu, który pojawił się podczas dyskusji po prezentacji: boty na twitterze. Polecam po pierwsze ten artykuł jako studium przypadku: https://niebezpiecznik.pl/post/poznaj-siatke-trolli…, po drugie polecam proste narzędzie do analizy czy dane konto może być botem: https://botometer.osome.iu.edu/

pozyskanie danych
Scraping stron internetowych
Scraping to zapisywanie danych ze strony internetowej, można robić to “manualnie” poprzez kopiowanie ręcznie treści do np. arkusza kalkulacyjnego, jednak dopiero programy do zautomatyzowanego scrapingu dają badaczom narzędzia do pracy z danymi w dużej skali.
wprowadzenie do scrapingu stron internetowych przystępnym językiem: https://miroslawmamczur.pl/web-scraping-co-to-i-jakie-sa-dobre-praktyki/
ważne informacje natury prawnej: https://kamil.kwapisz.pl/czy-moge-scrapowac/
narzędzia do scrapingu, które polecam:
– DataMiner
– Octoparse
– Web scraper
Transkrypcje nagrań audio
Polecany przeze mnie podczas prezentacji system CLARIN MOWA dostępny jest pod tym linkiem: https://mowa.clarin-pl.eu/
tutaj dostępna jest instrukcja obsługi: https://mowa.clarin-pl.eu/docs/manual_CLARIN-PL.pdf
przygotowanie danych
Poprawa tekstu
Speller – poprawa pisowni w tekście
Punctuator – narzędzie do poprawy interpunkcji tekstu
Tokenizer – narzędzie do podziału na zdania TUTORIAL
Txt clean – narzędzia do czyszczenia dokumentów ze zbędnych znaków
Symspell – poprawianie pustych znaków w tekście TUTORIAL
Wordifier – rozszerzanie skrótów do pełnych tekstów TUTORIAL
Anonimizacja
do anominizacji służy program Anonimizer
przetwarzanie i analiza tekstu
Klasyfikacja tekstu
do klasyfikacji tekstu służy narzędzie Cat
Skracanie tekstów
Do tego celu można użyć narzędzia Summarize
tutaj można przeczytać bardzo ciekawe opracowanie naukowe tematu skracania tekstów: http://www.e-mentor.edu.pl/artykul/index/numer/89/id/1513
nowe badania dla pisania streszczeń książek, obecnie chyba najbardziej zaawansowane rozwiązanie (artykuł z września 2021): https://openai.com/blog/summarizing-books/
Analiza wydźwięku
wprowadzenie do tych programów autorstwa dr. inż. Jana Koconia:
najważniejsze informacje:
rozwinięcie tematu :
w kontekście wydźwięku warto wspomnieć również o narzędziu Sentimenti: https://sentimenti.pl/
przykład użycia analizy sentymentu: https://sentimenti.pl/blog/podwyzki-cen-energii-gaz-prad-2022/
tu bardziej przystępna forma, czyli podcast jako luźna rozmowa o analizie emocji:
Stylometria
Clarin udostępnia usługę WebSty do zastosowań stylometrycznych, jednak wciąż głównym i najbardziej rozbudowanym programem do pracy ze stylem pozostaje pakiet stylo()
bardzo dobre wprowadzenie do stylometrii zrobił jakiś czas temu dr hab. Jan Rybicki:
tutaj trochę dłuższa prezentacja:
dodatkowo warto wspomnieć o miejscu gdzie są zebrane i opisane wszystkie usługi Clarina:
opracował: Piotr Kędziora
Zainteresowanych zapraszam do kontaktu, jestem otwarty na współpracę. Prowadzę również szkolenia z zakresu narzędzi do przetwarzania tekstu.