Etnologia w sieci

aktualizacja 22.10.2021 – mam również moją prezentację dostępną w formie video, zainteresowanych proszę o kontakt mailowy

aktualizacja 24.10.2021 – rozwinięcie tematu, który pojawił się podczas dyskusji po prezentacji: boty na twitterze. Polecam po pierwsze ten artykuł jako studium przypadku: https://niebezpiecznik.pl/post/poznaj-siatke-trolli…, po drugie polecam proste narzędzie do analizy czy dane konto może być botem: https://botometer.osome.iu.edu/

pozyskanie danych

Scraping stron internetowych

Scraping to zapisywanie danych ze strony internetowej, można robić to “manualnie” poprzez kopiowanie ręcznie treści do np. arkusza kalkulacyjnego, jednak dopiero programy do zautomatyzowanego scrapingu dają badaczom narzędzia do pracy z danymi w dużej skali.

wprowadzenie do scrapingu stron internetowych przystępnym językiem: https://miroslawmamczur.pl/web-scraping-co-to-i-jakie-sa-dobre-praktyki/

ważne informacje natury prawnej: https://kamil.kwapisz.pl/czy-moge-scrapowac/

narzędzia do scrapingu, które polecam:
DataMiner
Octoparse
Web scraper

Transkrypcje nagrań audio

Polecany przeze mnie podczas prezentacji system CLARIN MOWA dostępny jest pod tym linkiem: https://mowa.clarin-pl.eu/

tutaj dostępna jest instrukcja obsługi: https://mowa.clarin-pl.eu/docs/manual_CLARIN-PL.pdf

przygotowanie danych

Poprawa tekstu

Speller – poprawa pisowni w tekście
Punctuator – narzędzie do poprawy interpunkcji tekstu
Tokenizer – narzędzie do podziału na zdania TUTORIAL
Txt clean – narzędzia do czyszczenia dokumentów ze zbędnych znaków
Symspell – poprawianie pustych znaków w tekście TUTORIAL
Wordifier – rozszerzanie skrótów do pełnych tekstów TUTORIAL

Anonimizacja

do anominizacji służy program Anonimizer

przetwarzanie i analiza tekstu

Klasyfikacja tekstu

do klasyfikacji tekstu służy narzędzie Cat

Skracanie tekstów

Do tego celu można użyć narzędzia Summarize

tutaj można przeczytać bardzo ciekawe opracowanie naukowe tematu skracania tekstów: http://www.e-mentor.edu.pl/artykul/index/numer/89/id/1513

nowe badania dla pisania streszczeń książek, obecnie chyba najbardziej zaawansowane rozwiązanie (artykuł z września 2021): https://openai.com/blog/summarizing-books/

Analiza wydźwięku

Multiemo
Wydźwięk
Sentemo

wprowadzenie do tych programów autorstwa dr. inż. Jana Koconia:

najważniejsze informacje:

rozwinięcie tematu :

w kontekście wydźwięku warto wspomnieć również o narzędziu Sentimenti: https://sentimenti.pl/

przykład użycia analizy sentymentu: https://sentimenti.pl/blog/podwyzki-cen-energii-gaz-prad-2022/

tu bardziej przystępna forma, czyli podcast jako luźna rozmowa o analizie emocji:

Stylometria

Clarin udostępnia usługę WebSty do zastosowań stylometrycznych, jednak wciąż głównym i najbardziej rozbudowanym programem do pracy ze stylem pozostaje pakiet stylo()

bardzo dobre wprowadzenie do stylometrii zrobił jakiś czas temu dr hab. Jan Rybicki:

tutaj trochę dłuższa prezentacja:

dodatkowo warto wspomnieć o miejscu gdzie są zebrane i opisane wszystkie usługi Clarina:

https://clarin-pl.eu/index.php/alfabetyczny-spis-uslug/

opracował: Piotr Kędziora

Zainteresowanych zapraszam do kontaktu, jestem otwarty na współpracę. Prowadzę również szkolenia z zakresu narzędzi do przetwarzania tekstu.