Pytania różne a rozmaite

Zaczęty przez Mścisław Bożydar, Sierpień 16, 2011, 23:29:20

Poprzedni wątek - Następny wątek

Ghoster

#1320
[...........]
  •  

Towarzysz Mauzer

No ale skoro już chcemy listę to np. tu dla polskiego na podstawie korpusów i internetu, a tu sobie można wygenerować różne listy dla angielskiego na podstawie British National Corpus. Problem polega na tym, że nie powstał chyba żaden dobry korpus tekstów mówionych, no i pewnie nie powstanie, bo ochrona prywatności (co jest hipokryzją - bo mieszkańcy krajów anglosaskich są tak czy tak przecież szczególnie monitorowani i podsłuchiwani), więc wszystko to opiera się na języku pisanym.
Skrzydła miłości, mocy, o wielki, Twardy Jerze,
Rozpostrzyj ponad nami, ogrzej i przyjmij nas. -Mrkalj, Palinodia o twardym jerze
***
VIVAT CAROLVS GVSTAVVS REX POLONIÆ
  •  

Noqa

Możnaby zanalizować częstość słów w korpusie napisów do seriali. Nie byłoby perfekcyjne, ale przynajmnirj zbliżone do języka mówionego.
Jeśli ktoś chce, może taką listę skompilować (najlepiej w postaci txt) i ją zanalizuje.
At him he yelled and yelped, tackling with taunting and dauntings; he tied and tacked him tightly and tautly, and killed him and quelled him and quenched him.
  •  

Wercyngetoryks

#1323
Cytat: Noqa w Styczeń 16, 2015, 13:50:05
Możnaby zanalizować częstość słów w korpusie napisów do seriali. Nie byłoby perfekcyjne, ale przynajmnirj zbliżone do języka mówionego.
Jeśli ktoś chce, może taką listę skompilować (najlepiej w postaci txt) i ją zanalizuje.

Lista 5 tys. najczęściej używanych polskich słów w napisach do filmów (wg www.opensubtitles.org). Minusem tego spisu jest występowanie słów odmienionych oraz nazw własnych innojęzycznych.
ChWDChRL
  •  

Wedyowisz

#1324
Cytat: Spodnie w Styczeń 16, 2015, 14:36:34
Cytat: Noqa w Styczeń 16, 2015, 13:50:05
Możnaby zanalizować częstość słów w korpusie napisów do seriali. Nie byłoby perfekcyjne, ale przynajmnirj zbliżone do języka mówionego.
Jeśli ktoś chce, może taką listę skompilować (najlepiej w postaci txt) i ją zanalizuje.

Lista 5 tys. najczęściej używanych polskich słów w napisach do filmów (wg www.opensubtitles.org). Minusem tego spisu jest występowanie słów odmienionych oraz nazw własnych innojęzycznych.

I że spacja => 2 słowa, brak spacji => 1 słowo, a takie chciałbym to takie jedno słowo jak idzie się. Jakby nie rozróżnić na partykułę (to nie pies) i faktyczny prefiks (nie ma), też by było dużo mniej wystąpień jako oddzielny wyraz. Trzeba pamiętać, że będące w większości tłumaczeniami napisy będą mieć zapewne zaburzone częstości przez kalkowanie języka oryginału. Poza tym kurwa dziwnie nisko.
стань — обернися, глянь — задивися
  •  

Towarzysz Mauzer

CytatMinusem tego spisu jest występowanie słów odmienionych oraz nazw własnych innojęzycznych.
Zawsze można przepuścić to przez jakiś lematyzer w Pythonie. Ewentualnie skorzystać z tej listy frekwencyjnej, która jest już zlematyzowana (tzn. podaje formy nieodmienione). Wadą jest to, że to język ściśle pisany i opierający się chyba na stosunkowo małym korpusie tekstów gazetowych (nadreprezentacja słownictwa politycznego).

CytatI że spacja => 2 słowa, brak spacji => 1 słowo, a takie chciałbym to takie jedno słowo jak idzie się. Jakby nie rozróżnić na partykułę (to nie pies) i faktyczny prefiks (nie ma), też by było dużo mniej wystąpień jako oddzielny wyraz.
Teoretycznie można by najpierw korpus napisów automatycznie otagować, a potem napisać skrypt robiący statystykę kompletnych jednostek skladniowych.

CytatTrzeba pamiętać, że będące w większości tłumaczeniami napisy będą mieć zapewne zaburzone częstości przez kalkowanie języka oryginału. Poza tym kurwa dziwnie nisko.
No bo sporo jest w internecie tłumaczeń na językowo dosyć żenującym poziomie. Co, jak widać, nie przeszkadza zachowywać pozorów przyzwoitości.
Skrzydła miłości, mocy, o wielki, Twardy Jerze,
Rozpostrzyj ponad nami, ogrzej i przyjmij nas. -Mrkalj, Palinodia o twardym jerze
***
VIVAT CAROLVS GVSTAVVS REX POLONIÆ
  •  

Noqa

Jeśli komuś zależy to mogę się tego podjąć. Jakieś dwa lata temu robiłem coś identycznego, z tym, że w PHP i już pogubiłem się w swoich starych skryptach, więc i tak musiałbym od nowa napisać w Pythonie.
Jakieś proste operacje pozwalające rozróżnić oba nie czy wydobyć bymy też bym mógł dodać.
At him he yelled and yelped, tackling with taunting and dauntings; he tied and tacked him tightly and tautly, and killed him and quelled him and quenched him.
  •  

Todsmer

Powiedzcie mi, dlaczego K w łacince odżyło? Przecież w łacinie używane było wyjątkowo rzadko. Runy?
  •  

Widsið

Mam wrażenie, że o k sobie przypomniano (a raczej wzięto je pod uwagę, bo było konsekwentnie używane w łacinie w kilku wyrazach), kiedy wartości fonetyczne liter C, G i Q zaczęły się chwiać. Wpływ run można wykluczyć; w starowysokoniemieckim już mamy konsekwentne użycie k, a w staroangielskim c. Pierwotny kształt runy cen to , wskazujący na inspirację C, a nie K. W czasach, gdy cen zaczęła nieco bardziej przypominać k, runy były już alfabetem przepełnionym niekonsekwencjami, a akurat ta posiadała dwie (w Skandynawii)/trzy (w Anglii) wartości fonetyczne. Pewnego wpływu germańskiego na popularyzację k nie można wykluczyć, ale jest to raczej wynik późniejszego prestiżu dialektów niemieckich, a nie ich konwencji piśmienniczych przed przyjęciem alfabetu łacińskiego.
  •  

Todsmer

#1329
Cytat: Widsið w Styczeń 24, 2015, 13:27:29
Mam wrażenie, że o k sobie przypomniano (a raczej wzięto je pod uwagę, bo było konsekwentnie używane w łacinie w kilku wyrazach), kiedy wartości fonetyczne liter C, G i Q zaczęły się chwiać.
A, w sensie zamiast /k/ pojawiły się /ts/ / /tʃ/ i /k/?

Może też wpływ greki? Znany jest wpływ jednej z odmian greckiego pisma (półuncjały?) na łacińską minuskułę.
  •  

Canis

Czy któryś z naszych forumowych językoznawców-pieniaczy znalazł w poniższych klipach coś, do czego można się przyczepić?
https://www.youtube.com/watch?v=jCBdMrl5UPQ
https://www.youtube.com/watch?v=l5sAzbB7QiY
  •  

Dynozaur

#1331
>Polimaty

Serjo?

Ktoś mi kiedyś przysłał jeden odcinek, żebym mu powiedział, gdzie koleś pierdoli, to w sumie łatwiej by było wypisać listę rzeczy, gdzie człowiek nie pierdoli...

Ogólnie, stek "bajek dla grzecznych dzieci" - takich półprawd, które się opowiada masom, bo naukowa prawda byłaby dla nich za trudna do ogarnięcia...

Na razie obeźrzałem pierwszą część - nie jest tak źle, jak się spodziewałem, ale...

-Ta prasłowiańska forma "chuja" (jeszcze ze złym jerem xDD) jest bezsensowna, zwłaszcza w świetle przedstawianej przez niego teorji wywodu tego słowa (która, mimo swej niewątpliwej atrakcyjności, jest bzdurą).
-Z tym chudźcem~chujcem to jakaś niepoparta niczym stara teorja, w którą chyba nikt już poważnie nie wierzy, a koleś opowiada o tym, jakby to było 100% potwierdzone info (pewnie w celu przyciągnięcia widzów - zamiast powiedzieć "sorry ludzie, ale nie wiadomo skąd to pochodzi" zawsze przecież lepiej sprzedać śmieszkom coś chwytliwego "chuj to świnia xDDDDDD heheszki").
-PSł. *je(b)ti (też: *je(b)sti) i *jebati nie oznaczały "dokładnie tego samego", tylko to drugie było formą frekwentatywną. No ale tego nie można powiedzieć śmieszkom, bo nie zrozumiejo ocokaman...
-Zabrakło mi stwierdzenia, że "pierdolić" to "mówić pierdoły". I tego, że "pierdoła" nie stała się wulgaryzmem, a "pierdolić" już tak (co jest ciekawym fenomenem językowym). Szkoda też, że nic nie powiedział o dalszej etymologji "pierdoły" i jej prawdopodobnego związku z "pierdzeniem".
-Nie powiedział, że "kur" był (a w wielu słowiańskich [i nie tylko słowiańskich zresztą] językach jest do dziś) określeniem penisa. Moim zdaniem ważna rzecz w kontekscie etymologji kurwy.
-Pochodzenie "kurwy" od wyrażenia "kurwie macierze syny" (co jest, notabene, pierwszym zaświadczeniem tego słowa w języku polskim) nie ma sensu. Bo przecież wyrażenie to ma już w sobie "kurwę", a więc żeby powstało takie wyrażenie musiała najpierw istnieć sama "kurwa". To wyrażenie może tłumaczyć, skąd wzięła się "kurwa" jako wykrzyknik (co i tak jest daleko idącą nadinterpretacją - to że jakieś wyrażenie pojawiło się w starym tekscie nie oznacza, że było używane przez naszych przodków na porządku dziennym...), ale nie tłumaczy pochodzenia słowa jako takiego.
-Tej "dzi(e)wki" ze "zmianą obyczajowości" bym nie wiązał, prędzej to jakieś tabu językowe. A Boy-Żeleński "dziwki" nie wymyślił, tylko użył wymowy gwarowej (z pochylonym "e"). Jedyne, do czego mógł się przyczynić (i pewnie się przyczynił) to to, że formy ogólnopolska i gwarowa (z pochyleniem) przestały być jednością i nabrały każda swojego znaczenia.

W innych rzeczach też się pewnie by dużo farmazonów znalazło, ale nie jestem alfą i omegą - wszystkiego nie wyłapię.
Jaranie się starem forem to pedalstwo, a Kwadrat i Seiphel to ciota i chuj.

P*lsko, cóżeś uczyniła ze swoim chrztem?
  •  

Spiritus

#1332
Swoją drogą:
Spoiler
[Zamknij]

* Spiritusowe myśli
>yōro-
>Ten myślnik...
>No kurwa yōro-?
>Gdzie jest -s w Nominatywie xD?
-Yōro-, kurwa?
>Srsly?
>Yōro-?
>Rokъ
>xDD


BTW, nawet napisałem gdzieś  komentarzu, że to jest jakieś zjebane, ale jedyną odpowiedź, jaką dostałem to jakiś gość mi napisał, że dałem przecinek przed "czy" xD.

Dobra, wiem, że to takie półserio, no ale kurwa xD.
  •  

Canis

Cytat: Dynozaur w Luty 05, 2015, 10:03:29
:angry:
Najs!

Z tym, że czym innym jest uproszczenie, a czym innym przekłamanie. Jak byś zakwalifikował te zarzuty?
  •  

Dynozaur

Uproszczenia nieraz prowadzą do przekłamań...

Tutaj mamy i jedno i drugie.
Jaranie się starem forem to pedalstwo, a Kwadrat i Seiphel to ciota i chuj.

P*lsko, cóżeś uczyniła ze swoim chrztem?
  •