Tworzenie anagramów

Zaczęty przez PomocnaLiterka, Sierpień 28, 2022, 12:50:01

Poprzedni wątek - Następny wątek

PomocnaLiterka

Witam wszystkich bardzo serdecznie  ;D

Aktualnie tworzę aplikację o nazwie "Pomocna Literka". Będzie to darmowa aplikacja, która ma za zadanie sprawdzać czy dane słowo może być użyte w grach słownych, scrabble czy literaki. Dostałem informację, że w takiej aplikacji przydałby się anagramator. Aplikacja nie posiada swojego słownika, na każde wpisane słowo wysyła zapytanie na stronę sjp.pl i dostaje odpowiedź zwrotną. Anagramator działałby zatem w taki sposób: stworzenie wszystkim możliwych kombinacji z podanych liter, sprawdzanie kombinacji poprzez wysłania zapytania(każdego utworzonego wyrazu po koleii). W takim przypadku jeżeli podchodzę do tworzenia anagramatora chciałbym jego pracę zoptymalizować. Optymalizacja opierałaby się na zasadzie, czy dany anagram przypomina słowo.

Z takiego praktycznego punktu widzenia chciałbym poprosić Was forumowiczów o pomoc przy optymalizacji. Szukałem jakiś zasad tworzenia słów w języku polskim, nie znalazłem za dużo. Sam powpadałem na kilka opcji, jednak chciałbym żebyście je potwierdzili.

Czy w języku polskim występują wyrazy, które:
- mają obok siebie trzy lub więcej takich samych liter?
- mają obok siebie inne niż dwie litery "mm" lub "nn" lub "oo", pomijając dwuliterówki

Jeżeli są jeszcze jakieś rzeczy, które nie występują w wyrazach języka polskiego to bardzo bym prosił o wskazanie lub chociaż o naprowadzenie.

Bardzo dziękuję, za każdą podpowiedź :)

  •  

Siemoród

W polskim słowniku jest sporo niedozwolonych lub praktycznie niewystępujących kombinacji liter, jak np. ky, ly, kz, żi, jy, śy, choć przypuszczam, że dla wielu z nich znalazłyby się pojedyncze wyrazy (najczęściej nieprzyswojone zapożyczenia, słownictwo czysto techniczne) które je zawierają. Mimo wszystko jak najbardziej pomogłoby to w optymalizacji takiej aplikacji.

Oprócz tego sporo liter, jak np. y, ń, ą, ę, ó (jeśli nie liczyć parunastu słów) nie występują na początku słowa, co też trochę mogłoby pomóc.

Trzech jednakowych liter raczej w żadnym polskim wyrazie nie uświadczysz, podwójne litery to najczęściej nn, ale inne pewnie też się znajdą. Ja bym na twoim miejscu spróbował ściągnąć jakąś statystycznie istotną część słownika sjp.pl typu 20 tysięcy wyrazów (od razu odfiltrowane słowa dozwolone w skrablu) i tam już kąkuter łatwo zobaczy, jakie kombinacje dwu czy trzech liter nie wystąpiły, co ułatwi robotę.
Niech żyje Wolny Syjam!