hothing писал(а):
Задумался, а как можно сделать так, чтобы система "знала" что есть слово в арабском языке и в русском, какие знаки пунктуации используются и т.п. И выходит, что нужен, все таки, модуль National, в котором будут реализованы процедуры обрабоки строк естественного языка. И самое пожалуй тяжолое - научить систему понимать с каким естественным языком она работает.
Например, есть текст о китайской письменности на руссском языке. Естественно в таком тексте фразы на русском будут перемежаться с фразами на китайском. Получается, что система при обработке КАЖДОГО символа должна задаваться вопросом: какой естественный язык используется. А что делать если система не знает к какому естественному языку относится символ?
Есть идеи?
уникод таки видимо придется использовать. по факту((
но розетта все равно красивше - все символы восьмибитные независимо от языка. слова и алгоритмы обработки тоже одинаковы - для _любого_ языка. возможно потребуется только пропарсить слово до ближайшего слева пробела (а пробелов в розетте много - любой символ больше 127 обозначает тот-же пробел и одновременно задает язык следующего слова, состояшего из символов меньших 128, вроде так) но и то не всегда если язык-помнится. таким образом, даже розеттизация в отличие от уникодизации была бы проще - заменились бы проверки ==32 на >127 вот и вся переделка)) ну на самом деле это не все конечно но все равно -проще было бы.
а поддержку многоязычности даже работающая с уникодом программа как видите
все равно иметь должна, понимать, структурировать текст.
вот и получается что сменили шило на мыло - солидные
переделки алгоритмов пришлось делать? ветвления вводить? или лишнюю ПСП памяти тратить?...да!
а взамен получили сомнительную возможность чередовать в одном слове китайские иероглифы и русские буквы... пшик...
эх жава,жава, сколько гадостей смог натворить твой маркетинг...
впрочем уникод вроде раньше появился, в план9 или инферно...эх давно было,не помню... жава его только слямзила... как и все остальное...