GUEST писал(а):
Я спросил о позициях, которые являются запрещенными. Что необходимо уточнить, чтобы было понятно?
В кодировке UTF-16 позиции диапазона 0D800H - 0DFFFH используются для представления двухпозиционных символов поэтому их нельзя использовать для представления однопозиционных символов, поэтому в стандарте юникода в таблице на этих позициях никаких символов нет и никогда не будет и использовать их ни для чего нельзя (даже если у вас UCS-2 или UTF-8 или UTF-32 ...). Так сложилось исторически. Соответственно, на эти позиции никакие свои служебные символы ставить нельзя.
В диапазоне-же для частного использования можно делать, что угодно, но если кто-то захочет использовать этот диапазон по своему, а у вас там уже служебные символы, то получится конфликт. Т.е. нужно или ужесточать стандарт, т.е. делать его несовместимым с юникодом, либо отказаться от специальных служебных символов. Другими словами, этот диапазон предназначен для конечного пользователя или специфической прикладной программы, а не для использования в глобальных системных механизмах.
GUEST писал(а):
А в XDS какие проблемы? Преобразование в Unicode всюду одинаково. Только кодовую страницу правильно указывать надо.
В XDS вообще никаких преобразований нет, что сам написал то и используешь. (я имел в виду преобразование между различными представлениями юникода)
GUEST писал(а):
alek111 писал(а):
Как не печально, но науки исследующей способы представления текстовых даных нет как класса, каменный век какой-то, даже эмпирических закономерностей и свойств никто не пытался исследовать.
Есть такая наука. В частности говорит, что в последнем придаточном предложении для усиления выражаемого утверждения должна стоять частица "ни".
Я имел в виду представление в машинной форме.
Первые кодировки делались как получится, а все последующие - чтобы обеспечить максимальную совместимость с предыдущими и добавить немного возможностей.
До сих пор я видел только одну кодировку которую проектировали для машинной обработки текстовой информации, все остальные - только для визуального отображения, а для обработки пригодны очень мало. Но и эта кодировка, по моему мнению, требует долгой обработки "напильником", чем я в свободное время и занимаюсь.