OberonCore

Библиотека  Wiki  Форум  BlackBox  Компоненты  Проекты
Текущее время: Пятница, 29 Март, 2024 01:40

Часовой пояс: UTC + 3 часа




Начать новую тему Ответить на тему  [ Сообщений: 57 ]  На страницу Пред.  1, 2, 3  След.
Автор Сообщение
 Заголовок сообщения:
СообщениеДобавлено: Воскресенье, 01 Апрель, 2007 14:17 

Зарегистрирован: Среда, 28 Февраль, 2007 00:08
Сообщения: 142
Откуда: Нижний Новгород
Борис Рюмшин писал(а):
Чуть точнее можно? И ссылки прямые приветствуются.

о проблемах Юникода в статье " 'Проблема кодировок': стечение обстоятельств или стратегический замысел?" http://consumer.nm.ru/kod.htm

На http://sage.h15.ru/?e0l0 утверждается, что в BlueBottle 4 байт UCS32.

Так что вопрос какую кодировку- Unicode (utf-7, utf-8, UTF16, UTF16LE, UTF16BE, UTF32, UTF32LE, UTF32BE), UCS32 (это-юникод или нет?) или японский JIS X 0208-1990 использовать в качестве основной открыт.


Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Воскресенье, 01 Апрель, 2007 23:34 
Администратор

Зарегистрирован: Вторник, 15 Ноябрь, 2005 01:14
Сообщения: 4695
Откуда: Россия, Орёл
UTF-8 :) хорошо бы было. В Bluebottle именно он (если склероз мне не изменяет).

Двухбайтовый CHAR и сложившаяся традиция нам выбора не оставляет. В BlackBox вариант юникода UCS2.


Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Понедельник, 02 Апрель, 2007 13:37 

Зарегистрирован: Среда, 28 Февраль, 2007 00:08
Сообщения: 142
Откуда: Нижний Новгород
Борис Рюмшин писал(а):
UTF-8 :) хорошо бы было. В Bluebottle именно он (если склероз мне не изменяет).

Двухбайтовый CHAR и сложившаяся традиция нам выбора не оставляет. В BlackBox вариант юникода UCS2.


Насколько я понял кроме несколькольких стандартов таблиц символов, существует несколько стандартов их хранения-передачи. По моим впечатлениям символы utf8 хранятся с переменной длинной- разница в длине между абзацем ascii и utf8 английского текста-3 байта (537 и 540 символов), русского ~2раза (270 и 510).

С BlueBottle вообще странное что-то- вот выдержка из FAQ
Цитата:
Will Unicode be supported?
A: Yes, in the forthcoming text system. Not in the Native Oberon environment.

Will there be a National Language Support (NLS): date and time formatting, numeric and monetary formatting, keyboard, fonts?
A: No. That would have to be done at a higher level in the text system which is in preparation.

Will Cyrillic be supported?
A: No. Anybody can volunteer for adding this support. The task is similar to what is described for Native Oberon in "Keyboard support". Transpose that to AosKeyboard.Mod.

И из Support List
Цитата:
Input Method Editors: Cyrillic, Pinyin (experimental)

как это понимать? :?:


Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Понедельник, 02 Апрель, 2007 13:46 
Администратор

Зарегистрирован: Вторник, 15 Ноябрь, 2005 01:14
Сообщения: 4695
Откуда: Россия, Орёл
UTF-8 - это кодирование переменной длинны. Стандартные ASCII занимают 1 байт. Русский язык в частности - 2 байта. UCS2 - фиксированный, 2 байт, применяется в Windows.

В BlueBottle русский язык поддерживается (даже китайский поддерживается :)). Правда криво - шрифт никуда не годится. Способ ввода... хм... какой-то комбинацией клавиш. Я сейчас не помню. Но не стандартной. Там где-то написано, как бы не в Tutorial...


Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Понедельник, 02 Апрель, 2007 13:52 
Администратор

Зарегистрирован: Вторник, 15 Ноябрь, 2005 01:14
Сообщения: 4695
Откуда: Россия, Орёл
Никто не хочет купить книжечку со стандартом Unicode 5.0? :D :D :D

http://www.unicode.org/


Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Понедельник, 02 Апрель, 2007 16:39 

Зарегистрирован: Суббота, 26 Ноябрь, 2005 10:37
Сообщения: 875
Откуда: Россия, Владивосток
Борис Рюмшин писал(а):
Никто не хочет купить книжечку со стандартом Unicode 5.0? :D :D :D

http://www.unicode.org/

А зачем покупать? Вся нужная информация уже на винте


Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Понедельник, 02 Апрель, 2007 23:29 

Зарегистрирован: Среда, 28 Февраль, 2007 00:08
Сообщения: 142
Откуда: Нижний Новгород
Ivor писал(а):
Борис Рюмшин писал(а):
Никто не хочет купить книжечку со стандартом Unicode 5.0? :D :D :D

http://www.unicode.org/

А зачем покупать? Вся нужная информация уже на винте

Не знаю что в книге, но таблицы символов раздаются по цене 30мег трафика http://www.unicode.org/Public/5.0.0/cha ... Charts.pdf
Цитата:
This directory contains a single PDF file containing a complete set of
character code tables and list of character names for The Unicode
Standard, Version 5.0.


Однакож приводить BlackBox к единой кодировке кажись надо. ..будет, может сразу к 3 или 4 байтам? цитата из данной ранее статьи
Цитата:
* По данным японских учёных, символы всех известных языков мира, как используемых сейчас, так и ныне "мёртвых", можно уместить в таблицу символов, насчитывающую 2^24 = 16777216 позиций.


Вернуться к началу
 Профиль  
 
 Заголовок сообщения:
СообщениеДобавлено: Понедельник, 02 Апрель, 2007 23:45 
Администратор

Зарегистрирован: Вторник, 15 Ноябрь, 2005 01:14
Сообщения: 4695
Откуда: Россия, Орёл
batyrmastyr писал(а):
Однакож приводить BlackBox к единой кодировке кажись надо. ..будет, может сразу к 3 или 4 байтам? цитата из данной ранее статьи
Цитата:
* По данным японских учёных, символы всех известных языков мира, как используемых сейчас, так и ныне "мёртвых", можно уместить в таблицу символов, насчитывающую 2^24 = 16777216 позиций.


Собственно такой процесс сейчас и идет. Как я уже выше сказал, юникод введен в язык в виде двубайтового CHAR. Это означает, что близлежащий вариант только один - UCS2.


Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: А нужен ли юникод?
СообщениеДобавлено: Четверг, 13 Сентябрь, 2007 13:42 

Зарегистрирован: Вторник, 04 Июль, 2006 13:04
Сообщения: 88
Откуда: Novosibirsk
Уникод как решение проблемы имеет недостатки. Например
двукратный рост обьема текстов прямо приводит к замедлению его
обработки. Экономные варианты уникода? Там другой неочевидный
источник замедления за счет усложнения алгоритмов обработки
и утраты вследствие этого возможности прямой аппаратной их
поддержки. Ветвлений современные процессоры не любят.
Ну а кому выгодно это замедление отличных от английского языков
- ясно всем... Так же как гигабайты требований Висты выгодны
небезызвестным акционерам фирм-производителей памяти и
жестких дисков))

Как альтернативную попытку посмотрите например проект
кодировки Розетта. Они вроде заявляли сохранение восьмибитных
алгоритмов обработки. Просто у них кодировку имеют слова а не символы.
Так что если будет надо, символы разных языков отображу, способ знаю))

Далее. Мне хватит одного русского. И я для себя лично
проблему кодировки и лицензионности решил разом - ушел с Виндовс
на Линукс/НетБСД и просто постулировал везде использовать КОИ8Р.

Уникод для меня, как и ХМЛ, всего лишь формат ОБМЕНА данными а
НЕ ХРАНЕНИЯ ИЛИ ОБРАБОТКИ. И я по мере сил буду сопротивляться
введению ОЧЕРЕДНЫХ всеобщих)) и единых)) кодировок, лишь
увеличивающих в итоге общий бардак. Пусть внутри ВСЕ будет в
КОИ8, SHORTCHAR. А для общения со внешним миром у меня будут
конверторы из нужного варианта уникода, из CHAR.

...ББ давно на паузе у меня, слишком виндовый.
Долго копался в mocka(modula2) над статическими уцЛибс.
Довел ее до более-менее удобного состояния, внес несколько
мелких модификаций. Для написания мелких утилит пойдет. Сейчас
копаюсь в linz oberon v4, возможно посмотрю углубленно system3 если
простого v4 не хватит как универсальной платформы для расширяемого
приложения, сетевого сервера. Веб-сервера в частности.
А все эти Оберон-системы давно работают под Линуксом и это хорошо))


Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: А нужен ли юникод?
СообщениеДобавлено: Четверг, 13 Сентябрь, 2007 15:07 
Модератор
Аватара пользователя

Зарегистрирован: Понедельник, 14 Ноябрь, 2005 18:39
Сообщения: 9459
Откуда: Россия, Орёл
CheshireCat писал(а):
Уникод как решение проблемы имеет недостатки. Например
двукратный рост обьема текстов прямо приводит к замедлению его
обработки.

?? Если брать обработку больших массивов текста на внешних носителях - то да.
А если обработку строк в программе, то эффект обратный - хотя бы из-за того, что работа с двухбайтными словами происходит быстрее, чем с отдельными байтами.


Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: А нужен ли юникод?
СообщениеДобавлено: Четверг, 13 Сентябрь, 2007 23:55 
Администратор

Зарегистрирован: Вторник, 15 Ноябрь, 2005 01:14
Сообщения: 4695
Откуда: Россия, Орёл
Илья Ермаков писал(а):
CheshireCat писал(а):
Уникод как решение проблемы имеет недостатки. Например
двукратный рост обьема текстов прямо приводит к замедлению его
обработки.

?? Если брать обработку больших массивов текста на внешних носителях - то да.
А если обработку строк в программе, то эффект обратный - хотя бы из-за того, что работа с двухбайтными словами происходит быстрее, чем с отдельными байтами.

Спокойно, товарищи. Юникод это уже не "как решение проблемы", а свершившийся факт.


Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: А нужен ли юникод?
СообщениеДобавлено: Пятница, 14 Сентябрь, 2007 08:30 

Зарегистрирован: Понедельник, 28 Ноябрь, 2005 10:28
Сообщения: 1428
Илья Ермаков писал(а):
А если обработку строк в программе, то эффект обратный - хотя бы из-за того, что работа с двухбайтными словами происходит быстрее, чем с отдельными байтами.

Да ну, чушь.


Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: А нужен ли юникод?
СообщениеДобавлено: Пятница, 14 Сентябрь, 2007 09:22 

Зарегистрирован: Понедельник, 28 Ноябрь, 2005 10:28
Сообщения: 1428
Борис Рюмшин писал(а):
Спокойно, товарищи. Юникод это уже не "как решение проблемы", а свершившийся факт.

И относится к нему надо как к осознанной необходимости.:-)


Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: А нужен ли юникод?
СообщениеДобавлено: Пятница, 14 Сентябрь, 2007 10:04 
Модератор
Аватара пользователя

Зарегистрирован: Понедельник, 14 Ноябрь, 2005 18:39
Сообщения: 9459
Откуда: Россия, Орёл
Trurl писал(а):
Илья Ермаков писал(а):
А если обработку строк в программе, то эффект обратный - хотя бы из-за того, что работа с двухбайтными словами происходит быстрее, чем с отдельными байтами.

Да ну, чушь.

Может, и чушь. Интуитивно кажется, что так :-)


Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re:
СообщениеДобавлено: Пятница, 14 Сентябрь, 2007 14:01 
Аватара пользователя

Зарегистрирован: Пятница, 11 Май, 2007 21:57
Сообщения: 1488
Откуда: Украина, Киев
Борис Рюмшин писал(а):
UTF-8 :) хорошо бы было. В Bluebottle именно он (если склероз мне не изменяет).

UTF-8 только в файлах на диске... (С моими кодерами и декодерами теперь можно хоть в CP866 сохранять :D )
Когда файл открывается редактором, "на лету" перекодируется в UCS32 (4 байта)
Поддержка любых :!: мыслимых кодировок обеспечивается соответствующими кодерами и декодерами.
UTF-8 для cjk (China Japan Korea) кодировок не подходит (суммарное количество иероглифов превышает число 65536)!
Для кириллицы, значащие биты в юникоде похоже совпадают с UCS32 :D
Вроде-ж всё понятно изложил http://sage.com.ua/ru.shtml?e1l2 :mrgreen:

Так, что что-бы не обидеть cjk -- UCS32 MUST HAVE! :mrgreen:


Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Re:
СообщениеДобавлено: Пятница, 14 Сентябрь, 2007 15:39 

Зарегистрирован: Понедельник, 28 Ноябрь, 2005 10:28
Сообщения: 1428
Ярослав Романченко писал(а):
Поддержка любых :!: мыслимых кодировок обеспечивается соответствующими кодерами и декодерами.
UTF-8 для cjk (China Japan Korea) кодировок не подходит (суммарное количество иероглифов превышает число 65536)!

UTF-8 может закодировать 2147483648 символов- гораздо больше, чем есть и будет в юникоде.


Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Re:
СообщениеДобавлено: Пятница, 14 Сентябрь, 2007 16:10 
Аватара пользователя

Зарегистрирован: Пятница, 11 Май, 2007 21:57
Сообщения: 1488
Откуда: Украина, Киев
Trurl писал(а):
UTF-8 может закодировать 2147483648 символов- гораздо больше, чем есть и будет в юникоде.

Спасибо за инфу!
Но поскольку UTF-8 переменной длины, то очевидно UCS32 удобнее для представления текста в памяти поскольку его длина фиксированна.
В Bluebottle символ текста определяется в AosTexts.Mod как:
Код:
Char32* = LONGINT;

а строка таких символов:
Код:
UCS32String* = ARRAY OF LONGINT;

Для того что-бы получить текст из какого-либо редактора
служит единственная процедура:
Код:
PROCEDURE GetAsString*(VAR x: ARRAY OF CHAR);

которая возвращает в массив строку UTF-8 :)
Только вот что-бы вставить текст в редактор нужно самим преобразовать UTF-8 (или что там у нас) в UCS32 :)
Код:
PROCEDURE UTF8toUnicode*(VAR utf8: ARRAY OF CHAR; VAR ucs: ARRAY OF LONGINT; VAR idx: LONGINT);

и добавить процедурой:
Код:
PROCEDURE InsertUCS32* (pos : LONGINT; VAR buf : UCS32String);

объявленной в объекте UnicodeText в модуле AosTexts.Mod
Пока писал свой UDPChat изучил досконально :D

И чего это Бутылку никто не изучает? :?


Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Re:
СообщениеДобавлено: Пятница, 14 Сентябрь, 2007 16:35 
Аватара пользователя

Зарегистрирован: Вторник, 19 Сентябрь, 2006 21:54
Сообщения: 2449
Откуда: Россия, Томск
Ярослав Романченко писал(а):
И чего это Бутылку никто не изучает? :?

Работала бы под VMWare - я бы изучал.


Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: Re:
СообщениеДобавлено: Пятница, 14 Сентябрь, 2007 16:41 
Аватара пользователя

Зарегистрирован: Пятница, 11 Май, 2007 21:57
Сообщения: 1488
Откуда: Украина, Киев
Александр Ильин писал(а):
Ярослав Романченко писал(а):
И чего это Бутылку никто не изучает? :?

Работала бы под VMWare - я бы изучал.

Запускаться запускается... но, согласен, работой это назвать сложно... тормозит.
Я на отдельный раздел сначала поставил... А потом вообще отдельный системник собрал из б/у комплектующих :mrgreen:
Celeron 1 GHz 128 Mb памяти -- на сегодняшний день копейки...


Вернуться к началу
 Профиль  
 
 Заголовок сообщения: Re: А нужен ли юникод?
СообщениеДобавлено: Пятница, 14 Сентябрь, 2007 16:48 
Аватара пользователя

Зарегистрирован: Пятница, 11 Май, 2007 21:57
Сообщения: 1488
Откуда: Украина, Киев
Вобщем UCS32 и есть почти Unicode...
Только правильнее её называть UCS-4 :)
http://www.unicode.org/standard/principles.html


Вернуться к началу
 Профиль  
 
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 57 ]  На страницу Пред.  1, 2, 3  След.

Часовой пояс: UTC + 3 часа


Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 2


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Вся информация, размещаемая участниками на конференции (тексты сообщений, вложения и пр.) © 2005-2024, участники конференции «OberonCore», если специально не оговорено иное.
Администрация не несет ответственности за мнения, стиль и достоверность высказываний участников, равно как и за безопасность материалов, предоставляемых участниками во вложениях.
Без разрешения участников и ссылки на конференцию «OberonCore» любое воспроизведение и/или копирование высказываний полностью и/или по частям запрещено.
Powered by phpBB® Forum Software © phpBB Group
Русская поддержка phpBB