OberonCore

Библиотека  Wiki  Форум  BlackBox  Компоненты  Проекты
Текущее время: Среда, 26 Июнь, 2019 17:33

Часовой пояс: UTC + 3 часа




Начать новую тему Ответить на тему  [ Сообщений: 42 ]  На страницу Пред.  1, 2, 3  След.
Автор Сообщение
СообщениеДобавлено: Среда, 03 Октябрь, 2018 13:24 

Зарегистрирован: Пятница, 13 Март, 2009 16:36
Сообщения: 796
Откуда: Казань
budden писал(а):
Вы увидите, что кириллические URLы хорошо стартовали, но потом были заблокированы рядом "технических" проблем. Вы ожидаете, что эти проблемы со временем сами рассосутся?

Кроме кириллических URL, наверняка есть и другие. И рано или поздно эти проблемы все-таки решат. Если не мы, то китайцы, а заодно и технические проблемы с кириллическими адресами исчезнут. А если не исчезнут, то значит - это и не нужно.

Хочу напомнить, что медики до сих пор пользуются наименованиями лекарств и заболеваний на латыни.
В физике и химии принято использовать латинский и греческие алфавиты.

Если уж внедрять кириллицу, то везде нужно и медиков перевести, и химиков, и физиков. Предлагаю подумать над тем, как перевести на кириллицу следующие записи на вражеском языке:
C2H5OH
Е = mc^2
Как вариант:
Ц2АШ5ОАШ
ЙЭ = эмц^2


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: Среда, 03 Октябрь, 2018 13:46 

Зарегистрирован: Четверг, 08 Май, 2008 19:13
Сообщения: 863
Откуда: Киев
budden писал(а):
Да, проблема будет. Есть ей, эй и есть пришедшие из англоязычного исходника ejj и ehjj - между ними конфликт. Даже если мы сочтём, что мы изначально в английском режиме и закодируем ей как xrejj, но тогда конфликт будет с англоязычным xrejj, а англоязычный ejj мы не можем превратить в xeejj, поскольку будут проблемы связывания. Вы это имеете в виду?
Я имею ввиду, что обращение через латиницу из транслитерованной среды отличается от обращения через чистую латиницу, что приводит к нестыковкам при связывании с кодом от унаследованных систем.

Цитата:
В любом случае, это не повод отказаться от той части стандарта, которая определяет транслитерацию собственно слов
И да и нет. Да там, где совпадают условия, и нет там, где не совпадают.
По опыту использования корпоративной почты в многоязычной среде, не вижу проблем со стандартными системами транслитерации. Более того, есть логичное требование, чтобы записи имён во внутренних системах соответствовали записям в заграничных паспортах. Из-за этого, к примеру, моё имя проходит двойное искажение (русский->украинский->английский транслит), но к проблемам иднитификации это не приводит.
Смешивать транслитерацию идентификаторов в тексте программ и транслитерацию имён людей я бы не стал.


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: Среда, 03 Октябрь, 2018 13:58 

Зарегистрирован: Понедельник, 11 Сентябрь, 2017 13:23
Сообщения: 496
Цитата:
Я имею ввиду, что обращение через латиницу из транслитерованной среды отличается от обращения через чистую латиницу

Думаю, мы друг друга поняли и я ответил именно на это.

Цитата:
но к проблемам иднитификации это не приводит.

На практике, пока в вашу организацию не придут одновременно Эй Даль и Ей Дал, такой проблемы не возникнет. Но к вам могут придти и два Васи Пупкина. Но есть не только идентификация, а ещё и возможность получить исходную информацию из транслитерированной.
Цитата:
Например, и сегодня используются томографы, не допускающие кириллицу в именах пациентов. При том, что информационная система, используемая тем же отделением, прекрасно кириллицу понимает. И оператору томографа нужно не просто позвать пациента на исследование, но и правильно записать его фамилию в какие-нибудь документы.

источник


Последний раз редактировалось budden Среда, 03 Октябрь, 2018 14:04, всего редактировалось 1 раз.

Вернуться к началу
 Профиль  
 
СообщениеДобавлено: Среда, 03 Октябрь, 2018 14:00 

Зарегистрирован: Пятница, 13 Март, 2009 16:36
Сообщения: 796
Откуда: Казань
Вообще, тема взаимооднозначного соответствия между латинице и кириллицей вызывает, конечно, небольшой скепсис.

На полной серьёзе хочу сказать, что была бы супер идея - это взаимооднозначное соответствие между кириллицей и любым другим языком на Земле (пусть хотя бы для самых распространенных для начала). Чтобы, допустим, по записи иероглифов на китайском, можно было бы преобразовать это в строку на кириллице и её прочитать и наоборот по записи на кириллице преобразовать в иероглифы.


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: Среда, 03 Октябрь, 2018 14:01 

Зарегистрирован: Четверг, 08 Май, 2008 19:13
Сообщения: 863
Откуда: Киев
budden писал(а):
Окончательный ответ: яролит не предназначен для обработки англоязычных идентификаторов.
Это было понятно, поэтому я и писал о невозможности единого стандарта. У всех отличаются как решаемые задачи, так и исходные возможности систем кодирования. Сделать хорошее универсальное решение не получится.
Цитата:
Например, и сегодня используются томографы, не допускающие кириллицу в именах пациентов. При том, что информационная система, используемая тем же отделением, прекрасно кириллицу понимает. И оператору томографа нужно не просто позвать пациента на исследование, но и правильно записать его фамилию в какие-нибудь документы.
Я видел это, и принципиальной разницы от использования имён в корпоративной системе не вижу.


Последний раз редактировалось Comdiv Среда, 03 Октябрь, 2018 15:18, всего редактировалось 1 раз.

Вернуться к началу
 Профиль  
 
СообщениеДобавлено: Среда, 03 Октябрь, 2018 14:08 

Зарегистрирован: Понедельник, 11 Сентябрь, 2017 13:23
Сообщения: 496
На форуме linux.org.ru отозвался один разработчик, который применил в своей системе обратимый транслит Зайцева (который появился уже несколько лет назад, смысл тот же, что у меня, просто другая реализация) для имён пользователя.


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: Среда, 03 Октябрь, 2018 14:16 

Зарегистрирован: Понедельник, 11 Сентябрь, 2017 13:23
Сообщения: 496
Ну в общем, вы как хотите. Я нашёл уже несколько применений для такого транслита и их перечислил. Для меня всё очевидно. Для продвижения же скептики нужны лишь в незначительном количестве. Люди, на самом деле, почти никогда не меняют свою точку зрения. От вас всех слышно только ненужно да неактуально. При том, что кто-то применил. Я знаю, куда и зачем это нужно мне. КОнечно, сделаю какое-то подобие рекламы. Я считаю, что должен быть обратимый стандарт транслитерации для тех случаев, когда эта транслитерация нужна. Этих случаев немного, но они экстремально важные: URL, E-mail, Логин. Нет, я не собираюсь предлагать заменить юникод транслитом. Нет, я не предлагаю филологам и лингвистам пользоваться таким транслитом. У моей разработки есть конкретная область применения. Она важная и до меня хорошего решения этой задачи не было. Транслит Зайцева не очень удобочитаем. Яролит читается не хуже других транслитов (русскоговорящим читателем). Так что шаг вперёд в этой области я сделал. Нет смысла говорить, что вне области применения этой разработки она неприменима - это капитан очевидность. Также как и нет смысла говорить, что эта разработка применима не везде - это тот же капитан. Удастся ли мне внедрить яролит в широкое использование - я попробую, хотя по первой реакции я вижу, что это будет сложно. Но я не буду вас убеждать дальше, я буду искать своих.

Преобразование между кириллицей и иероглифами, конечно, тоже можно сделать, по тому же принципу, что и яролит. Но оно понадобится только в тот момент, когда будут программы, с ,допустим 7-битными буквами, среди которых есть только кириллица. Пока что мы живём на всём американском и в обозримом будущем такой задачи не предвидится.

Вот посмотрите, я предлагаю толковую вещь (ну как хотите, я то знаю, что она толковая). Государство не осилило сделать такую. А применение у неё есть. Никак не могло бы стать хуже, если бы этот стандарт был внедрён, потому что пока каждый решает такую задачу тяп-ляп, на коленке и с соответствующим качеством. Всё, о чём вы пишите - это лишь о том, что это не нужно.

Я натренировался вас убеждать, что это нужно, свои аргументы до разумной остроты отточил. Но если вы уже решили, что это не нужно, то ваше решение не изменится. Поэтому я теперь с отточенными аргументами пойду искать тех, кто не успел составить такую точку зрения. Или тех, кто искал такое решение, не смог найти сделал тяп-ляп, а заноза осталась.

Всем спасибо за беседу!


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: Среда, 03 Октябрь, 2018 15:16 
Администратор

Зарегистрирован: Вторник, 15 Ноябрь, 2005 01:14
Сообщения: 4286
Откуда: Россия, Орёл
budden писал(а):
Можно было сделать кириллические URLы нормально работающими уже 19 лет назад, и были люди, которые за это боролись, ставя на кон свой бизнес, и даже подавая в суды на Microsoft, но итог - большинство URL по сей день в латинице. Вот что думает интернет на тему кириллических URL.

Нельзя. Это всё суррогаты, как и сейчас. Проблема касается не только кириллицы и заложена ещё в начале 80-х, когда был создан DNS. Сейчас её можно исправить только заменив на глобальном уровне стандарт DNS. На сколько это реально, может показать ситуация с IPv6, который пытаются ввести взамен IPv4, наверно уже скоро лет 20 как.


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: Среда, 03 Октябрь, 2018 15:24 

Зарегистрирован: Пятница, 20 Июль, 2007 17:26
Сообщения: 692
Откуда: Псков
budden писал(а):
транслитерация нужна. Этих случаев немного, но они экстремально важные: URL, E-mail, Логин.

Действительно немного, а, если вернуться в реальный мир, то станет ещё меньше. :)
Ну не нужно обратное преобразование в емейлах (поля From, То и пр.), логинах. То, что предлагается получать обратным преобразованием, и так получают из учётных записей, адресных книг, из заголовков писем (см. "Message Header Extensions for Non-ASCII Text")


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: Среда, 03 Октябрь, 2018 15:25 

Зарегистрирован: Четверг, 08 Май, 2008 19:13
Сообщения: 863
Откуда: Киев
budden писал(а):
Нет смысла говорить, что вне области применения этой разработки она неприменима - это капитан очевидность. Также как и нет смысла говорить, что эта разработка применима не везде - это тот же капитан.
Тогда проясните, пожалуйста, что Вы имели ввиду под "единым стандартом". Для меня единый стандарт, применимый не везде, звучит как оксюморон.


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: Среда, 03 Октябрь, 2018 17:58 

Зарегистрирован: Понедельник, 11 Сентябрь, 2017 13:23
Сообщения: 496
В общем, публичное обсуждение дальше, скорее всего, не имеет смысла, кто хочет - пишите в личку. Запись в ЖЖ пополнил реальными и предлагаемыми вариантами использования


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: Среда, 03 Октябрь, 2018 20:31 

Зарегистрирован: Понедельник, 11 Сентябрь, 2017 13:23
Сообщения: 496
Оказывается, яролит - это почти точно ГОСТ 16876-71, таблица 2 - отличаются только ь (q вместо ') и ъ (jq вместо ″).
Украинские товарищи предложили добавить южнославянские, белорусские, украинские (относится ли к южнославянским - я не знаю), и казахские значки. Получается так:

ї — ji, є — je, ґ — jg, ў — ww, ѐ — we, ђ — jd, ѓ — wg, ѕ — ws, ј — wy, ћ — jc, ќ — jk, ѝ — wi, џ — wd, ғ — gh, қ — wk, ң — wn, ү — uh, ұ — wu, ә — ah, ө — oh.

Предлагайте улучшения.


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: Среда, 03 Октябрь, 2018 21:09 

Зарегистрирован: Четверг, 08 Май, 2008 19:13
Сообщения: 863
Откуда: Киев
Казахские буквы, похоже, что поздно добавлять


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: Среда, 03 Октябрь, 2018 23:24 

Зарегистрирован: Пятница, 13 Март, 2009 16:36
Сообщения: 796
Откуда: Казань
В юникоде есть следующие кириллические символы:
ЁЂЃЄЅІЇЈЉЊЋЌЎЏАБВГДЕЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯабвгдежзийклмнопрстуфхцчшщъыьэюяёђѓєѕіїјљњћќўџѠѡѢѣѤѥѦѧѨѩѪѫѬѭѮѯѰѱѲѳѴѵѶѷѸѹѺѻѼѽѾѿҀҁҐґҒғҔҕҖҗҘҙҚқҜҝҞҟҠҡҢңҤҥҦҧҨҩҪҫҬҭҮүҰұҲҳҴҵҶҷҸҹҺһҼҽҾҿӀӁӂӃӄӇӈӋӌӐӑӒӓӔӕӖӗӘәӚӛӜӝӞӟӠӡӢӣӤӥӦӧӨөӪӫӮӯӰӱӲӳӴӵӸӹ


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: Четверг, 04 Октябрь, 2018 01:41 

Зарегистрирован: Понедельник, 11 Сентябрь, 2017 13:23
Сообщения: 496
Прочитал ещё раз ГОСТ 16876-71 - он определяет транслитерацию русского, украинского, белорусского, болгарского, монгольского, сербско-хорватского и македонского языков, все они вроде как обратимы (посмотрел бегло, но по смыслу видно, что обратимость подразумевалась) и совместимы между собой (разные начертания кодируются по разному, знать язык для раскодировки не нужно). q,x,w не заняты. Вероятно, на этом следует остановиться, т.е. взять этот стандарт, добавить q и jq, xL, xNNNNx, а w останется про запас.

Для сравнения, предложенный Борисом ГОСТ 7.79-2000 использует знаки препинания для кодирования 4 букв, а ГОСТ
Р 52535.1-2006 кодирует я как ia, т.е. "я" и "иа" в нём неразличиы. Может быть, он годится для того, чтобы искажённо передавать звучание русской речи, но для передачи русской письменности он абсолютно непригоден. Такой вот write-only language.

Славно, что Comdiv сознался, что использует свой обратимый транслит, ещё один мне прислали на linux.org.ru. Таким образом, включая меня и не считая Советский Союз, получилось до 4 разных обратимых транслита (я не проверял авторов на идентичность, хотя это можно проверить, сравнив их транслиты. 3 точно отличаются, Comdiv свой транслит не представил). То, что люди переизобретают обратимый транслит снова и снова, доказывает актуальность данной задачи.


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: Четверг, 04 Октябрь, 2018 10:29 

Зарегистрирован: Четверг, 08 Май, 2008 19:13
Сообщения: 863
Откуда: Киев
budden писал(а):
Славно, что Comdiv сознался, что использует свой обратимый транслит
Сознался под пытками? Вы умеете правильно подбирать слова.

Цитата:
То, что люди переизобретают обратимый транслит снова и снова, доказывает актуальность данной задачи.
В моём случае изобретения не было. Это просто код перевода русских идентификаторов из Оберона в Си, который я сделал до того, как узнал, что в Си поддерживается кириллица - чистосердечное признание. Его написание заняло меньше времени, чем чтение этой переписки. После того, как я прочитал приложение D стандарта C, естественно, сделал нормальный перевод, но эрзац-транслитерацию всё же оставил, потому что пожалел свои труды. Со временем либо доработаю, либо выкину. Пока не решил. Проблема ещё и в том, что транслитерация не подходит и тогда, когда есть ограничение на длину идентификатора, а в Си оно есть.

В будущем я, вообще, планирую отвязать понятие идентификатора от использования только алфавита, цифр и знака подчёркивания. Такая потребность возникла уже давно - задолго до того, как я воплотил экспериментальную поддержку кириллицы в разрабатываемом трансляторе.


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: Четверг, 04 Октябрь, 2018 13:17 

Зарегистрирован: Понедельник, 11 Сентябрь, 2017 13:23
Сообщения: 496
честно сказать, меня изначально бесило, что мне дают такие идиотские возражения - ведь ясно же, что обратимый транслит нужен. Т.е. я потерял массу времени на эти возражения. Но пенять не на кого. Только сейчас я нашёл то место, куда надо было сразу заглянуть: переводы документов. Цитата с какого-то форума:
Цитата:
Кто сталкивался? Кто знает? Что такое ISO-R9-Norm?
Встретилось в списке документов
2) Inlandspass, mit vollständiger Kopie auch leeren Seiten,mit deutscher Übersetzung nach ISO-R9-Norm
3) Geburtsurkunde, mit deutscher Übersetzung nach ISO-R9-Norm
Спасибо заранее!

Если бы я это сразу написал, никому бы в голову не пришло оспаривать нужность транслита, ну или таких людей можно было бы сразу из разговора вычёркивать. Ну ничего, лучше поздно, чем никогда. В этом смысле ComDiv был прав - даже самые непробиваемые оппоненты иногда полезны.


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: Четверг, 04 Октябрь, 2018 13:19 

Зарегистрирован: Понедельник, 11 Сентябрь, 2017 13:23
Сообщения: 496
Comdiv писал(а):
budden писал(а):
Славно, что Comdiv сознался, что использует свой обратимый транслит
Сознался под пытками? Вы умеете правильно подбирать слова.
Стараюсь. (offtopic: Бросайте Си. Используйте КП)


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: Четверг, 04 Октябрь, 2018 13:45 

Зарегистрирован: Понедельник, 11 Сентябрь, 2017 13:23
Сообщения: 496
Цитата:

Практика показывает, что большинство деловых поисковых задач в Интернет в той или иной степени связано с поиском имен собственных - названий компаний и организаций, всевозможных стандартов, оборудования и т.п. Во многих поисковых ситуациях, которые, казалось бы, не имеют прямого отношения к именам собственным, привлечение последних обеспечивает наибольшую результативность.

Названия имеющие национальное происхождение прописываются средствами латинской графики. Трудно добиться взаимной однозначности такого перевода в прямом и обратном направлениях без разработки жестких стандартов. В мире хорошо известны по, которыми широко пользуются в алфавитных каталогах иностранной литературы. Имена в Интернет дают не специалисты в области транслитерации языков всех континентов из одной графики в другую, хорошо знающих стандарты ИСО ( http://www.iso.ch ), разработчики сайтов, что приводит к стихийному размыванию стандартов и появлению реальных проблем при поиске.

При использовании русских наименованиях URL адресах, то от стандарта ISO-9-1986 -(E)/ISO/TC 46 по транслитерации знаков славянской кириллицы знаками латинского алфавита наблюдаются заметные отклонения. Существование нескольких русских кодировок типа для обмена почтовыми сообщениями, англоязычное происхождение самого Интернет, а также доминирование английского языка над другими в образовательной системе, определяют тенденции таких отклонений.

Источник
Как бы тоже очевидно. В этой истории я всё больше напоминаю себе собачку: всё понимает, а сказать не может. Но теперь моя аргументация действительно начинает становиться более-менее сносной.


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: Четверг, 04 Октябрь, 2018 18:45 

Зарегистрирован: Четверг, 08 Май, 2008 19:13
Сообщения: 863
Откуда: Киев
budden писал(а):
Стараюсь. (offtopic: Бросайте Си. Используйте КП)
Плохо стараетесь.
Так я и использую Oberon. C, Java и, в перспективе, другие платформы преимущественно в кодогенерации, а не в исходном коде. КП тоже добавлю, чтобы можно было конвертировать исходники.


Вернуться к началу
 Профиль  
 
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 42 ]  На страницу Пред.  1, 2, 3  След.

Часовой пояс: UTC + 3 часа


Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 3


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Вся информация, размещаемая участниками на конференции (тексты сообщений, вложения и пр.) © 2005-2019, участники конференции «OberonCore», если специально не оговорено иное.
Администрация не несет ответственности за мнения, стиль и достоверность высказываний участников, равно как и за безопасность материалов, предоставляемых участниками во вложениях.
Без разрешения участников и ссылки на конференцию «OberonCore» любое воспроизведение и/или копирование высказываний полностью и/или по частям запрещено.
Powered by phpBB® Forum Software © phpBB Group
Русская поддержка phpBB