К основному контенту

Кодировка имеет значение

Мотиваируясь тем, что сайт потерял свои позиции при переходе с кодировки windows 1251 на UTF-8, я задался вопросом а не имеет-ли значение регистр и вообще кодировка.
Оказалось что регистр и кодировка взаимосвязаны между собой, и возможно первый символ заголовка тоже.
Опытным путем выяснилось, что для поисковиков имеет значение регистр:


сайт на UTF-8.
Вводил русское слово в различных браузерах  с (1) маленькой и (2) большой буквы, на латинской раскладке с (3) маленькой, на латинской раскладке с (4) большой.
опера:
3е / 3е / нет / нет
мозила:
1е / 3е / нет / нет
internet explorer
3е / 3е / нет /нет

уступает сайту в котором используются кавычки quot; и charset=windows-1251
в моем случае используются угольные кавычки. интересный результат дал браузер мазила.

в результатах запроса русского слова написанного на латинской раскладке сайтов на UTF-8 просто нет. есть только windows-1251,
В поисковых системах есть механизм который  предлагает корректный запрос, тоесть если не находит слова с на данной раскладке он переводит в другую раскладку и ищет в русских индексах

далее меня заинтересовал факт выдачи запросов только сайтов на charset=windows-1251,
это значит что робот индексирования различает кодировку.
русские слова хранятся в индексе с кодировкой windows-1251,
это важно.
сайты без указания кодировок более правильно анализируются поисковыми системами,
так как алгоритмы сортировки кодировок различный.

еще не понятно какую кодировку смотрит робот, кодировку в HTML или кодировку которую выдает сервер, я думаю что он вообще не смотрит HTML метатег кодировки.

Вот пример заголовока ответа сервера без метотегов:

200 OK
Connection: close
Date: Fri, 21 May 2010 06:42:08 GMT
Server: Apache/1.3.37 (Unix)
Content-Length: 21803
Content-Type: text/html; charset=UTF-8

Во всех браузерах корректно отображается русские слова



Итог:
лучше не указывать  в страницах кодировку charset вообще.

Комментарии

Популярные сообщения из этого блога

Русская кодировка ASCII, ANSI и UTF-8, windows-1251 (CR, LF, CR LF)

Что нужно знать: Encoding – это кодировка для вывода данных (UTF-8, windows-1251) Line Endings – формат строк (CR, LF, CR LF) Byte Order Marker (BOM) – системная область в начале файла. LF – используется в UNIX вместе с кодировками UTF-8 или windows-1251 CR – используется в MAC системах. на сервере лучше использовать кодировку ANSI это и есть кириллица (Windows), символ занимает 1 байт (оптимизированный ASCII) UTF-8 может содержать заголовок BOM который содержит системную информацию, символ занимает 2 байта wysiwyg редакторы добавляют метатег в html страницы с кодировкой кирилицы. это не очень хорошо, если сервер настроен на UTF-8, в этой кодировке корректно работают некоторые библиотеки приложения и прочие

Как узнать время включения/выключения компьютера.

Способов масса, одни из них: в журнале событий windows  выбрать eventlog, теперь в таблице легко найти события с кодами: 6005 - событие остановки eventlog - компьютер выключился 6006 - событие запуска eventlog - компьютер включился обычно эта служба запускается и остонавли во время включения/выключения компьютера, и пишет в журнале событий системы код события и время.

Извлечение, редактирование и публикация файлов в SharePoint

Теги: Sharepoint в sharepoint designer на ленте за извлечение / редактирование или отмену извлечений отвечают кнопки  в браузере это выглядит по другому   файл извлечен и пока редактируется пользователем   страница с индивидуальным дизайном возврат страницы с индивидуальным дизайном к определению узла (к первоначальному виду не изменяя веб-части) Возврат извлеченной страницы с отменой всех внесенных изменений Изначально извлечение было создано для исключения конфликтов при редактировании файлов. Например если один пользователь открыл документ и редактирует, то второй не сможет открыть пока первый не вернет документ на место. Простыми словами извлечение значит, что пользователь забирает документ для редактирования. И возвращает после окончания редактирования. Само редактирование может выполняться и без подключения к сети, документ хранится в черновиках моих документов. В официальной документации сказано: Извлечение файлов позволяет избежать ситуации, когда несколь