Мотиваируясь тем, что сайт потерял свои позиции при переходе с кодировки windows 1251 на UTF-8, я задался вопросом а не имеет-ли значение регистр и вообще кодировка.
Оказалось что регистр и кодировка взаимосвязаны между собой, и возможно первый символ заголовка тоже.
Опытным путем выяснилось, что для поисковиков имеет значение регистр:
сайт на UTF-8.
Вводил русское слово в различных браузерах с (1) маленькой и (2) большой буквы, на латинской раскладке с (3) маленькой, на латинской раскладке с (4) большой.
опера:
3е / 3е / нет / нет
мозила:
1е / 3е / нет / нет
internet explorer
3е / 3е / нет /нет
уступает сайту в котором используются кавычки quot; и charset=windows-1251
в моем случае используются угольные кавычки. интересный результат дал браузер мазила.
в результатах запроса русского слова написанного на латинской раскладке сайтов на UTF-8 просто нет. есть только windows-1251,
В поисковых системах есть механизм который предлагает корректный запрос, тоесть если не находит слова с на данной раскладке он переводит в другую раскладку и ищет в русских индексах
далее меня заинтересовал факт выдачи запросов только сайтов на charset=windows-1251,
это значит что робот индексирования различает кодировку.
русские слова хранятся в индексе с кодировкой windows-1251,
это важно.
сайты без указания кодировок более правильно анализируются поисковыми системами,
так как алгоритмы сортировки кодировок различный.
еще не понятно какую кодировку смотрит робот, кодировку в HTML или кодировку которую выдает сервер, я думаю что он вообще не смотрит HTML метатег кодировки.
Вот пример заголовока ответа сервера без метотегов:
200 OK
Connection: close
Date: Fri, 21 May 2010 06:42:08 GMT
Server: Apache/1.3.37 (Unix)
Content-Length: 21803
Content-Type: text/html; charset=UTF-8
Во всех браузерах корректно отображается русские слова
Итог:
лучше не указывать в страницах кодировку charset вообще.
Оказалось что регистр и кодировка взаимосвязаны между собой, и возможно первый символ заголовка тоже.
Опытным путем выяснилось, что для поисковиков имеет значение регистр:
сайт на UTF-8.
Вводил русское слово в различных браузерах с (1) маленькой и (2) большой буквы, на латинской раскладке с (3) маленькой, на латинской раскладке с (4) большой.
опера:
3е / 3е / нет / нет
мозила:
1е / 3е / нет / нет
internet explorer
3е / 3е / нет /нет
уступает сайту в котором используются кавычки quot; и charset=windows-1251
в моем случае используются угольные кавычки. интересный результат дал браузер мазила.
в результатах запроса русского слова написанного на латинской раскладке сайтов на UTF-8 просто нет. есть только windows-1251,
В поисковых системах есть механизм который предлагает корректный запрос, тоесть если не находит слова с на данной раскладке он переводит в другую раскладку и ищет в русских индексах
далее меня заинтересовал факт выдачи запросов только сайтов на charset=windows-1251,
это значит что робот индексирования различает кодировку.
русские слова хранятся в индексе с кодировкой windows-1251,
это важно.
сайты без указания кодировок более правильно анализируются поисковыми системами,
так как алгоритмы сортировки кодировок различный.
еще не понятно какую кодировку смотрит робот, кодировку в HTML или кодировку которую выдает сервер, я думаю что он вообще не смотрит HTML метатег кодировки.
Вот пример заголовока ответа сервера без метотегов:
200 OK
Connection: close
Date: Fri, 21 May 2010 06:42:08 GMT
Server: Apache/1.3.37 (Unix)
Content-Length: 21803
Content-Type: text/html; charset=UTF-8
Во всех браузерах корректно отображается русские слова
Итог:
лучше не указывать в страницах кодировку charset вообще.
Комментарии
Отправить комментарий