среда, 11 декабря 2019 г.

Федот, да не тот: небольшой курьёз в анонсе BERT для русскоязычной выдачи

9 декабря 2019 года Google анонсировал ввод алгоритма BERT для выдачи на русском языке. С одним из примеров, призванном продемонстрировать улучшение поисковой выдачи с использованием технологии BERT, произошел курьёзный момент. Речь идет о запросе «Может ли преподаватель выгнать студента с занятия?», по поводу которого объясняется, что с помощью алгоритма BERT Google стал лучше понимать его смысл и теперь отвечает правильно, именно про «выгнать», в то время как раньше отвечал про «не пустить».
В качестве примера приводится ответ из так называемого «Выделенного описания» («Featured snippets»), в сниппете которого хорошо видно, что речь, хоть и идет о «выгнать», но не про студентов, а про школьников:
 
Забавно, что этот же документ находится и на первом месте органической выдачи с уже вполне корректным с формальной точки зрения сниппетом (т.к. в документе содержатся ответы как про школьников, так и про студентов):

Получается, что демонстрируя достижения алгоритма BERT в понимании контекста запроса, сотрудники Google параллельно продемонстрировали его несостоятельность в формировании сниппета для выделенного описания. 

Share this


5 Comments
avatar

Тут, по-моему, вообще по такому запросу не нужно показывать расширенное описание, так как ответ неоднозначный.
Если читать результаты поиска, то 2 точки зрения: можно выгнать на основании устава образовательного учреждения и нельзя по закону об образовании, который, к тому-же ссылается на устав и указывает, что преподаватель вправе выбирать педагогически обоснованные методы обучения, воспитания http://www.consultant.ru/document/cons_doc_LAW_140174/82d348bfa91f54b262e7b00b71659c9f5c69e2ad/
Т.е., я, как пользователь, так и не нашел однозначного ответа.

Reply
avatar

Павел, согласен насчет целесообразности показа выделенного описания в случае, когда нет однозначного ответа на вопрос.

Reply
avatar

Сергей, думаю, этот неоднозначный нулевой ответ - это результат того, что они сначала обучили алгоритм на английской базе, а потом размножили на другие языки. По-моему, это не очень правильное решение, так как у каждого языка есть свои особенности перевода и значения слов.
Bert первоначально анонсировался для решения задач перевода текста, с чем нейронные сети лучше справляются. Если посмотреть перевод слова ученик на английском в гугл переводчике, то он выдаст student, студент по-английски тоже student. Вот, видимо, алгоритм контекст и не осмыслил до конца.
https://drive.google.com/file/d/197C6SLJfudJyKl3wbEL1flXu_mR8CDf7/view?usp=drivesdk
https://drive.google.com/file/d/18xW-0kKnovgS-FDNkFC0cSTHI9165JWo/view?usp=drivesdk
Интересно, что если по-английски задать этот запрос, то нулевого ответа нет https://drive.google.com/file/d/18pWzZo88hz5_CCXrNVKsB9e_C0Ab-Pru/view?usp=drivesdk

Reply
avatar

Ну, я не думаю, что тут дело в переводе. Ответ-то на странице есть, хоть это и субъективное мнение пользователя сервиса ответов. Просто сниппетовщик выделенных сниппетов сработал криво.

Reply
avatar

Я имею в виду ответ именно про студентов.

Reply

Blog Archive

Технологии Blogger.