Компания Turbit опубликовала исследование, посвященное Фундаментальная проблема в работе с ветроэнергетикой: получение надежных ответов от Большие наборы повторяющихся технических отчетов. Статья «PluriHop – исчерпывающая, Чувствительный к отзыву QA по сравнению с корпусами, богатыми дистракторами», демонстрирует систему искусственного интеллекта что позволяет достичь относительного улучшения до 52% по сравнению со стандартными подходами в ответах точность, хотя и абсолютная производительность, указывает на значительные возможности для продолжения исследование.
Исследование, проведенное Миколасом
Свейстрис и д-р Рихард Кунерт из компании Turbit Systems GmbH представляют и
формализует новую категорию вопросов, требующих полной информации от
целые наборы документов — если отсутствует один релевантный отчет, что приводит к
Неправильный ответ. Результаты исследования теперь доступны на arXiv.
Текущее поколение с улучшением извлечения
Системы (RAG) обычно извлекают 10-20 документов и останавливаются. Этот подход работает
когда вопросы имеют четкие точки остановки, но завершаются ошибкой, когда каждый документ в
Корпус может содержать актуальную информацию. В результате получаются неполные ответы
на которые операторы не могут полагаться при принятии операционных или финансовых решений.
Исследовательская группа придумала этот термин
«Вопросы с множественным числом» для описания запросов, которые:
Эта категория отличается от многоскачковых
вопросы (где доказательства охватывают несколько документов) и задачи на обобщение (где
приблизительные ответы приемлемы). Вопросы о множественных прыжках распространены в
Отрасли, которые генерируют повторяющиеся отчеты: журналы технического обслуживания, соответствие требованиям
документы, результаты лабораторных исследований и протоколы осмотров.
Чтобы изучить эту проблему, команда создала
PluriHopWIND: 48 вопросов на основе 191 реального технического отчета от ветра
операции, включая отчеты об анализе масла, осмотр турбин и техническое обслуживание
журналы на немецком и английском языках.
Ключевая характеристика набора данных — высокая
повторяемость. Ветровые операции генерируют тысячи подобных отчетов — ежемесячно
проверки по одному и тому же шаблону, периодическая сервисная документация и
Стандартизированные результаты испытаний. Это создает значительные объемы семантического
Похожий, но нерелевантный материал, который усложняет поиск.
Использование метрики повторяемости на основе
сходство между документами, исследование показывает, что PluriHopWIND составляет 8-40%
Более повторяющийся, чем существующие многоскачковые тесты. Этот более высокий отвлекающий фактор
плотность лучше отражает практические проблемы, связанные с ответами на вопросы о
оперативные данные.
В статье представлен PluriHopRAG,
Архитектура извлечения, разработанная для ответов на вопросы, чувствительные к воспоминанию. Тем
Подход: проверьте все документы, но отфильтруйте нерелевантный материал до этого
Вывод дорогостоящей языковой модели.
В системе реализованы два метода:
Разрывы декомпозиции запросов на уровне документа
сложные запросы в подвопросы, специфичные для документа. Вместо того, чтобы спрашивать «Имеет»
повреждение лезвия снижается?» по всем документам система спрашивает каждый
отчет: «Распространяется ли это на соответствующую турбину?», «Что такое инспекция
дата?» и «Какие повреждения лезвия были зафиксированы?» Это соответствует тому, как информация
На самом деле существует в оперативных сводках.
Документ по оценкам фильтрации кросс-энкодеров
Релевантность с использованием облегченной модели перед полным рассуждением языковой модели
Возникает. Это снижает вычислительные затраты при сохранении высокого уровня запоминаемости
соответствующие документы.
В бенчмарке PluriHopWIND, PluriHopRAG
достигнуто относительное улучшение показателей F1 на 18-52% по сравнению со стандартным RAG
в зависимости от базовой языковой модели. Он также превзошел GraphRAG
и мультимодальные системы RAG.
Данное исследование проводилось в рамках
Разработка Turbit Assistant — системы искусственного интеллекта, которая извлекает
Получение информации из технических отчетов и автоматизация рутинного анализа. Методы
продемонстрированные в PluriHopRAG напрямую улучшают возможности Ассистента по предоставлению
Достоверные ответы из эксплуатационной документации.
В документе сообщается о том, что современные подходы,
включая PluriHopRAG, достигают не более 40-47% баллов F1 на
репер. В то время как PluriHopRAG демонстрирует значительное улучшение по сравнению с базовым и
конкурирующих методов, авторы отмечают, что это оставляет значительное пространство для будущего
Улучшения. Относительно скромная абсолютная производительность выделяет
Сложность задачи на вопрос-ответ Pluri-hop и указывает на то, что она остается
активная область, требующая продолжения исследований.
В исследовании формализованы вопросы множественного числа
как отдельная категория, требующая других стратегий поиска, чем
Обычные задачи с несколькими переходами или суммированием. Бенчмарк PluriHopWIND с
Его высокая плотность дистракторов, основанная на реальных данных ветроэнергетики, экспонирует ток
ограничения в системах вопросов и ответов ИИ при работе с повторяющимися отчетами
корпуса.
Архитектура PluriHopRAG демонстрирует
Этот исчерпывающий поиск в сочетании с эффективной фильтрацией может обеспечить
Ощутимые улучшения по сравнению со стандартными подходами. Тем не менее, абсолютная производительность
уровни указывают на то, что остаются значительные возможности для совершенствования методов в этом направлении
домен. Для отраслей, построенных на основе повторяющихся данных отчетов, включая ветроэнергетику,
здравоохранение, финансы и комплаенс — эти результаты обеспечивают основу для
создание более надежных систем искусственного интеллекта при одновременном признании сложности
вызов.
По мере роста ветропарка и эксплуатационных данных
Объемы увеличиваются, решение проблемы вопрос-ответов из множественного числа становится
Все более актуальным для поддержания надежной и эффективной работы.
Читать
полный текст статьи: PluriHop – Исчерпывающий, чувствительный к запоминанию QA вместо Distract-Rich
Корпуса Миколаса Свейстриса и доктора Ричарда
Kunert, доступно на arXiv.