Samsung wprowadza TRUEBench: porównywarkę rzeczywistej produktywności sztucznej inteligencji

27/09/2025 admhalohalo

Autorska porównywarka opracowana przez dział Samsung Research obsługuje wielojęzyczne scenariusze produktywności, wypełniając luki w istniejących testach sztucznej inteligencji

Samsung prezentuje porównywarkę TRUEBench (Trustworthy Real-world Usage Evaluation Benchmark) opracowaną przez dział Samsung Research w celu prowadzenia ocen produktywności sztucznej inteligencji.

Porównywarka zawiera kompleksowy zestaw wskaźników do analizy sprawności dużych modeli językowych (LLM) w rzeczywistych zastosowaniach służących poprawie produktywności w miejscu pracy. Uwzględnia ona różne scenariusze dialogowe i warunki wielojęzyczne, by wydać rzetelną ocenę.

Opierając się na wykorzystaniu sztucznej inteligencji w samej firmie Samsung w celu zwiększania wydajności, TRUEBench ocenia typowe zadania realizowane w firmach, takie jak generowanie treści, analiza danych, streszczanie i tłumaczenie tekstów, w podziale na 10 kategorii i 46 podkategorii. Porównywarka prezentuje wiarygodną punktację dzięki automatycznej ocenie opartej na sztucznej inteligencji z kryteriami opracowanymi i doskonalonymi wspólnie przez AI i zespół specjalistów.

– “Samsung Research wnosi do przedsięwzięcia przewagę konkurencyjną wynikającą z głębokiej wiedzy specjalistycznej i praktycznego doświadczenia w sztucznej inteligencji” – powiedział Paul (Kyungwhoon) Cheun, Dyrektor ds. Technologii w dziale Digital Experience spółki Samsung Electronics i Dyrektor Samsung Research. – “Oczekujemy, że TRUEBench ustanowi standardy oceny produktywności sztucznej inteligencji i umocni pozycję Samsung jako lidera technologicznego”.

Wraz z rosnącą popularnością wykorzystania AI w przedsiębiorstwach wzrosło zapotrzebowanie na narzędzia do pomiaru produktywności dużych modeli językowych. Istniejące porównywarki mierzą jednak głównie ogólną wydajność, są w większości skoncentrowane na języku angielskim i ograniczają się do odpowiedzi na pojedyncze pytania, nie uwzględniając wcześniejszego kontekstu. Ogranicza to ich zdolność do uwzględniania rzeczywistych warunków środowisk pracy.

By zaradzić tym ograniczeniom, do porównywarki TRUEBench zaimplementowano łącznie 2485 zestawów testowych w 10 kategoriach i 12 językach[1], z uwzględnieniem scenariuszy wielojęzycznych. Zestawy testowe sprawdzają, jakie rozwiązania modele AI mogą faktycznie zaproponować, a dział Samsung Research zastosował zestawy testowe o długości od 8 do ponad 20 tysięcy znaków, odzwierciedlające zadania od prostych zapytań po streszczenia długich dokumentów.

Przy ewaluacji wydajności modeli AI ważne jest posiadanie jasnych kryteriów oceny poprawności odpowiedzi. W rzeczywistych sytuacjach nie wszystkie intencje użytkowników mogą być wyraźnie opisane w instrukcjach. Porównywarka TRUEBench została zaprojektowana tak, by umożliwić realistyczną ocenę, biorąc pod uwagę nie tylko precyzję odpowiedzi, ale także szczegółowe warunki, za którymi kryją się potrzeby użytkowników. Dział Samsung Research zweryfikował elementy oceny w trybie interakcji między ludźmi a sztuczną inteligencją. Początkowe kryteria opracowywane są przez zespół specjalistów, a następnie sztuczna inteligencja weryfikuje je pod kątem błędów, sprzeczności i nadmiernych ograniczeń. Potem kryteria są ponownie udoskonalane, a cykl ten powtarza się, prowadząc do coraz bardziej precyzyjnych standardów oceny. Na podstawie sprawdzonych kryteriów przeprowadzana jest automatyczna ocena modeli AI, co minimalizuje subiektywne uprzedzenia i zapewnia spójność. Dodatkowo model musi spełnić wszystkie warunki, by pomyślnie zaliczył test. Umożliwia to bardziej szczegółową i precyzyjną ocenę realizacji wszystkich zadań.

Próbki danych i tabele wyników z porównywarki są dostępne na globalnej platformie open source o nazwie „Hugging Face”, która pozwala użytkownikom kompleksowo porównać sprawność do pięciu modeli i zobaczyć wyniki na łatwych do zinterpretowania wykresach. Ponadto publikowane są dane o średniej długości odpowiedzi, co umożliwia jednoczesne porównanie zarówno efektywności, jak i sprawności procesu przetwarzania informacji. Szczegółowe wyjaśnienia można znaleźć na stronie TRUEBench Hugging Face: https://huggingface.co/spaces/SamsungResearch/TRUEBench.

[1] Języki angielski, chiński, francuski, hiszpański, japoński, koreański, niemiecki, polski, portugalski, rosyjski, wietnamski i włoski.

Dodaj komentarz Anuluj pisanie odpowiedzi