CL HCOct 25, 2023

Physician Detection of Clinical Harm in Machine Translation: Quality Estimation Aids in Reliance and Backtranslation Identifies Critical Errors

Nikita Mehandru, Sweta Agrawal, Yimin Xiao, Elaine C Khoong, Ge Gao, Marine Carpuat, Niloufar Salehi

arXiv:2310.16924v122.2138 citationsh-index: 36Has Code

Originality Incremental advance

AI Analysis

This addresses the challenge of safe machine translation use in healthcare, providing practical tools for physicians, though it is incremental as it builds on existing quality estimation research.

The study tackled the problem of physicians' reliance on machine translation in high-stakes medical settings by evaluating quality estimation and backtranslation interventions, finding that quality estimation improved appropriate reliance while backtranslation helped detect more clinically harmful errors.

A major challenge in the practical use of Machine Translation (MT) is that users lack guidance to make informed decisions about when to rely on outputs. Progress in quality estimation research provides techniques to automatically assess MT quality, but these techniques have primarily been evaluated in vitro by comparison against human judgments outside of a specific context of use. This paper evaluates quality estimation feedback in vivo with a human study simulating decision-making in high-stakes medical settings. Using Emergency Department discharge instructions, we study how interventions based on quality estimation versus backtranslation assist physicians in deciding whether to show MT outputs to a patient. We find that quality estimation improves appropriate reliance on MT, but backtranslation helps physicians detect more clinically harmful errors that QE alone often misses.

View on arXiv PDF Code

Similar