BM25 היא פונקציית דירוג המשמשת באחזור מידע (IR) כדי לדרג מסמכים על סמך הרלוונטיות שלהם לשאילתת המשתמש. הוא פותח על ידי סטיבן רוברטסון ואחרים באוניברסיטת קיימברידג' ונקרא על שם מחבריו: רוברטסון, ספרק ג'ונס וקיס. BM25 נמצא בשימוש נרחב במנועי חיפוש, כולל גוגל, לדירוג מסמכים בתגובה לשאילתות משתמשים.
פונקציית הדירוג פועלת על ידי חישוב ניקוד עבור כל מסמך המייצג את הרלוונטיות שלו לשאילתה של משתמש. הציון מבוסס על מספר גורמים, ביניהם תדירות מונחי השאילתה במסמך, אורך המסמך ואורך ממוצע של מסמכים באוסף. BM25 משתמש במודל סטטיסטי כדי לחשב את הגורמים הללו ולהפיק ציון סופי שניתן להשתמש בו כדי לדרג את המסמכים.
BM25 נחשבת לאחת מפונקציות הדירוג היעילות והנפוצות ביותר ב-IR ולעתים קרובות מושווה לטובה לאלגוריתמי דירוג אחרים כגון tf-idf ודמיון קוסינוס.
דוגמא לתפקוד הפונקציה:
הנה דוגמה פשוטה להדגמת הערך של BM25 בדירוג מאמרים:
נניח שיש לנו אוסף של שלושה מאמרים:
מאמר 1: "איך לאלף כלב"
מאמר 2: "היתרונות של להחזיק כלב"
מאמר 3: "איך לטפל בכלב שלך"
ושאילתת משתמש: "איך לטפל בכלב"
כדי לדרג מאמרים אלו, נחשב ציון עבור כל מאמר על סמך הרלוונטיות שלו לשאילתת המשתמש. הנה גרסה פשוטה של חישוב BM25:
BM25 ציון עבור סעיף 1 = (k1 + 1) * (תדירות של "איך לטפל בכלב" במאמר 1 / (תדירות של "איך לטפל בכלב" במאמר 1 + k1 * (1 – b + b * (אורך מאמר 1 / אורך ממוצע של מאמרים באוסף))))
BM25 ציון עבור סעיף 2 = (k1 + 1) * (תדירות של "איך לטפל בכלב" במאמר 2 / (תדירות של "איך לטפל בכלב" במאמר 2 + k1 * (1 – ב + b * (אורך מאמר 2 / אורך ממוצע של מאמרים באוסף))))
BM25 ציון עבור סעיף 3 = (k1 + 1) * (תדירות של "איך לטפל בכלב" במאמר 3 / (תדירות של "איך לטפל בכלב" במאמר 3 + k1 * (1 – ב + b * (אורך מאמר 3 / אורך ממוצע של מאמרים באוסף))))
בהנחה ששכיחות מונחי השאילתה במאמרים ואורך המאמרים ידועים, נוכל לחשב את ציוני ה-BM25 ולדרג את המאמרים בהתאם. בדוגמה זו, סביר להניח שלסעיף 3, "איך לטפל בכלב שלך", יהיה ציון BM25 הגבוה ביותר והוא ידורג ראשון, אחריו סעיף 1 ולאחר מכן סעיף 2.
דוגמה זו מדגימה כיצד ניתן להשתמש ב-BM25 כדי לדרג מאמרים על סמך הרלוונטיות שלהם לשאילתה של משתמש. על ידי התחשבות במספר גורמים כגון תדירות מונחי השאילתה במסמך, אורך המסמך והאורך הממוצע של מסמכים באוסף, BM25 יכולה לספק דירוג מדויק ורלוונטי יותר של מאמרים בתגובה לשאילתה של המשתמש .
המידע הזה נשמע לכם יותר מדי מדעי? לא להילחץ אנחנו כאן על מנת לעזור לכם! קידום אתרים זה התחום שלנו, פנו אלינו וקבלו מידע נרחב או ייעוץ.