do not use results from junk filter if we have less than 50 positive classifications to base the decision on

useful for new accounts. we don't want to start rejecting incoming messages for having a score near 0.5 because of too little training material. we err on the side of allowing messages in. the user will mark them as junk, training the filter. once enough non-junk has come in, we'll start the actual filtering. for issue #64 by x8x, and i've also seen this concern on matrix
2025-07-14 18:14:38 +03:00 · 2025-01-23 22:55:50 +01:00
parent 8fac9f862b
commit 6aa2139a54
6 changed files with 93 additions and 68 deletions
--- a/smtpserver/analyze.go
+++ b/smtpserver/analyze.go
@ -528,7 +528,7 @@ func analyze(ctx context.Context, log mlog.Log, resolver dns.Resolver, d deliver
 			err := f.Close()
 			log.Check(err, "closing junkfilter")
 		}()
-		contentProb, _, hams, spams, err := f.ClassifyMessageReader(ctx, store.FileMsgReader(d.m.MsgPrefix, d.dataFile), d.m.Size)
+		result, err := f.ClassifyMessageReader(ctx, store.FileMsgReader(d.m.MsgPrefix, d.dataFile), d.m.Size)
 		if err != nil {
 			log.Errorx("testing for spam", err)
 			addReasonText("classify message error: %v", err)
@ -587,11 +587,12 @@ func analyze(ctx context.Context, log mlog.Log, resolver dns.Resolver, d deliver
 			reason = reasonJunkContentStrict
 			thresholdRemark = " (stricter due to recipient address not in to/cc header)"
 		}
-		accept = contentProb <= threshold
-		junkSubjectpass = contentProb < threshold-0.2
+		accept = result.Probability <= threshold || (!result.Significant && !suspiciousIPrevFail)
+		junkSubjectpass = result.Probability < threshold-0.2
 		log.Info("content analyzed",
 			slog.Bool("accept", accept),
-			slog.Float64("contentprob", contentProb),
+			slog.Float64("contentprob", result.Probability),
+			slog.Bool("contentsignificant", result.Significant),
 			slog.Bool("subjectpass", junkSubjectpass))

 		s := "content: "
@ -600,9 +601,12 @@ func analyze(ctx context.Context, log mlog.Log, resolver dns.Resolver, d deliver
 		} else {
 			s += "junk"
 		}
-		s += fmt.Sprintf(", spamscore %.2f, threshold %.2f%s", contentProb, threshold, thresholdRemark)
+		if !result.Significant {
+			s += " (not significant)"
+		}
+		s += fmt.Sprintf(", spamscore %.2f, threshold %.2f%s", result.Probability, threshold, thresholdRemark)
 		s += " (ham words: "
-		for i, w := range hams {
+		for i, w := range result.Hams {
 			if i > 0 {
 				s += ", "
 			}
@ -613,7 +617,7 @@ func analyze(ctx context.Context, log mlog.Log, resolver dns.Resolver, d deliver
 			s += fmt.Sprintf("%s %.3f", word, w.Score)
 		}
 		s += "), (spam words: "
-		for i, w := range spams {
+		for i, w := range result.Spams {
 			if i > 0 {
 				s += ", "
 			}