implement decoding charsets (other than ascii and utf-8) while reading textual message parts, and improve search

message.Part now has a ReaderUTF8OrBinary() along with the existing Reader(). the new function returns a reader of decoded content. we now use it in a few places, including search. we only support the charsets in golang.org/x/text/encoding/ianaindex. search has also been changed to not read the entire message in memory. instead, we make one 8k buffer for reading and search in that, and we keep the buffer around for all messages. saves quite some allocations when searching large mailboxes.
2025-07-12 17:44:35 +03:00 · 2023-07-28 22:15:23 +02:00
parent a31dfc573e
commit 01adad62b2
34 changed files with 157887 additions and 64 deletions
--- a/vendor/golang.org/x/text/encoding/japanese/all.go
+++ b/vendor/golang.org/x/text/encoding/japanese/all.go
@ -0,0 +1,12 @@
+// Copyright 2015 The Go Authors. All rights reserved.
+// Use of this source code is governed by a BSD-style
+// license that can be found in the LICENSE file.
+
+package japanese
+
+import (
+	"golang.org/x/text/encoding"
+)
+
+// All is a list of all defined encodings in this package.
+var All = []encoding.Encoding{EUCJP, ISO2022JP, ShiftJIS}
--- a/vendor/golang.org/x/text/encoding/japanese/eucjp.go
+++ b/vendor/golang.org/x/text/encoding/japanese/eucjp.go
@ -0,0 +1,225 @@
+// Copyright 2013 The Go Authors. All rights reserved.
+// Use of this source code is governed by a BSD-style
+// license that can be found in the LICENSE file.
+
+package japanese
+
+import (
+	"unicode/utf8"
+
+	"golang.org/x/text/encoding"
+	"golang.org/x/text/encoding/internal"
+	"golang.org/x/text/encoding/internal/identifier"
+	"golang.org/x/text/transform"
+)
+
+// EUCJP is the EUC-JP encoding.
+var EUCJP encoding.Encoding = &eucJP
+
+var eucJP = internal.Encoding{
+	&internal.SimpleEncoding{eucJPDecoder{}, eucJPEncoder{}},
+	"EUC-JP",
+	identifier.EUCPkdFmtJapanese,
+}
+
+type eucJPDecoder struct{ transform.NopResetter }
+
+// See https://encoding.spec.whatwg.org/#euc-jp-decoder.
+func (eucJPDecoder) Transform(dst, src []byte, atEOF bool) (nDst, nSrc int, err error) {
+	r, size := rune(0), 0
+loop:
+	for ; nSrc < len(src); nSrc += size {
+		switch c0 := src[nSrc]; {
+		case c0 < utf8.RuneSelf:
+			r, size = rune(c0), 1
+
+		case c0 == 0x8e:
+			if nSrc+1 >= len(src) {
+				if !atEOF {
+					err = transform.ErrShortSrc
+					break loop
+				}
+				r, size = utf8.RuneError, 1
+				break
+			}
+			c1 := src[nSrc+1]
+			switch {
+			case c1 < 0xa1:
+				r, size = utf8.RuneError, 1
+			case c1 > 0xdf:
+				r, size = utf8.RuneError, 2
+				if c1 == 0xff {
+					size = 1
+				}
+			default:
+				r, size = rune(c1)+(0xff61-0xa1), 2
+			}
+		case c0 == 0x8f:
+			if nSrc+2 >= len(src) {
+				if !atEOF {
+					err = transform.ErrShortSrc
+					break loop
+				}
+				r, size = utf8.RuneError, 1
+				if p := nSrc + 1; p < len(src) && 0xa1 <= src[p] && src[p] < 0xfe {
+					size = 2
+				}
+				break
+			}
+			c1 := src[nSrc+1]
+			if c1 < 0xa1 || 0xfe < c1 {
+				r, size = utf8.RuneError, 1
+				break
+			}
+			c2 := src[nSrc+2]
+			if c2 < 0xa1 || 0xfe < c2 {
+				r, size = utf8.RuneError, 2
+				break
+			}
+			r, size = utf8.RuneError, 3
+			if i := int(c1-0xa1)*94 + int(c2-0xa1); i < len(jis0212Decode) {
+				r = rune(jis0212Decode[i])
+				if r == 0 {
+					r = utf8.RuneError
+				}
+			}
+
+		case 0xa1 <= c0 && c0 <= 0xfe:
+			if nSrc+1 >= len(src) {
+				if !atEOF {
+					err = transform.ErrShortSrc
+					break loop
+				}
+				r, size = utf8.RuneError, 1
+				break
+			}
+			c1 := src[nSrc+1]
+			if c1 < 0xa1 || 0xfe < c1 {
+				r, size = utf8.RuneError, 1
+				break
+			}
+			r, size = utf8.RuneError, 2
+			if i := int(c0-0xa1)*94 + int(c1-0xa1); i < len(jis0208Decode) {
+				r = rune(jis0208Decode[i])
+				if r == 0 {
+					r = utf8.RuneError
+				}
+			}
+
+		default:
+			r, size = utf8.RuneError, 1
+		}
+
+		if nDst+utf8.RuneLen(r) > len(dst) {
+			err = transform.ErrShortDst
+			break loop
+		}
+		nDst += utf8.EncodeRune(dst[nDst:], r)
+	}
+	return nDst, nSrc, err
+}
+
+type eucJPEncoder struct{ transform.NopResetter }
+
+func (eucJPEncoder) Transform(dst, src []byte, atEOF bool) (nDst, nSrc int, err error) {
+	r, size := rune(0), 0
+	for ; nSrc < len(src); nSrc += size {
+		r = rune(src[nSrc])
+
+		// Decode a 1-byte rune.
+		if r < utf8.RuneSelf {
+			size = 1
+
+		} else {
+			// Decode a multi-byte rune.
+			r, size = utf8.DecodeRune(src[nSrc:])
+			if size == 1 {
+				// All valid runes of size 1 (those below utf8.RuneSelf) were
+				// handled above. We have invalid UTF-8 or we haven't seen the
+				// full character yet.
+				if !atEOF && !utf8.FullRune(src[nSrc:]) {
+					err = transform.ErrShortSrc
+					break
+				}
+			}
+
+			// func init checks that the switch covers all tables.
+			switch {
+			case encode0Low <= r && r < encode0High:
+				if r = rune(encode0[r-encode0Low]); r != 0 {
+					goto write2or3
+				}
+			case encode1Low <= r && r < encode1High:
+				if r = rune(encode1[r-encode1Low]); r != 0 {
+					goto write2or3
+				}
+			case encode2Low <= r && r < encode2High:
+				if r = rune(encode2[r-encode2Low]); r != 0 {
+					goto write2or3
+				}
+			case encode3Low <= r && r < encode3High:
+				if r = rune(encode3[r-encode3Low]); r != 0 {
+					goto write2or3
+				}
+			case encode4Low <= r && r < encode4High:
+				if r = rune(encode4[r-encode4Low]); r != 0 {
+					goto write2or3
+				}
+			case encode5Low <= r && r < encode5High:
+				if 0xff61 <= r && r < 0xffa0 {
+					goto write2
+				}
+				if r = rune(encode5[r-encode5Low]); r != 0 {
+					goto write2or3
+				}
+			}
+			err = internal.ErrASCIIReplacement
+			break
+		}
+
+		if nDst >= len(dst) {
+			err = transform.ErrShortDst
+			break
+		}
+		dst[nDst] = uint8(r)
+		nDst++
+		continue
+
+	write2or3:
+		if r>>tableShift == jis0208 {
+			if nDst+2 > len(dst) {
+				err = transform.ErrShortDst
+				break
+			}
+		} else {
+			if nDst+3 > len(dst) {
+				err = transform.ErrShortDst
+				break
+			}
+			dst[nDst] = 0x8f
+			nDst++
+		}
+		dst[nDst+0] = 0xa1 + uint8(r>>codeShift)&codeMask
+		dst[nDst+1] = 0xa1 + uint8(r)&codeMask
+		nDst += 2
+		continue
+
+	write2:
+		if nDst+2 > len(dst) {
+			err = transform.ErrShortDst
+			break
+		}
+		dst[nDst+0] = 0x8e
+		dst[nDst+1] = uint8(r - (0xff61 - 0xa1))
+		nDst += 2
+		continue
+	}
+	return nDst, nSrc, err
+}
+
+func init() {
+	// Check that the hard-coded encode switch covers all tables.
+	if numEncodeTables != 6 {
+		panic("bad numEncodeTables")
+	}
+}
--- a/vendor/golang.org/x/text/encoding/japanese/iso2022jp.go
+++ b/vendor/golang.org/x/text/encoding/japanese/iso2022jp.go
@ -0,0 +1,299 @@
+// Copyright 2013 The Go Authors. All rights reserved.
+// Use of this source code is governed by a BSD-style
+// license that can be found in the LICENSE file.
+
+package japanese
+
+import (
+	"unicode/utf8"
+
+	"golang.org/x/text/encoding"
+	"golang.org/x/text/encoding/internal"
+	"golang.org/x/text/encoding/internal/identifier"
+	"golang.org/x/text/transform"
+)
+
+// ISO2022JP is the ISO-2022-JP encoding.
+var ISO2022JP encoding.Encoding = &iso2022JP
+
+var iso2022JP = internal.Encoding{
+	internal.FuncEncoding{iso2022JPNewDecoder, iso2022JPNewEncoder},
+	"ISO-2022-JP",
+	identifier.ISO2022JP,
+}
+
+func iso2022JPNewDecoder() transform.Transformer {
+	return new(iso2022JPDecoder)
+}
+
+func iso2022JPNewEncoder() transform.Transformer {
+	return new(iso2022JPEncoder)
+}
+
+const (
+	asciiState = iota
+	katakanaState
+	jis0208State
+	jis0212State
+)
+
+const asciiEsc = 0x1b
+
+type iso2022JPDecoder int
+
+func (d *iso2022JPDecoder) Reset() {
+	*d = asciiState
+}
+
+func (d *iso2022JPDecoder) Transform(dst, src []byte, atEOF bool) (nDst, nSrc int, err error) {
+	r, size := rune(0), 0
+	for ; nSrc < len(src); nSrc += size {
+		c0 := src[nSrc]
+		if c0 >= utf8.RuneSelf {
+			r, size = '\ufffd', 1
+			goto write
+		}
+
+		if c0 == asciiEsc {
+			if nSrc+2 >= len(src) {
+				if !atEOF {
+					return nDst, nSrc, transform.ErrShortSrc
+				}
+				// TODO: is it correct to only skip 1??
+				r, size = '\ufffd', 1
+				goto write
+			}
+			size = 3
+			c1 := src[nSrc+1]
+			c2 := src[nSrc+2]
+			switch {
+			case c1 == '$' && (c2 == '@' || c2 == 'B'): // 0x24 {0x40, 0x42}
+				*d = jis0208State
+				continue
+			case c1 == '$' && c2 == '(': // 0x24 0x28
+				if nSrc+3 >= len(src) {
+					if !atEOF {
+						return nDst, nSrc, transform.ErrShortSrc
+					}
+					r, size = '\ufffd', 1
+					goto write
+				}
+				size = 4
+				if src[nSrc+3] == 'D' {
+					*d = jis0212State
+					continue
+				}
+			case c1 == '(' && (c2 == 'B' || c2 == 'J'): // 0x28 {0x42, 0x4A}
+				*d = asciiState
+				continue
+			case c1 == '(' && c2 == 'I': // 0x28 0x49
+				*d = katakanaState
+				continue
+			}
+			r, size = '\ufffd', 1
+			goto write
+		}
+
+		switch *d {
+		case asciiState:
+			r, size = rune(c0), 1
+
+		case katakanaState:
+			if c0 < 0x21 || 0x60 <= c0 {
+				r, size = '\ufffd', 1
+				goto write
+			}
+			r, size = rune(c0)+(0xff61-0x21), 1
+
+		default:
+			if c0 == 0x0a {
+				*d = asciiState
+				r, size = rune(c0), 1
+				goto write
+			}
+			if nSrc+1 >= len(src) {
+				if !atEOF {
+					return nDst, nSrc, transform.ErrShortSrc
+				}
+				r, size = '\ufffd', 1
+				goto write
+			}
+			size = 2
+			c1 := src[nSrc+1]
+			i := int(c0-0x21)*94 + int(c1-0x21)
+			if *d == jis0208State && i < len(jis0208Decode) {
+				r = rune(jis0208Decode[i])
+			} else if *d == jis0212State && i < len(jis0212Decode) {
+				r = rune(jis0212Decode[i])
+			} else {
+				r = '\ufffd'
+				goto write
+			}
+			if r == 0 {
+				r = '\ufffd'
+			}
+		}
+
+	write:
+		if nDst+utf8.RuneLen(r) > len(dst) {
+			return nDst, nSrc, transform.ErrShortDst
+		}
+		nDst += utf8.EncodeRune(dst[nDst:], r)
+	}
+	return nDst, nSrc, err
+}
+
+type iso2022JPEncoder int
+
+func (e *iso2022JPEncoder) Reset() {
+	*e = asciiState
+}
+
+func (e *iso2022JPEncoder) Transform(dst, src []byte, atEOF bool) (nDst, nSrc int, err error) {
+	r, size := rune(0), 0
+	for ; nSrc < len(src); nSrc += size {
+		r = rune(src[nSrc])
+
+		// Decode a 1-byte rune.
+		if r < utf8.RuneSelf {
+			size = 1
+
+		} else {
+			// Decode a multi-byte rune.
+			r, size = utf8.DecodeRune(src[nSrc:])
+			if size == 1 {
+				// All valid runes of size 1 (those below utf8.RuneSelf) were
+				// handled above. We have invalid UTF-8 or we haven't seen the
+				// full character yet.
+				if !atEOF && !utf8.FullRune(src[nSrc:]) {
+					err = transform.ErrShortSrc
+					break
+				}
+			}
+
+			// func init checks that the switch covers all tables.
+			//
+			// http://encoding.spec.whatwg.org/#iso-2022-jp says that "the index jis0212
+			// is not used by the iso-2022-jp encoder due to lack of widespread support".
+			//
+			// TODO: do we have to special-case U+00A5 and U+203E, as per
+			// http://encoding.spec.whatwg.org/#iso-2022-jp
+			// Doing so would mean that "\u00a5" would not be preserved
+			// after an encode-decode round trip.
+			switch {
+			case encode0Low <= r && r < encode0High:
+				if r = rune(encode0[r-encode0Low]); r>>tableShift == jis0208 {
+					goto writeJIS
+				}
+			case encode1Low <= r && r < encode1High:
+				if r = rune(encode1[r-encode1Low]); r>>tableShift == jis0208 {
+					goto writeJIS
+				}
+			case encode2Low <= r && r < encode2High:
+				if r = rune(encode2[r-encode2Low]); r>>tableShift == jis0208 {
+					goto writeJIS
+				}
+			case encode3Low <= r && r < encode3High:
+				if r = rune(encode3[r-encode3Low]); r>>tableShift == jis0208 {
+					goto writeJIS
+				}
+			case encode4Low <= r && r < encode4High:
+				if r = rune(encode4[r-encode4Low]); r>>tableShift == jis0208 {
+					goto writeJIS
+				}
+			case encode5Low <= r && r < encode5High:
+				if 0xff61 <= r && r < 0xffa0 {
+					goto writeKatakana
+				}
+				if r = rune(encode5[r-encode5Low]); r>>tableShift == jis0208 {
+					goto writeJIS
+				}
+			}
+
+			// Switch back to ASCII state in case of error so that an ASCII
+			// replacement character can be written in the correct state.
+			if *e != asciiState {
+				if nDst+3 > len(dst) {
+					err = transform.ErrShortDst
+					break
+				}
+				*e = asciiState
+				dst[nDst+0] = asciiEsc
+				dst[nDst+1] = '('
+				dst[nDst+2] = 'B'
+				nDst += 3
+			}
+			err = internal.ErrASCIIReplacement
+			break
+		}
+
+		if *e != asciiState {
+			if nDst+4 > len(dst) {
+				err = transform.ErrShortDst
+				break
+			}
+			*e = asciiState
+			dst[nDst+0] = asciiEsc
+			dst[nDst+1] = '('
+			dst[nDst+2] = 'B'
+			nDst += 3
+		} else if nDst >= len(dst) {
+			err = transform.ErrShortDst
+			break
+		}
+		dst[nDst] = uint8(r)
+		nDst++
+		continue
+
+	writeJIS:
+		if *e != jis0208State {
+			if nDst+5 > len(dst) {
+				err = transform.ErrShortDst
+				break
+			}
+			*e = jis0208State
+			dst[nDst+0] = asciiEsc
+			dst[nDst+1] = '$'
+			dst[nDst+2] = 'B'
+			nDst += 3
+		} else if nDst+2 > len(dst) {
+			err = transform.ErrShortDst
+			break
+		}
+		dst[nDst+0] = 0x21 + uint8(r>>codeShift)&codeMask
+		dst[nDst+1] = 0x21 + uint8(r)&codeMask
+		nDst += 2
+		continue
+
+	writeKatakana:
+		if *e != katakanaState {
+			if nDst+4 > len(dst) {
+				err = transform.ErrShortDst
+				break
+			}
+			*e = katakanaState
+			dst[nDst+0] = asciiEsc
+			dst[nDst+1] = '('
+			dst[nDst+2] = 'I'
+			nDst += 3
+		} else if nDst >= len(dst) {
+			err = transform.ErrShortDst
+			break
+		}
+		dst[nDst] = uint8(r - (0xff61 - 0x21))
+		nDst++
+		continue
+	}
+	if atEOF && err == nil && *e != asciiState {
+		if nDst+3 > len(dst) {
+			err = transform.ErrShortDst
+		} else {
+			*e = asciiState
+			dst[nDst+0] = asciiEsc
+			dst[nDst+1] = '('
+			dst[nDst+2] = 'B'
+			nDst += 3
+		}
+	}
+	return nDst, nSrc, err
+}
--- a/vendor/golang.org/x/text/encoding/japanese/shiftjis.go
+++ b/vendor/golang.org/x/text/encoding/japanese/shiftjis.go
@ -0,0 +1,189 @@
+// Copyright 2013 The Go Authors. All rights reserved.
+// Use of this source code is governed by a BSD-style
+// license that can be found in the LICENSE file.
+
+package japanese
+
+import (
+	"unicode/utf8"
+
+	"golang.org/x/text/encoding"
+	"golang.org/x/text/encoding/internal"
+	"golang.org/x/text/encoding/internal/identifier"
+	"golang.org/x/text/transform"
+)
+
+// ShiftJIS is the Shift JIS encoding, also known as Code Page 932 and
+// Windows-31J.
+var ShiftJIS encoding.Encoding = &shiftJIS
+
+var shiftJIS = internal.Encoding{
+	&internal.SimpleEncoding{shiftJISDecoder{}, shiftJISEncoder{}},
+	"Shift JIS",
+	identifier.ShiftJIS,
+}
+
+type shiftJISDecoder struct{ transform.NopResetter }
+
+func (shiftJISDecoder) Transform(dst, src []byte, atEOF bool) (nDst, nSrc int, err error) {
+	r, size := rune(0), 0
+loop:
+	for ; nSrc < len(src); nSrc += size {
+		switch c0 := src[nSrc]; {
+		case c0 < utf8.RuneSelf:
+			r, size = rune(c0), 1
+
+		case 0xa1 <= c0 && c0 < 0xe0:
+			r, size = rune(c0)+(0xff61-0xa1), 1
+
+		case (0x81 <= c0 && c0 < 0xa0) || (0xe0 <= c0 && c0 < 0xfd):
+			if c0 <= 0x9f {
+				c0 -= 0x70
+			} else {
+				c0 -= 0xb0
+			}
+			c0 = 2*c0 - 0x21
+
+			if nSrc+1 >= len(src) {
+				if !atEOF {
+					err = transform.ErrShortSrc
+					break loop
+				}
+				r, size = '\ufffd', 1
+				goto write
+			}
+			c1 := src[nSrc+1]
+			switch {
+			case c1 < 0x40:
+				r, size = '\ufffd', 1 // c1 is ASCII so output on next round
+				goto write
+			case c1 < 0x7f:
+				c0--
+				c1 -= 0x40
+			case c1 == 0x7f:
+				r, size = '\ufffd', 1 // c1 is ASCII so output on next round
+				goto write
+			case c1 < 0x9f:
+				c0--
+				c1 -= 0x41
+			case c1 < 0xfd:
+				c1 -= 0x9f
+			default:
+				r, size = '\ufffd', 2
+				goto write
+			}
+			r, size = '\ufffd', 2
+			if i := int(c0)*94 + int(c1); i < len(jis0208Decode) {
+				r = rune(jis0208Decode[i])
+				if r == 0 {
+					r = '\ufffd'
+				}
+			}
+
+		case c0 == 0x80:
+			r, size = 0x80, 1
+
+		default:
+			r, size = '\ufffd', 1
+		}
+	write:
+		if nDst+utf8.RuneLen(r) > len(dst) {
+			err = transform.ErrShortDst
+			break loop
+		}
+		nDst += utf8.EncodeRune(dst[nDst:], r)
+	}
+	return nDst, nSrc, err
+}
+
+type shiftJISEncoder struct{ transform.NopResetter }
+
+func (shiftJISEncoder) Transform(dst, src []byte, atEOF bool) (nDst, nSrc int, err error) {
+	r, size := rune(0), 0
+loop:
+	for ; nSrc < len(src); nSrc += size {
+		r = rune(src[nSrc])
+
+		// Decode a 1-byte rune.
+		if r < utf8.RuneSelf {
+			size = 1
+
+		} else {
+			// Decode a multi-byte rune.
+			r, size = utf8.DecodeRune(src[nSrc:])
+			if size == 1 {
+				// All valid runes of size 1 (those below utf8.RuneSelf) were
+				// handled above. We have invalid UTF-8 or we haven't seen the
+				// full character yet.
+				if !atEOF && !utf8.FullRune(src[nSrc:]) {
+					err = transform.ErrShortSrc
+					break loop
+				}
+			}
+
+			// func init checks that the switch covers all tables.
+			switch {
+			case encode0Low <= r && r < encode0High:
+				if r = rune(encode0[r-encode0Low]); r>>tableShift == jis0208 {
+					goto write2
+				}
+			case encode1Low <= r && r < encode1High:
+				if r = rune(encode1[r-encode1Low]); r>>tableShift == jis0208 {
+					goto write2
+				}
+			case encode2Low <= r && r < encode2High:
+				if r = rune(encode2[r-encode2Low]); r>>tableShift == jis0208 {
+					goto write2
+				}
+			case encode3Low <= r && r < encode3High:
+				if r = rune(encode3[r-encode3Low]); r>>tableShift == jis0208 {
+					goto write2
+				}
+			case encode4Low <= r && r < encode4High:
+				if r = rune(encode4[r-encode4Low]); r>>tableShift == jis0208 {
+					goto write2
+				}
+			case encode5Low <= r && r < encode5High:
+				if 0xff61 <= r && r < 0xffa0 {
+					r -= 0xff61 - 0xa1
+					goto write1
+				}
+				if r = rune(encode5[r-encode5Low]); r>>tableShift == jis0208 {
+					goto write2
+				}
+			}
+			err = internal.ErrASCIIReplacement
+			break
+		}
+
+	write1:
+		if nDst >= len(dst) {
+			err = transform.ErrShortDst
+			break
+		}
+		dst[nDst] = uint8(r)
+		nDst++
+		continue
+
+	write2:
+		j1 := uint8(r>>codeShift) & codeMask
+		j2 := uint8(r) & codeMask
+		if nDst+2 > len(dst) {
+			err = transform.ErrShortDst
+			break loop
+		}
+		if j1 <= 61 {
+			dst[nDst+0] = 129 + j1/2
+		} else {
+			dst[nDst+0] = 193 + j1/2
+		}
+		if j1&1 == 0 {
+			dst[nDst+1] = j2 + j2/63 + 64
+		} else {
+			dst[nDst+1] = j2 + 159
+		}
+		nDst += 2
+		continue
+	}
+	return nDst, nSrc, err
+}
--- a/vendor/golang.org/x/text/encoding/japanese/tables.go
+++ b/vendor/golang.org/x/text/encoding/japanese/tables.go