+/* Returns a copy of the string with some basic HTML entities decoded.
+ */
+static char *
+decode_entities (const char *html)
+{
+ char *ret = (char *) malloc ((strlen(html) * 4) + 1); // room for UTF8
+ const char *in = html;
+ char *out = ret;
+ *out = 0;
+
+ const struct { const char *c; const char *e; } entities[] = {
+
+ { "amp", "&" },
+ { "lt", "<" },
+ { "gt", ">" },
+
+ // Convert Latin1 to UTF8
+ { "nbsp", " " }, // 160
+ { "iexcl", "\302\241" }, // ¡ 161
+ { "cent", "\302\242" }, // ¢ 162
+ { "pound", "\302\243" }, // £ 163
+ { "curren", "\302\244" }, // ¤ 164
+ { "yen", "\302\245" }, // ¥ 165
+ { "brvbar", "\302\246" }, // ¦ 166
+ { "sect", "\302\247" }, // § 167
+ { "uml", "\302\250" }, // ¨ 168
+ { "copy", "\302\251" }, // © 169
+ { "ordf", "\302\252" }, // ª 170
+ { "laquo", "\302\253" }, // « 171
+ { "not", "\302\254" }, // ¬ 172
+ { "shy", "\302\255" }, // 173
+ { "reg", "\302\256" }, // ® 174
+ { "macr", "\302\257" }, // ¯ 175
+ { "deg", "\302\260" }, // ° 176
+ { "plusmn", "\302\261" }, // ± 177
+ { "sup2", "\302\262" }, // ² 178
+ { "sup3", "\302\263" }, // ³ 179
+ { "acute", "\302\264" }, // ´ 180
+ { "micro", "\302\265" }, // µ 181
+ { "para", "\302\266" }, // ¶ 182
+ { "middot", "\302\267" }, // · 183
+ { "cedil", "\302\270" }, // ¸ 184
+ { "sup1", "\302\271" }, // ¹ 185
+ { "ordm", "\302\272" }, // º 186
+ { "raquo", "\302\273" }, // » 187
+ { "frac14", "\302\274" }, // ¼ 188
+ { "frac12", "\302\275" }, // ½ 189
+ { "frac34", "\302\276" }, // ¾ 190
+ { "iquest", "\302\277" }, // ¿ 191
+ { "Agrave", "\303\200" }, // À 192
+ { "Aacute", "\303\201" }, // Á 193
+ { "Acirc", "\303\202" }, // Â 194
+ { "Atilde", "\303\203" }, // Ã 195
+ { "Auml", "\303\204" }, // Ä 196
+ { "Aring", "\303\205" }, // Å 197
+ { "AElig", "\303\206" }, // Æ 198
+ { "Ccedil", "\303\207" }, // Ç 199
+ { "Egrave", "\303\210" }, // È 200
+ { "Eacute", "\303\211" }, // É 201
+ { "Ecirc", "\303\212" }, // Ê 202
+ { "Euml", "\303\213" }, // Ë 203
+ { "Igrave", "\303\214" }, // Ì 204
+ { "Iacute", "\303\215" }, // Í 205
+ { "Icirc", "\303\216" }, // Î 206
+ { "Iuml", "\303\217" }, // Ï 207
+ { "ETH", "\303\220" }, // Ð 208
+ { "Ntilde", "\303\221" }, // Ñ 209
+ { "Ograve", "\303\222" }, // Ò 210
+ { "Oacute", "\303\223" }, // Ó 211
+ { "Ocirc", "\303\224" }, // Ô 212
+ { "Otilde", "\303\225" }, // Õ 213
+ { "Ouml", "\303\226" }, // Ö 214
+ { "times", "\303\227" }, // × 215
+ { "Oslash", "\303\230" }, // Ø 216
+ { "Ugrave", "\303\231" }, // Ù 217
+ { "Uacute", "\303\232" }, // Ú 218
+ { "Ucirc", "\303\233" }, // Û 219
+ { "Uuml", "\303\234" }, // Ü 220
+ { "Yacute", "\303\235" }, // Ý 221
+ { "THORN", "\303\236" }, // Þ 222
+ { "szlig", "\303\237" }, // ß 223
+ { "agrave", "\303\240" }, // à 224
+ { "aacute", "\303\241" }, // á 225
+ { "acirc", "\303\242" }, // â 226
+ { "atilde", "\303\243" }, // ã 227
+ { "auml", "\303\244" }, // ä 228
+ { "aring", "\303\245" }, // å 229
+ { "aelig", "\303\246" }, // æ 230
+ { "ccedil", "\303\247" }, // ç 231
+ { "egrave", "\303\250" }, // è 232
+ { "eacute", "\303\251" }, // é 233
+ { "ecirc", "\303\252" }, // ê 234
+ { "euml", "\303\253" }, // ë 235
+ { "igrave", "\303\254" }, // ì 236
+ { "iacute", "\303\255" }, // í 237
+ { "icirc", "\303\256" }, // î 238
+ { "iuml", "\303\257" }, // ï 239
+ { "eth", "\303\260" }, // ð 240
+ { "ntilde", "\303\261" }, // ñ 241
+ { "ograve", "\303\262" }, // ò 242
+ { "oacute", "\303\263" }, // ó 243
+ { "ocirc", "\303\264" }, // ô 244
+ { "otilde", "\303\265" }, // õ 245
+ { "ouml", "\303\266" }, // ö 246
+ { "divide", "\303\267" }, // ÷ 247
+ { "oslash", "\303\270" }, // ø 248
+ { "ugrave", "\303\271" }, // ù 249
+ { "uacute", "\303\272" }, // ú 250
+ { "ucirc", "\303\273" }, // û 251
+ { "uuml", "\303\274" }, // ü 252
+ { "yacute", "\303\275" }, // ý 253
+ { "thorn", "\303\276" }, // þ 254
+ { "yuml", "\303\277" }, // ÿ 255
+
+ // And some random others
+ { "bdquo", "\342\200\236" }, // „
+ { "bull", "\342\200\242" }, // •
+ { "circ", "\313\206" }, // ˆ
+ { "cong", "\342\211\205" }, // ≅
+ { "empty", "\342\210\205" }, // ∅
+ { "emsp", "\342\200\203" }, //
+ { "ensp", "\342\200\202" }, //
+ { "equiv", "\342\211\241" }, // ≡
+ { "frasl", "\342\201\204" }, // ⁄
+ { "ge", "\342\211\245" }, // ≥
+ { "hArr", "\342\207\224" }, // ⇔
+ { "harr", "\342\206\224" }, // ↔
+ { "hellip", "\342\200\246" }, // …
+ { "lArr", "\342\207\220" }, // ⇐
+ { "lang", "\342\237\250" }, // ⟨
+ { "larr", "\342\206\220" }, // ←
+ { "ldquo", "\342\200\234" }, // “
+ { "le", "\342\211\244" }, // ≤
+ { "lowast", "\342\210\227" }, // ∗
+ { "loz", "\342\227\212" }, // ◊
+ { "lsaquo", "\342\200\271" }, // ‹
+ { "lsquo", "\342\200\230" }, // ‘
+ { "mdash", "\342\200\224" }, // —
+ { "minus", "\342\210\222" }, // −
+ { "ndash", "\342\200\223" }, // –
+ { "ne", "\342\211\240" }, // ≠
+ { "OElig", "\305\222" }, // Œ
+ { "oelig", "\305\223" }, // œ
+ { "prime", "\342\200\262" }, // ′
+ { "quot", "\342\200\235" }, // ”
+ { "rArr", "\342\207\222" }, // ⇒
+ { "rang", "\342\237\251" }, // ⟩
+ { "rarr", "\342\206\222" }, // →
+ { "rdquo", "\342\200\235" }, // ”
+ { "rsaquo", "\342\200\272" }, // ›
+ { "rsquo", "\342\200\231" }, // ’
+ { "sbquo", "\342\200\232" }, // ‚
+ { "sim", "\342\210\274" }, // ∼
+ { "thinsp", "\342\200\211" }, //
+ { "tilde", "\313\234" }, // ˜
+ { "trade", "\342\204\242" }, // ™
+ };
+
+ while (*in) {
+ if (*in == '&') {
+ int done = 0;
+ if (in[1] == '#' && in[2] == 'x') { // A
+ unsigned long i = 0;
+ in += 2;
+ while ((*in >= '0' && *in <= '9') ||
+ (*in >= 'A' && *in <= 'F') ||
+ (*in >= 'a' && *in <= 'f')) {
+ i = (i * 16) + (*in >= 'a' ? *in - 'a' + 16 :
+ *in >= 'A' ? *in - 'A' + 16 :
+ *in - '0');
+ in++;
+ }
+ *out += utf8_encode (i, out, strlen(out));
+ done = 1;
+ } else if (in[1] == '#') { // A
+ unsigned long i = 0;
+ in++;
+ while (*in >= '0' && *in <= '9') {
+ i = (i * 10) + (*in - '0');
+ in++;
+ }
+ *out += utf8_encode (i, out, strlen(out));
+ done = 1;
+ } else {
+ int i;
+ for (i = 0; !done && i < countof(entities); i++) {
+ if (!strncmp (in+1, entities[i].c, strlen(entities[i].c))) {
+ strcpy (out, entities[i].e);
+ in += strlen(entities[i].c) + 1;
+ out += strlen(entities[i].e);
+ done = 1;
+ }
+ }
+ }
+
+ if (done) {
+ if (*in == ';')
+ in++;
+ } else {
+ *out++ = *in++;
+ }
+ } else {
+ *out++ = *in++;
+ }
+ }
+ *out = 0;
+
+ /* Shrink */
+ ret = realloc (ret, out - ret + 1);
+
+ return ret;
+}
+
+
+/* Returns a copy of the HTML string that has been converted to plain text,
+ in UTF8 encoding. HTML tags are stripped, <BR> and <P> are converted
+ to newlines, and some basic HTML entities are decoded.
+ */
+static char *
+strip_html (const char *html)