抓取苹果json数据,怎样过滤特殊字符

玉良 发布于 2012/09/17 19:07
阅读 1K+
收藏 0

例如这个地址:http://itunes.apple.com/cn/rss/toppaidapplications/limit=300/genre=6100/json

抓取的数据里面有特殊字符 “♥” ,“”,保存数据库的时候,会报 Data truncation: Data too long for column 'summary' at row 1

用正则,也不知道怎么过滤,这是html 符号,还是什么啊?

mysql 里字段类型是longtext 的,应该能没问题

这种字符改如何过滤呢?还有一些数学符号,带根号,立方等


以下是问题补充:

@玉良:报的错误 Caused by: java.sql.SQLException: Incorrect string value: '\xF0\x9F\x8F\x86\xE5\x85...' for column 'summary' at row 1 (2012/09/18 08:53)
加载中
0
Jooooooker
Jooooooker
可否考虑化为ascii码存储呢?
Jooooooker
Jooooooker
回复 @张志祥 : 你可以考虑过滤出来汉字数字字母还有常见标点 其它抛弃。。或者你用Py的话可以json.dumps( ensure_ascii = true )保存出来的文本文件里面就都是ascii码的那种了
玉良
玉良
我不知道,它是什么类型的符号,不知道怎么过滤,它又不是<font></font>这种的
Jooooooker
Jooooooker
回复 @张志祥 : 笨一点的方法。。。用正则过滤出来吧
玉良
玉良
我不知道,怎么挑选出特殊字符,怎么转化为ascii 呢?
0
mallon
mallon
你用的难道不是utf-8编码?
玉良
玉良
是 utf-8 的
0
leo108
leo108
是你数据库的字段长度太短了吧
玉良
玉良
没有啊,mysql longtext 的,不短啊 ,我要是直接把苹果上的数据粘贴在数据库里就没错,只不过有乱码。 用hibernate 不能保存
返回顶部
顶部