首页 > 开发 > Xml > 正文

关于xml编码问题在VB,PHP,JAVA下的解决方案

2020-02-03 14:21:32
字体:
来源:转载
供稿:网友
注册会员,创建你的web开发资料库,    最近碰到一个项目,需要将申报文件存成xml的格式,编码问题着实让我头疼了一会。现在全部统一成utf-8编码。具体在各种语言下的操作

  这里,我用dom进行xml解析,应为它简单。

  1 客户首先使用vb进行编辑表单,生成一个apply.xml文件。

  在vb中,使用msxml 4.0。如果不设定编码方式,保存的时候,文件默认就是utf-8编码

    set dom = createdom
    set node = dom.createprocessinginstruction("xml", "version='1.0'")
    dom.appendchild node
    set node = nothing

  2 接下来,客户将这个xml通过web上传到服务器

  在php中,xmldom只支持utf-8作为默认编码。所以生成的xml文件,上传以后可以直接解析这个文件,获得一些信息

  if (!$dom = domxml_open_mem($content)) {
      $t->assign('msg', "文件解析错误!");
      $t->render('noavailable.html', page_title, 'wrap.html');
      exit;
    }

  接下来,要将这个文件存到数据库里面,因为数据库使用ms sql server,它不支持utf-8的数据结构,所以将整个文件以二进制的方式存到数据库里面,这里让我搞了半天的就是二进制文件的存放方式,如果是mysql,那不需要做任何转换就可以直接存了,但是mssql不行,原因是:

this is because the mssql parser makes a clear distinction between binary an character constants. you can therefore not easilly insert binary data with "column = '$data'" syntax like in mysql and others.

the mssql documentation states that binary constants should be represented by their unquoted hexadecimal byte-string. that is.. to set the binary column "col" to contain the bytes 0x12, 0x65 and 0x35 you shold do "col = 0x126535" in you query.

  具体操作如下:

    //读取上传的文件
    $original = $_files['content']['name'];
      if (!empty($original)) {
          if ($_files['content']['type'] == "text/xml") {
           $filename = $_files['content']['tmp_name'];
            $handle = fopen($filename, "rb");
            $originalcontent = fread($handle, filesize($filename));
           
            fclose($handle);
           }
      } //end  if(!empty($original)) 

$originalcontent = unpack("h*hex", $originalcontent); //这步是关键

 $db->query("insert into ".tbl_sb_online_user." (sb_id, user_id, username, sbmc, content, created_date) values ("
        .$newid.", "
        .$u.", "
        .$db->quote(stripslashes($name)).", "
        .$db->quote(stripslashes($sbmc)).", 0x"
        .$originalcontent['hex'].", "      //注意这里,前面有0x
        ."'$now')");

  3 上传之后,用户也可以在网上对这个文件进行在线编辑,这时需要将这个文件从数据库读出,然后还原成utf-8编码,再进行解析。虽然我们上面使用了unpack,但读出的时候不需要还原。

 $sb = $db->getrow('select sbmc, content from '.tbl_sb_online_user." where sb_id = $sb_id");
 $originalcontent =$sb[content];

 if (!$dom = domxml_open_mem($originalcontent)) {
      $t->assign('msg', "文件解析错误!");
      $t->render('noavailable.html', page_title, 'wrap.html',true);
      exit;
    }
   
    $context = xpath_new_context($dom);
   
    $xpath = $context->xpath_eval("//material/xm");
    $t->assign('xm',iconv("utf-8","gbk",$xpath->nodeset[0]->get_content()));

  读出的时候,mssql除了用于 sql server 的 microsoft ole db 提供程序和 sql server odbc 驱动程序自动将 @@textsize 设置为最大值 2 gb。其他的都是4096 (4 kb),所以用php访问时候,务必将下面打开mssql.textlimit = 2147483647
mssql.textsize = 2147483647

  4 后台用vb,要解析该函数需要添加以下代码,用来将byte()转换成utf-8编码

public declare function multibytetowidechar lib "kernel32" (byval codepage as long, byval dwflags as long, byval lpmultibytestr as long, _
byval cchmultibyte as long, byval lpwidecharstr as long, byval cchwidechar as long) as long

public const cp_utf8 = 65001

public function utf8_decode(butf8() as byte) as string
dim lret as long
dim llen as long
dim lbuffersize as long
dim sbuffer as string
dim bbuffer() as byte
llen = ubound(butf8) + 1
if llen = 0 then exit function
lbuffersize = llen * 2
sbuffer = string$(lbuffersize, chr(0))
lret = multibytetowidechar(cp_utf8, 0, varptr(butf8(0)), llen, strptr(sbuffer), lbuffersize)
if lret <> 0 then
sbuffer = left(sbuffer, lret)
end if
utf8_decode = sbuffer
end function

  具体读数据库的操作是

   dim varcontent() as byte
    varfilesize = mrc.fields("content").actualsize
    varcontent = mrc.fields("content").getchunk(varfilesize)
    content = utf8_decode(varcontent)

    xmldoc.async = false
    xmldoc.resolveexternals = false
    xmldoc.loadxml (content)
    if (xmldoc.parseerror.errorcode <> 0) then
      dim myerr
      set myerr = xmldoc.parseerror
      msgbox ("发生错误 " & myerr.reason)
    else
      xmldoc.setproperty "selectionlanguage", "xpath"

  5 后台,在java里面就更好操作了,将读出的数据变成byte[],然后转换成utf-8的字符串。

  最后要说的是,php的确是一个非常强大的脚本语言,如果开发php过程中遇到难以解决,google都不容易搜到的问题,大家直接上php.net的在线文档,文档里面通常有很多好心人将自己的使用心得写在上面,非常有帮助。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表