444 Failed: mysql_escape_string と mysql_real_escape

mysql_escape_string と mysql_real_escape_string の違いを調査したのでまとめる。
大まかに以下の違いがある

mysql_escape_string : 文字コードを気にせずバックスラッシュ escape する
mysql_real_escape_string : DB へ connect した際に取得した文字コードを元に複数バイト文字はエスケープしない。不正な文字はバックスラッシュ escape する

バイナリデータを MySQL に入れる際に使用するため、文字コード判定が入ってるというのは意外。
日本語で最も影響があるのは、SJIS を使ってるときで、「ソフト」を escape してみると、

<?php
mysql_connect('DB host', 'user', 'pass');
$ret = mysql_set_charset('sjis');
$str = "\x83\x5c\x83\x74\x83\x67"; // ソフト
echo mysql_escape_string($str), "\n";
echo mysql_real_escape_string($str), "\n";

出力は以下のとおり

ソ\フト
ソフト

ソの2バイト目は \ なので mysql_escape_string の方ではエスケープする。しかし、mysql_real_escape_string の方は文字コード判定するのでエスケープしない。

ソース見ると latin1 かコネクト時に取得した文字コードを使うかの違い以外は、同じ関数を使って処理してる。

// ./libmysql/libmysql.c
   1620 ulong STDCALL
   1621 mysql_escape_string(char *to,const char *from,ulong length)
   1622 {
// default_charset_info は latin1 (1バイトの文字コード(asciiと下位互換))
   1623   return (uint) escape_string_for_mysql(default_charset_info, to, 0, from, length);
   1624 }
   1625
   1626 ulong STDCALL
   1627 mysql_real_escape_string(MYSQL *mysql, char *to,const char *from,
   1628              ulong length)
   1629 {
// コネクト時の文字コードを使用
   1630   if (mysql->server_status & SERVER_STATUS_NO_BACKSLASH_ESCAPES)
   1631     return (uint) escape_quotes_for_mysql(mysql->charset, to, 0, from, length);
   1632   return (uint) escape_string_for_mysql(mysql->charset, to, 0, from, length);
   1633 }

//./mysys/charset.c
    675 size_t escape_string_for_mysql(CHARSET_INFO *charset_info,
    676                                char *to, size_t to_length,
    677                                const char *from, size_t length)
    678 {
    679   const char *to_start= to;
    680   const char *end, *to_end=to_start + (to_length ? to_length-1 : 2*length);
    681   my_bool overflow= FALSE;
    682 #ifdef USE_MB
// latin1 の場合は use_mb の値が false
    683   my_bool use_mb_flag= use_mb(charset_info);
    684 #endif
    685   for (end= from + length; from < end; from++)
    686   {
    687     char escape= 0;
    688 #ifdef USE_MB
    689     int tmp_length;
// 文字コードが複数バイトの場合の処理(複数バイト場合はここで、continue）
    690     if (use_mb_flag && (tmp_length= my_ismbchar(charset_info, from, end)))
    691     {
    692       if (to + tmp_length > to_end)
    693       {
    694         overflow= TRUE;
    695         break;
    696       }
    697       while (tmp_length--)
    698     *to++= *from++;
    699       from--;
    700       continue;
    701     }
// 不正文字の場合の処理
    713     if (use_mb_flag && (tmp_length= my_mbcharlen(charset_info, *from)) > 1)
    714       escape= *from;
    715     else
// 1バイト文字の場合の処理。switch case 使って いくつかの文字だけエスケープ
    717     switch (*from) {
    718     case 0:             /* Must be escaped for 'mysql' */
    719       escape= '0';
    720       break;
    721     case '\n':              /* Must be escaped for logs */
    722       escape= 'n';
    723       break;
    724     case '\r':
    725       escape= 'r';
    726       break;
    727     case '\\':
    728       escape= '\\';
    729       break;
    730     case '\'':
    731       escape= '\'';
    732       break;
    733     case '"':               /* Better safe than sorry */
    734       escape= '"';
    735       break;
    736     case '\032':            /* This gives problems on Win32 */
    737       escape= 'Z';
    738       break;
    739     }

mysql_real_escape_string だと、以下の場合に不具合が起きるかもしれない。

データベースの文字コードが SJIS で、バイナリデータに対して、mysql_real_escape_string を使った場合。

DB 側での SQLの解析でも同じ文字コード判定をしているなら問題はないが。

SJIS は2バイト目に ASCII と文字がかぶってるものがあるから問題となるが、もうUTF8しか使わないので、文字コード判定なんてしなくてもいいはず。
PHP の関数は deprecated だが、C API の方は「should instead!」と書いてるだけで、使うなとは書いてない。
http://dev.mysql.com/doc/refman/5.5/en/mysql-escape-string.html
mysql_eacape_string の方は処理がシンプルだし、負荷が大きいような箇所では mysql_escape_string を使うことにしよう

Saturday, January 14, 2012

mysql_escape_string と mysql_real_escape_string の違いまとめ

No comments:

Post a Comment

Blog Archive