2007年12月18日
公式ビューアからの日本語検索(SVC-1020)
公式ビューアからの日本語検索がうまくいかないという報告が出ている。
http://jira.secondlife.com/browse/SVC-1020
It is not possible to retrieve it in Japanese.
llpaneldirfind.cpp 内を見ると、以下のようになっている。
いまRFC1738 の日本語版を読んでいる。
ちなみに、「À」はUTF-8では「C3 80」である。
http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=C0
この1文字を検索したときのエラーは
---
Your search - FFFFC3 FFFF80 - did not match anything we could find within Second Life.
Nothing was found in Second Life containing "FFFFC3 FFFF80".
Suggestions:
* Make sure all words are spelled correctly.
* Try different keywords.
* Try more general keywords.
---
である。
http://jira.secondlife.com/browse/SVC-1020
It is not possible to retrieve it in Japanese.
llpaneldirfind.cpp 内を見ると、以下のようになっている。
void LLPanelDirFindAll::search(const std::string& search_text)
{
if (!search_text.empty())
{
// Replace spaces with "+" for use by Google search appliance
// Yes, this actually works for double-spaces
// " foo bar" becomes "+foo++bar" and works fine. JC
// Since we are already iterating over the query,
// do our own custom escaping here.
// Our own special set of allowed chars (RFC1738 http://www.ietf.org/rfc/rfc1738.txt)
const char* allowed =
"ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz"
"0123456789"
"-._~$+!*'()";
std::string query;
std::string::const_iterator it = search_text.begin();
for ( ; it != search_text.end(); ++it )
{
if ( std::isspace( *it ) )
{
query += '+';
}
else if(strchr(allowed,*it))
{
// The character is in the allowed set, just copy it
query += *it;
}
else
{
// Do escaping
query += llformat("%%%02X", *it);
}
}
std::string url = gSavedSettings.getString("SearchURLQuery");
std::string substring = "[QUERY]";
url.replace(url.find(substring), substring.length(), query);
(略)
いまRFC1738 の日本語版を読んでいる。
ちなみに、「À」はUTF-8では「C3 80」である。
http://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=C0
この1文字を検索したときのエラーは
---
Your search - FFFFC3 FFFF80 - did not match anything we could find within Second Life.
Nothing was found in Second Life containing "FFFFC3 FFFF80".
Suggestions:
* Make sure all words are spelled correctly.
* Try different keywords.
* Try more general keywords.
---
である。
RC版ビューア 1.20.11 のビルド (の最後の部分)
RC版1.20.1 (84760)が起動できない件の暫定対処
日本語で検索できるようにするパッチ
日本語検索(SVC-1020)パッチ書き終わり
1.18.6(0)で日本語入力は正式解消/字汚れは継続(寂)
字汚れは内部的には修正済み?/半角カナになるのは直った
RC版1.20.1 (84760)が起動できない件の暫定対処
日本語で検索できるようにするパッチ
日本語検索(SVC-1020)パッチ書き終わり
1.18.6(0)で日本語入力は正式解消/字汚れは継続(寂)
字汚れは内部的には修正済み?/半角カナになるのは直った
Posted by march at 12:29│Comments(7)
│viewer
この記事へのコメント
http://svn.secondlife.com/trac/linden/changeset?new=release%2Findra%2Fnewview%2Fllpaneldirfind.cpp@162&old=release%2Findra%2Fnewview%2Fllpaneldirfind.cpp@140
なぜこういう変更にしたのか確認中。
なぜこういう変更にしたのか確認中。
Posted by march at 2007年12月18日 15:24
http://svn.secondlife.com/trac/linden/changeset/148/branches/Branch_1-18-5-Viewer/indra/newview/llpaneldirfind.cpp
単に1.18.5.3 のリリース用としか書いてない。
で「& 0xFF」とかつけるとうまく通るのを確認したのだが、
std::string::const_iterator ってさす先の型が何かって決まらないんだっけ?
VC++のデバッガ上で見るとちゃんと1バイトなんだが、渡した先のllformatでは4バイトとして受け取っていて、
律儀に4バイト分=8文字を返してくれる。
単に1.18.5.3 のリリース用としか書いてない。
で「& 0xFF」とかつけるとうまく通るのを確認したのだが、
std::string::const_iterator ってさす先の型が何かって決まらないんだっけ?
VC++のデバッガ上で見るとちゃんと1バイトなんだが、渡した先のllformatでは4バイトとして受け取っていて、
律儀に4バイト分=8文字を返してくれる。
Posted by march at 2007年12月18日 16:27
>律儀に4バイト分=8文字を返してくれる。
6文字だった。
ここだけ場当たり的に直しても他で同じような事があったらまた同じコードをかかなきゃならなそうなので、148時点のコードに似せて、LLURI::escape(query, allowed);とか書いてみたが、LLURI::escape側でストリームに突っ込むときにset:setw(2)で2文字に制限しているのに2文字になっていない。
ためしに受け取った引数ではなく、じかに0x81とか0x123とか書くと81とか123とか返してくれる。
あら、やっぱりきいてない。
C++風に書かずC風にやっちゃいかんのかな。。。
6文字だった。
ここだけ場当たり的に直しても他で同じような事があったらまた同じコードをかかなきゃならなそうなので、148時点のコードに似せて、LLURI::escape(query, allowed);とか書いてみたが、LLURI::escape側でストリームに突っ込むときにset:setw(2)で2文字に制限しているのに2文字になっていない。
ためしに受け取った引数ではなく、じかに0x81とか0x123とか書くと81とか123とか返してくれる。
あら、やっぱりきいてない。
C++風に書かずC風にやっちゃいかんのかな。。。
Posted by march at 2007年12月18日 18:39
char型の場合は8ビットなので頭のビットが立ってると負の数として扱われるというのが(ry
Posted by march at 2007年12月19日 10:10
#include <stdio.h>
main(){
char a;
unsigned int b;
a=0x8f;
b=(unsigned int)a;
printf("%d:%d:%d\n",a,b,a&0xff);
}
====================================================
-113:-113:143
& 0xFF が正義な気がしてきた
main(){
char a;
unsigned int b;
a=0x8f;
b=(unsigned int)a;
printf("%d:%d:%d\n",a,b,a&0xff);
}
====================================================
-113:-113:143
& 0xFF が正義な気がしてきた
Posted by march at 2007年12月19日 10:14
頭のFFがどこにいったのかと思ったら、「%FFFFFFE3」になってるから、頭の%FFで1文字として、あとは文字のFFFFE3が残るのね。
Posted by march at 2007年12月19日 10:31
符号拡張の説明をするのが意外と難しい。wikipedia参照で分かってもらえないだろか
Posted by march at 2007年12月19日 11:28