1000字范文 > Qt QString 中文 char* UTF-8 QByteArray QTextCodec unicode gb2312 GBK 乱码与转码问题

Qt QString 中文 char* UTF-8 QByteArray QTextCodec unicode gb2312 GBK 乱码与转码问题

时间：2021-09-23 13:19:13

代码如下：如果不不设全局的字符集是utf-8，那么网上一般的方法是可以转的。如下程序中 #define DD 1的情况下；但是如果设置了全局的utf-8，再用以前的方法：

QByteArray ba=aaa.toLatin1();

const char *c_str = ba.data();

PS:c_str所指向的内存单元，如果你想长时间使用你应该复制出来，要不可能过数行代码后，你再读你的数据，c_str所指向的内存单元就不是你以前读的内容了。函数返回的指针临时变量，不能长时间使用！！！！！！！具体代理在本贴最后补充出来：

等网上类似的方法，都会出现转代汉字不成功，但能转代ASICC码的情况。汉字都成了问号的ASICC码63。这是因为没有用对方法没有用转换utf-8码的方法。

转码是件很复杂的事。

以下是在网上找的，感觉很好，可以一块理解：

这个好像就是用几种不同的字符，但不会出错，不像我们一种都搞不定

/codeworkman/blog/item/5c0d7516c5c03215c83d6dcc.html

Qt QString 中文 char* UTF-8 QByteArray QTextCodec unicode gb2312 GBK

#include <QFile>

#include <QFileDialog>

#include <QTextCodec>

#include <QByteArray>

void MainWindow::on_pushButton_clicked()

{

只有8位编码的才需要tr, unicode不要tr

gb2312是GBK的子集,通常设成哪个都一样的

所谓的QString转char*,结果并不相同,根据编码格式不同而不同

QString转unicode,不用转,QString本身就是unicode

QString的根本是QChar数组,但不是以0结尾,有大小,QChar的根本是ushot

Qt中unicode声明:可以用wchar_t,也可以用ushot,没有WCHAR

QByteArray可以理解为char类型的动态数组,有大小,不是以\0结尾

ui创建1个列表框QListWidget,和1个按钮即可

用windows记事本分别创建4种文件,本例可直接打开

ANSI:没有文件头,2字节/汉字,1字节/英文

UTF-8:文件头[0xEF,0xBB,0xBF],3字节/汉字,1字节/英文

Unicode:文件头[0xFF,0xFE],2字节/汉字,2字节/英文

Unicode big endian :文件头[0xFE,0xFF],同Unicode,字节序相反

QString转char*的规则同上;

QTextCodec::setCodecForTr(QTextCodec::codecForLocale());

QTextCodec::setCodecForTr(QTextCodec::codecForName("gb2312"));

QTextCodec::setCodecForTr(QTextCodec::codecForName("GBK"));

QTextCodec::setCodecForTr(QTextCodec::codecForName("UTF-8"));

如下使用想要得到正确结果必须使用类似以上的语句

str = tr("显示中文");

但以下这个可以直接使用

strText = QString::fromLocal8Bit("显示中文");

ui->list->addItem(QString::fromLocal8Bit("--------显示中文----------"));

QString strFileName = QFileDialog::getOpenFileName(this, tr("OpenFile"), ".", tr("Image Files(*.*)"));

if(strFileName.length() == 0)

{

ui->list->addItem(tr("You didn't select any files."));

return;

}

// 打开文件

QFile *pFile = new QFile(strFileName);

if (!pFile->open(QFile::ReadOnly))

{

ui->list->addItem(tr("open file fail %1: %2.").arg(strFileName).arg(pFile->errorString()));

return;

}

ui->list->addItem(tr("open file ok %1").arg(strFileName));

// 读文件

qint64 fileSize = pFile->size();

ui->list->addItem(tr("size = %1").arg(fileSize));

char *pBuf = new char[fileSize];

pFile->read(pBuf, fileSize);

pFile->close();

if(fileSize < 4)

{

ui->list->addItem(tr("fileSize < 4"));

return;

}

QString strText;

uchar *p = (uchar*)pBuf;

if(p[0] == 0xEF && p[1] == 0xBB && p[2] == 0xBF)// UTF-8

{

ui->list->addItem(tr("UTF-8"));

strText = QString::fromUtf8(pBuf + 3, fileSize - 3);

}

else if(p[0] == 0xFF && p[1] == 0xFE)// Unicode

{

ui->list->addItem(tr("Unicode"));

strText = QString::fromWCharArray((wchar_t*)(pBuf + 2), (fileSize - 2) / 2);

}

else if(p[0] == 0xFE && p[1] == 0xFF)// Unicode big endian

{

ui->list->addItem(tr("Unicode big endian"));

uchar uc = 0;

for(int i = 3; i < fileSize; i += 2)

{

uc = p[i];

p[i] = p[i - 1];

p[i - 1] = uc;

}

strText = QString::fromWCharArray((wchar_t*)(pBuf + 2), (fileSize - 2) / 2);

}

else //ANSI

{

ui->list->addItem(tr("ANSI"));

strText = QString::fromLocal8Bit(pBuf, fileSize);

}

ui->list->addItem(strText);

QString strMsg, strTmp;

//转unicode

strMsg = tr("unicode: ");

QChar *pData = strText.data();

for(int i = 0; i < strText.size(); i++)

{

strTmp = tr("0x%1, ").arg(QString::number(pData[i].unicode(), 16).toUpper());

strMsg += strTmp;

}

ui->list->addItem(strMsg);

//转gb2312

strMsg = tr("gb2312: ");

QByteArray ary1 = strText.toLocal8Bit();

uchar *puchar = (uchar*)ary1.data();

for(int i = 0; i < ary1.size(); i++)

{

strTmp = tr("0x%1, ").arg(QString::number(puchar[i], 16).toUpper());

strMsg += strTmp;

}

ui->list->addItem(strMsg);

//转uft8

strMsg = tr("utf-8: ");

ary1 = strText.toUtf8();

puchar = (uchar*)ary1.data();

for(int i = 0; i < ary1.size(); i++)

{

strTmp = tr("0x%1, ").arg(QString::number(puchar[i], 16).toUpper());

strMsg += strTmp;

}

ui->list->addItem(strMsg);

ui->list->addItem(tr(" "));

}

以下这个我认为是中文字符的深入理解吧：

/cyclone/blog/item/9d7293130e5a498d6538dbf1.html

QString 与中文问题 -07-11 17:04

出乎意料，界面上中文没显示出来，出现了不认识字符。于是开始用搜索引擎搜索，开始上论坛发帖或抱怨

最后被告知，下面的语句之一可以解决问题：

QTextCodec::setCodecForCStrings(QTextCodec::codecForName("GB2312"));

QTextCodec::setCodecForCStrings(QTextCodec::codecForName("UTF-8"));

两条指令挨个一试，确实可以解决(多数用户是第一条，其他用户是第二条)。那么，为什么会这样呢？

两种乱码什么时候出现

对这个问题，我想大家可能都有话说。在继续之前，我们先列个表，看看两种乱码分别在那种情况下出现：

我们只列举大家最常用的3个编译器(微软VS的中的cl，Mingw中的g++，Linux下的g++)，源代码分别采用GBK和不带BOM的UTF-8以及带BOM的UTF-8这3中编码进行保存。

采用3种不同编码保存的源代码文件，分别用3种不同的编译器编译，形成9种组合，除掉一种不能工作的情况，两种乱码出现的情况各占一半。

从中我们也可以看出，乱码和操作系统原本是没有关系的。但我们在 Windows 一般用的GBK，linux一般用的是不带BOM的UTF-8。如果我们只考虑带*的情况，也可以说两种乱码和系统有关。

QString 为什么会乱码呢

真的是 QString 乱码了吗？我们可以问问自己，我们抱怨的对象是不是搞错了？

继续之前，先明确几个概念：

明确概念0：

"我是汉字" 是C语言中的字符串，它是char型的窄字符串。上面的例子可写为

const char * str = "我是汉字";

QString a= str;

或

char str[] = "我是汉字";

QString a= str;

等

明确概念1：

源文件是有编码的，但是这种纯文本文件却不会记录自己采用的编码

这个是问题的根源，不妨做个试验，将前面的源代码保存成GBK编码，用16进制编辑器能看到引号内是ced2cac7babad7d6这样8个字节。

现在将该文件拷贝到正体(繁体)中文的Windows中，用记事本打开会什么样子呢？

...

QString a= "扂岆犖趼";

QLabel label(a);

label.show();

...

那么放到欧美人的Windows系统中，再用记事本打开呢？

...

QString a= "ÎÒÊÇºº×Ö";

QLabel label(a);

label.show();

...

同一个文件，未做任何修改，但其中的8个字节ced2cac7babad7d6,对用GBK的大陆人，用BIG5的港澳台同胞，以及用Latin-1的欧洲人看来，看到的却是完全不同的文字。

明确概念2：

如同我们都了解的'A'与'\x41'等价一样。

GBK编码下的

const char * str = "我是汉字"

等价于

const char * str = "\xce\xd2\xca\xc7\xba\xba\xd7\xd6";

当用UTF-8编码时，等价于

const char * str = "\xe6\x88\x91\xe6\x98\xaf\xe6\xb1\x89\xe5\xad\x97";

注意：这个说法不全对，比如保存成带BOM的UTF-8，用cl编译器时，汉字本身是UTF-8编码，但程序内保存时却是对应的GBK编码。

明确概念3：

QString 内部采用的是Unicode。

QString内部采用的是 Unicode，它可以同时存放GBK中的字符"我是汉字",BIG5中的字符"扂岆犖趼" 以及Latin-1中的字符"ÎÒÊÇºº×Ö"。

一个问题是，源代码中的这8个字节"\xce\xd2\xca\xc7\xba\xba\xd7\xd6"，该怎么转换成Unicode并存到 QString 内？按照GBK、BIG5、Latin-1还是其他方式...

在你不告诉它的情况下，它默认选择了Latin-1，于是8个字符"ÎÒÊÇºº×Ö"的unicode码被存进了QString中。最终，8个Latin字符出现在你期盼看到4中文字符的地方，所谓的乱码出现了

QString 工作方式

const char * str = "我是汉字";

QString a= str;

其实很简单的一个问题，当你需要从窄字符串 char* 转成Unicode的QString字符串的，你需要告诉QString你的这串char* 中究竟是什么编码？GBK、BIG5、Latin-1

理想情况就是：将char* 传给QString时，同时告诉QString自己的编码是什么：

就像下面的函数一样，QString的成员函数知道按照何种编码来处理 C 字符串

QString QString::fromAscii ( const char * str, int size = -1 )

QString QString::fromLatin1 ( const char * str, int size = -1 )

QString QString::fromLocal8Bit ( const char * str, int size = -1 )

QString QString::fromUtf8 ( const char * str, int size = -1 )

单QString 只提供了这几个成员函数，远远满足不了大家的需求，比如，在简体中文Windows下，local8Bit是GBK，可是有一个char串是 BIG5 或 Latin-2怎么办？

那就动用强大的QTextCodec吧，首先QTextCodec肯定知道自己所负责的编码的，然后你把一个char串送给它，它就能正确将其转成Unicode了。

QString QTextCodec::toUnicode ( const char * chars ) const

可是这个调用太麻烦了，我就想直接

QString a= str;

或

QString a(str);

这样用怎么办？

这样一来肯定没办法同时告诉 QString 你的str是何种编码了，只能通过其他方式了。这也就是开头提到的

QTextCodec::setCodecForCStrings(QTextCodec::codecForName("GBK"));

QTextCodec::setCodecForCStrings(QTextCodec::codecForName("UTF-8"));

设置QString默认采用的编码。而究竟采用哪一个，一般来说就是源代码是GBK，就用GBK，源代码是UTF-8就用UTF-8。但有一个例外，如果你保存成了带BOM的UTF-8而且用的微软的cl编译器，此时仍是GBK。

最后是简单的编程上的类型转换，就是具体方法的应用：

/ghostyu/article/details/6998640

qt学习笔记（三） QString char int之间的转换

char * 与 const char *的转换

char *ch1="hello11";

const char *ch2="hello22";

ch2 = ch1;//不报错，但有警告

ch1 = (char *)ch2;

char 转换为 QString 其实方法有很多中，我用的是： char a='b';

QString str;

str=QString(a);

QString 转换为 char

方法也用很多中

QString str="abc";

char *ch;

ch = str.toLatin1.data();

QByteArray 转换为 char *

char *ch;//不要定义成ch[n];

QByteArray byte;

ch = byte.data();

char * 转换为 QByteArray

char *ch;

QByteArray byte;

byte = QByteArray(ch);

QString 转换为 QByteArray

QByteArray byte;

QString string;

byte = string.toAscii();

QByteArray 转换为 QString

QByteArray byte;

QString string;

string = QString(byte);

这里再对这俩中类型的输出总结一下：

qDebug()<<"print";

qDebug()<<tr("print");

qDebug()<<ch;(ch 为char类型)

qDebug()<<tr(ch);

qDebug()<<byteArray;(byteArray是QByteArray类型)

qDebug()<<tr(byteArray);

qDebug()<<str;(str 为Qstring类型)

但是qDebug()<<tr(str);是不可以的，要想用tr()函数输出QString类型的字符则要如下：

qDebug()<<tr(str.toLatin1);

int 转 QString

int a=10;

QString b;

b=QString::number(a)

QString 转int

QString a="120"

int b;

b=a.toInt（）

char * 与 const char *的转换

char *ch1="hello11";

const char *ch2="hello22";

ch2 = ch1;//不报错，但有警告

ch1 = (char *)ch2;

char 转换为 QString

其实方法有很多中，我用的是：

char a='b';

QString str;

str=QString(a);

QString 转换为 char

方法也用很多中

QString str="abc";

char *ch;

ch = str.toLatin1.data();

QByteArray 转换为 char *

char *ch;//不要定义成ch[n];

QByteArray byte;

ch = byte.data();

char * 转换为 QByteArray

char *ch;

QByteArray byte;

byte = QByteArray(ch);

QString 转换为 QByteArray

QByteArray byte;

QString string;

byte = string.toAscii();

QByteArray 转换为 QString

QByteArray byte;

QString string;

string = QString(byte);

这里再对这俩中类型的输出总结一下：

qDebug()<<"print";

qDebug()<<tr("print");

qDebug()<<ch;(ch 为char类型)

qDebug()<<tr(ch);

qDebug()<<byteArray;(byteArray是QByteArray类型)

qDebug()<<tr(byteArray);

qDebug()<<str;(str 为Qstring类型)

但是qDebug()<<tr(str);是不可以的，要想用tr()函数输出QString类型的字符则要如下：

qDebug()<<tr(str.toLatin1);

int 转 QString

int a=10;

QString b;

b=QString::number(a)

QString 转int

QString a="120"

int b;

b=a.toInt（）

另一个

1 QString --> string

QString.toStdString();

2 string --> QString

QString::fromStdString(string)

3 QString --->int,double,char *

QString::toInt()

QString::toDouble()

QString.toStdString().c_str();

4 int double char* --->string

可以采用<sstream>里的stringstream

以int 为例，int a = 3;

stringstream ss;

string strInt;

ss<<a;

ss>>strInt;

开始时所说的病例程序：

背景都是红色的代码作用是相同的，但打出的结果不一样，后面一个出不了正确的信息，这就是为什么开始说的临时变量不能长时间使用

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。