Kodovani souboru

Tintin tintin na centrum.cz
Čtvrtek Leden 15 12:17:08 CET 2004


Ano s tim dvojtym parserovnim souhlasim a tak asi udelam.
Ono UNICODE je jednoznacne poznat podle prvnich dvou baitu a to FF FE nebo
FE FF. Tak to poznam.
Pokud tam tyto baity na zacatku nejsou jde but o
ISO-8859-2,WINDOWS-1250,UTF-8.
UTF-8 je taky nejakym bajtem urcite specificke, dle mne je to 0D nebo 0A coz
je pro oddeleni radku. Ale mozna se mylim.
U win-1250 jsou baity 9A 9B 9E 8A 8D 8E ale v iso-8859-2 nejsou nic.
Takze mozna by to slo i nejak takhle.


----- Original Message ----- 
From: "Martin Kuba" <makub na ics.muni.cz>
To: "Java" <konference na java.cz>
Sent: Wednesday, January 14, 2004 3:49 PM
Subject: Re: Kodovani souboru


> TomášKonečný wrote:
> > Dobry den
> >
> > potrebuji zjistit jake je pouzite kodovani vraceneho souboru ze serveru.
Podle getConnentType poznam pouze, ze jde o text/html. A pak potrebuji
parseru HTMl stranek predat vraceny InputStream a pouzite kodovani.
> >
> > K parserovani pouzivam HTMLParser. U JTidy jsem mnel problemy s
cestinou, takze ho nepouzivam. Pokud by nekdo vedel jak nastavit JTidy, at
mne neprasi cestinu tak bych byl vdecen.
>
> No to neni trivialni problem. Hlavicka Content-Type
> muze mit parametr charset, ktery to kodovani urcuje. Takze
> pokud je to napr.
>
> Content-Type: text/html;charset=utf-8
>
> tak je to v utf-8. Pokud tam ten parametr neni, tak je to
> podle RFC v ISO-8859-1. Jenze pokud je to specialne HTML, tak
> muze mit v sobe tag
>
> <html>
>   <head>
>    <meta http-equiv="Content-Type" content="text/html;charset=utf-8">
>
> ktery jakoby pridava dalsi HTTP hlavicku, a proto muze urcovat
> kodovani on. Jenze ten text si neprectete, dokud HTML nerozparsujete.
>
> Podobne, pokud je obsahem XML/XHTML, tak uvodni XML preambule
>
> <?xml version="1.0" >
>
> znamena, ze je ten text v utf-8, jakozto defaultnim kodovani XML,
> nebo pokud ma atribut encoding="iso-8859-2", tak urcuje kodovani on.
>
> Proste budete muset dokument nejdriv nacist, podle jeho druhu
> zjistit, jestli nespecifikuje kodovani sam v sobe, a pokud ano,
> rozparsovat ho znovu.
>
> makub
> -- 
> ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
> Supercomputing Center Brno             Martin Kuba
> Institute of Computer Science    email: makub na ics.muni.cz
> Masaryk University             http://www.ics.muni.cz/~makub/
> Botanicka 68a, 60200 Brno, CZ     mobil: +420-603-533775
> --------------------------------------------------------------
>



Další informace o konferenci Konference