XML知识点滴(2)

fengzhiyin

浏览: 571202 次
性别:
来自: 北京

最近访客更多访客>>

gxlit

chuan518

oyzcha

nihao005588

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

XML技术

XML HTML 数据结构浏览器

XML知识点滴(2)

(引用文章，版权归作者，如需删除请联系我)

XML与HTML的比较

n XML将数据与显示分开

<html>

<head>

</head>

<body>

窗前明月光，疑是地上霜。<br>

举头望明月，低头思故乡。</font></i></b>

</center>

</body>

</html>

<?xml version="1.0" encoding="gb2312"?>

<poem>

<line>窗前明月光</line>

<line>疑是地上霜</line>

<line>举头望明月</line>

<line>低头思故乡</line>

</content>

</poem>

n XML对文档的格式要求更加严格

由于HTML文档格式非常松散，导致了HTML文档解析的复杂性，也造成了浏览器兼容的问题，所以XML从一开始，就对文档的格式制定了非常严格的标准，凡是符合这一标准的XML文档就是格式良好的XML文档（Well-Formed XML Documents）。

1) 开始标签必须要有一个结束标签

在HTML文档中，可以直接使用<p>、<tr>、<td>等标签，而不加结束标签，在XML中，开始标签和结束标签必须配套，也就是必须写成<p>…</p>、<tr>…</tr>、<td>…</td>

2) 空元素标签必须被关闭

在HTML文档中，可以使用<br>、<hr>、<img src=”logo.gif” width=”197” height=”81”>等标签，而在XML中，空元素标签必须被关闭。空元素标签用斜杠（/）来关闭，例如：<br/>、<hr/>、<img src=”logo.gif” width=”197” height=”81”/>

3) 所有的标签都区分大小写

在HTML文档中，标签是不区分大小写的，<tr>和</TR>是tr元素的开始标签和结束标签，但是在XML中，<tr>和<TR>是两个不同的标签，开始标签和结束标签的大小写形式必须一致。

4) 所有的标签必须合理嵌套

在HTML文档中，<b><i>…</b></i>是允许的，但是在XML中，这是错误的。在XML中，所有的标签都要成对出现，合理嵌套，正确的形式是：<b><i>…</i></b>。

5) 所有标签的属性值必须用双引号（“”）或单引号（‘’）括起来

在HTML文档中，属性值可以加引号，也可以不加，例如：<hr color=”blue”>和<hr color=blue>都是合法的。在XML文档中，即使是数字字符，也必须加双引号或单引号，例如：<student name=”zhangsan” age=’18’ />。

6) XML有且只能有一个根元素

在HTML中，可以有多个根元素，如下：

但在XML中，有且只能有一个根元素，如下：

<?xml version=”1.0” encoding=”gb2312”?>

<table>

…

</table>

XML的编辑工具

n Notepad

n UltraEdit

n XMLSpy

XML文档

n 每一个XML文档都有一个逻辑和一个物理结构。

n 物理上而言，文档由称为实体（entities）的存储单元组成，实体都具有内容并且都通过实体的名字进行标识（文档实体和外部DTD子集除外）。实体可以是一段文本、一个文件、一个数据库记录或其他包含数据的项目。一个实体可以引用其他的实体，从而将它们包含在文档中。文档开始于“根（root）”或文档实体（document entitiy）。

n 格式良好的XML文档形成了一种层次树结构，而这个树的书根就是文档实体，与其他实体不同，文档实体没有名字，只有用于表示文档树的根。XML文档的根元素被称为文档元素（document element），它和在其他外部出现的处理指令、注释等作为文档实体的子结点，而根元素本身和其内部的子元素也是一颗树。

n 实体可以包含已分析（parsed）的或未分析的（unparsed）数据。已分析的数据由字符组成，其中一些字符组成字符数据，另一些字符组成标记。已分析的实体（parsed entity）内容被称为它的替换文本，这个文本被看成是文档整体的一部分。在XML处理器分析XML文档时，凡是文档中出现引用已分析实体的地方，都将被该实体的内容所替换。

n 未分析的实体（unparsed entity）是一种资源，它的内容可以是也可以不是文本，并且，如果是文本的话，可以不是XML文本。每一个未分析的实体有一个相关联的用名字标识的记号（notation）。除了要求XML处理器能向应用程序提供可用的实体和记号的标识之外，XML对未分析的实体内容不作任何限制。

n 已分析的实体以实体引用的方式通过名称来调用；未分析的实体通过ENTITY或ENTITIES属性中给出的名字来调用。

n 逻辑上而言，文档由声明、元素、注释、字符引用和处理指令组成，在文档中，所有这些都是通过显式的标记（markup）来指明的。

n XML标记（markup）包括开始标签（tag）、结束标签、空元素标签、实体引用、字符引用、注释、CDATA段定界符、文档类型声明、处理指令、XML声明、文本声明以及任何在文档实体顶层的空白（即，在文档元素之外，且不在任何其他的标记内部）。其他所有非标记的文本组成文档的字符数据。

n XML文档在逻辑上主要由以下五个部分组成

1) XML声明

2) 文档类型声明

3) 元素

4) 注释

5) 处理指令

分享到：

XML知识点滴(3) | XML知识点滴(1)

2008-07-24 09:59
浏览 1351
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论