GIS的基础概念

Geographic Information Systems,GIS的定义、常用术语

GIS的定义

地理信息系统(英语:Geographic Information System,缩写:GIS)是一门综合性学科,结合地理学与地图学,已经广泛的应用在不同的领域,是用于输入、存储、查询、分析和显示地理数据的计算机系统,可以分为以下五部分:

  • 人员,是GIS中最重要的组成部分。开发人员必须定义GIS中被执行的各种任务,开发处理程序。熟练的操作人员通常可以克服GIS软件功能的不足,但是相反的情况就不成立。最好的软件也无法弥补操作人员对GIS的一无所知所带来的副作用。
  • 数据,精确可用的数据可以影响到查询和分析的结果。
  • 硬件,硬件的性能影响到处理速度,使用是否方便及可能的输出方式。
  • 软件,不仅包含GIS软件,还包括各种数据库,绘图、统计、影像处理及其它程序。
  • 过程,GIS要求明确定义,一致的方法来生成正确的可验证的结果。

GIS属于信息系统的一类,不同在于它能运作和处理地理参照数据。地理参照数据描述地球表面(包括大气层和较浅的地表下空间)空间要素的位置和属性,在GIS中的两种地理数据成分:空间数据,与空间要素几何特性有关;属性数据,提供空间要素的信息。

wiki链接

GIS是一种存储、管理、分析和可视化地理空间数据的系统。

GIS中的常见术语

  1. 空间数据(Spatial Data)
    • 矢量数据(Vector Data):用点、线和面来表示地理特征的数据类型,适合描述离散地物,如建筑物、道路等。
    • 栅格数据(Raster Data):用像素网格(通常为正方形)表示连续数据,每个像素有相应的数值,常用于表示地形、温度等连续变化的区域。
    • 属性数据(Attribute Data):描述空间要素的非空间信息,如道路的名称、长度等。
  2. 地理编码(Geocoding)

    将地址或地点名称转换为地理坐标的过程,通常用于定位和导航应用。

  3. 坐标参考系统(Coordinate Reference System, CRS)
    • 地理坐标系(Geographic Coordinate System, GCS):基于地球的球面模型,通常用纬度和经度表示。
    • 投影坐标系(Projected Coordinate System, PCS):对地理数据进行平面投影的坐标系,以便在二维空间中表示和分析,常用如墨卡托投影等。
  4. 空间分析(Spatial Analysis)

    对空间数据进行分析处理的过程,常见的包括缓冲区分析、叠加分析和网络分析等。

  5. 缓冲区(Buffer)

    在特定要素周围创建的区域,用于分析距离影响,如确定河流周围的生态保护区域。

  6. 叠加分析(Overlay Analysis)

    将多个图层进行叠加以分析空间关系,比如将土地使用图和洪水风险图叠加以确定高风险区域。

  7. 空间关系(Spatial Relationship)
    • 邻接(Adjacency):判断两个要素是否相邻。
    • 包含(Containment):判断一个要素是否位于另一个要素的边界内。
    • 相交(Intersection):判断两个要素是否重叠或交叉。
  8. 遥感(Remote Sensing)

    通过卫星、无人机或传感器等手段收集地表信息的技术,常用于获取栅格数据。

  9. 地理数据库(Geodatabase)

    专门存储和管理空间数据的数据库,支持复杂的数据关系和空间分析。

  10. Web 地图服务(Web Map Service, WMS)

    一种标准化的网络服务协议,用于在互联网上发布和共享地图图层。

  11. 全球导航卫星系统(Global Navigation Satellite System, GNSS)

    包括 GPS、北斗等系统,通过卫星定位提供精确的位置信息。

  12. 栅格分析(Raster Analysis)

    处理和分析栅格数据的技术,比如地形分析、影像分类等。

  13. 空间索引(Spatial Index)

    数据库中用于加速空间查询的一种索引结构,如 R 树(R-Tree)和四叉树(Quad-Tree)。

  14. 地形分析(Terrain Analysis)

    分析地形特征,如高程、坡度和坡向等,用于研究地貌或构建三维模型。

  15. 空间数据基础设施(Spatial Data Infrastructure, SDI)

    提供数据、技术和政策以支持空间数据的共享和利用的架构或平台。

GIS的常见开发应用场景

GIS能帮助我们在空间维度更快更好更直观地分析数据,通过GIS的信息查询匹配,能够为用户提供高效、精准的地理信息服务,支持业务决策,提升用户体验。

常见的GIS系统功能:

  • 空间查询与分析
    • 邻近查询:实现基于经纬度的附近地点或用户查询,支持快速定位和范围查询。
    • 空间分析:开发空间分析功能(如缓冲区分析、叠加分析),为业务决策提供支持。
  • 位置服务与推荐系统
    • 基于位置的服务(LBS):开发位置相关的推荐系统(如外卖、商店推荐),根据用户位置提供个性化服务。
    • 实时位置跟踪:实现实时位置更新和跟踪功能,支持物流、交通等应用。

常见的空间数据库

空间数据库,是一种专门设计用于存储、查询和处理地理空间数据的数据库系统。

它与传统数据库的区别在于:除了存储常规的数据类型(如整数、字符串等),空间数据库还支持存储和管理复杂的几何数据类型,比如点(point)、线(line)、面(polygon)等,这些类型可以表示地理位置、区域、路径等地理信息。

普通数据库提供了索引机制,方便对数据进行快速访问,如B-Tree索引。空间数据库支持空间索引,如 R 树、四叉树等,用于快速检索和查询空间数据。

PostGIS(半壁江山,功能丰富,性能强悍)

PostGIS 是 PostgreSQL 的一个扩展,提供对地理对象的支持,使 PostgreSQL 成为一个功能强大的地理信息系统(GIS)数据库。

主要特性:

  • 支持丰富的空间数据类型,包括点、线、面、多边形等。
  • 提供大量的空间函数和操作,如距离计算、缓冲区分析、空间连接等。
  • 支持标准的 SQL 查询语言,能够与 PostgreSQL 的其他特性(如事务、并发控制)无缝集成。
  • 支持空间索引(如 GIST 和 SP-GiST),加速空间查询性能。

应用场景:适用于需要复杂空间分析和地理数据处理的应用,如地图服务、城市规划、环境监测等。

MongoDB

MongoDB 是一个面向文档的 NoSQL 数据库,支持地理空间数据存储和查询。

主要特性:

  • 提供对 GeoJSON 格式的支持,可以存储点、线和多边形等地理数据。
  • 支持地理空间索引(2D 和 2DSphere),加速地理查询,如查找附近的地点。
  • 提供丰富的查询操作,如 $geoWithin 和 $near,用于空间搜索和分析。
  • 应用场景:适合存储非结构化数据和需要高可扩展性的应用,如位置服务、实时数据分析和社交网络等。

Elasticsearch (ES)

Elasticsearch 是一个开源的分布式搜索和分析引擎,广泛用于日志分析和全文搜索,也支持地理空间数据处理。

主要特性:

  • 支持 GeoJSON 数据格式,能够存储和查询地理位置数据。
  • 提供强大的地理查询功能,如距离查询、范围查询和聚合分析。
  • 可以与 Kibana 结合使用,提供可视化的地理数据分析和展示。
  • 支持高效的分布式存储和扩展性,适合大规模数据处理。
  • 应用场景:适用于需要快速搜索和分析大量数据的场景,如日志分析、地理数据监控和实时数据搜索。

Redis

Redis 是一个高性能的键值存储数据库,虽然主要用作缓存,但也支持地理空间数据。

主要特性:

  • 提供内置的地理空间命令(如 GEOADD、GEORADIUS),支持存储和查询地理坐标。
  • 可以快速执行地理位置查询,如查找某个位置周围的其他位置。
  • 适用于快速的地理数据缓存和临时存储。
  • 应用场景:常用于需要快速响应的应用场景,如实时位置服务、推荐系统和社交应用。

GeoJSON

GeoJSON 是一种用于编码各种地理数据结构的格式,它采用JSON格式表示地理数据。

可以在https://geojson.io上参考效果

{
"type": "FeatureCollection",
"features": [
  {
  "type": "Feature",
  "geometry": {
    "type": "Point",
    "coordinates": [102.0, 0.5]
    },
  "properties": {
    "prop0": "value0"
    }
  },
  {
  "type": "Feature",
  "geometry": {
    "type": "LineString",
    "coordinates": [
      [102.0, 0.0], [103.0, 1.0], [104.0, 0.0], [105.0, 1.0]
      ]
    },
  "properties": {
    "prop0": "value0",
    "prop1": 0.0
    }
  },
  {
  "type": "Feature",
  "geometry": {
    "type": "Polygon",
    "coordinates": [
      [
        [100.0, 0.0], [101.0, 0.0], [101.0, 1.0],
        [100.0, 1.0], [100.0, 0.0]
      ]
    ]},
  "properties": {
    "prop0": "value0",
    "prop1": {"this": "that"}
    }
  }
]
}

GeoHash

GeoHash 是一种用于地理空间编码的算法,它将二维地理坐标(经纬度)转换为字符串表示,用于表示地理位置或区域。GeoHash 将地球表面按特定规则划分为网格,每个网格用唯一的字符串表示,字符串的精度与网格的大小成正比。GeoHash 最早由 Gustavo Niemeyer 提出,广泛应用于地理信息系统(GIS)、位置服务和大数据处理等场景。

GeoHash的原理

GeoHash 使用一种类似分治法的方式递归划分地球表面区域:

  1. 将地球经度划分为 [-180, 180] 的区间、纬度划分为 [-90, 90] 的区间,初始时整个地球视为一个区域。
  2. 逐步对区域进行二分,以纬度和经度为基准分别划分,直到满足精度需求。
  3. 使用二进制编码方式来标识每次划分的结果,最终将一串二进制数转换为Base32字符串,生成 GeoHash 值。

例如,wx4g0d 是北京某个位置的GeoHash值,字符越多,位置精度越高。而越相邻的地方,前缀就越相同。

GeoHash的优点

  1. 快速定位和查询:GeoHash 值可以直接用于数据库查询,尤其适合于空间索引和范围查询。GeoHash 可以将地理位置转化为字符串进行存储和索引,显著提高查询速度。

  2. 支持空间聚类:GeoHash 编码具有邻近性,即相近的地理位置会有相似的编码前缀。因此,可以通过前缀匹配快速找到相邻区域的地理位置。

  3. 灵活的精度控制:GeoHash 的精度可以通过字符串长度控制,字符串越长,位置越精确。例如,长度为 6 的 GeoHash 精度约为 1.2km,而长度为 12 的精度可达几米。

GeoHash的精度

GeoHash生成的Base32字符串越长,其代表的精度就越高。以下是 GeoHash 字符长度与精度的对照表:

GeoHash 长度 经度精度(米) 纬度精度(米) 覆盖区域(大致范围)
1 ±5,000,000 ±5,000,000 约 5000 x 5000 公里
2 ±1,250,000 ±625,000 约 1250 x 625 公里
3 ±156,000 ±156,000 约 156 x 156 公里
4 ±39,100 ±19,500 约 39 x 19 公里
5 ±4,890 ±4,890 约 4.9 x 4.9 公里
6 ±1,220 ±609 约 1.2 x 0.6 公里
7 ±153 ±153 约 153 x 153 米
8 ±38.2 ±19.1 约 38 x 19 米
9 ±4.77 ±4.77 约 4.7 x 4.7 米
10 ±1.19 ±0.596 约 1.2 x 0.6 米
11 ±0.149 ±0.149 约 15 x 15 厘米
12 ±0.0372 ±0.0186 约 3.7 x 1.8 厘米

GeoHash的局限性

  1. GeoHash是基于经纬度的矩形划分,而地球实际是一个球形。所以海拔越高,GeoHash的失真度就越高。
    • 球的经线在两极处汇聚,而在赤道处最远离,因此高纬度地区的经度单位(相同的度数)所代表的实际距离会比低纬度地区小。
    • 在高纬度地区,GeoHash 编码所代表的网格会变得相对较宽,但高度可能相对较小,从而导致覆盖区域的实际形状扭曲。
  2. 存在跨越网格的情况,因此如果要准确的查询相邻的人,需要查询多个领域