MySQL 中你应该使用什么数据类型表示时间?

当你需要保存日期时间数据时,一个问题来了:你应该使用 MySQL 中的什么类型?使用 MySQL 原生的 DATE 类型还是使用 INT 字段把日期和时间保存为一个纯数字呢?

在这篇文章中,我将解释 MySQL 原生的方案,并给出一个最常用数据类型的对比表。我们也将对一些典型的查询做基准测试,然后得出在给定场景下应该使用什么数据类型的结论。

如果你想直接看结论,请翻到文章最下方。

原生的 MySQL Datetime 数据类型

Datetime 数据表示一个时间点。这可以用作日志记录、物联网时间戳、日历事件数据,等等。MySQL 有两种原生的类型可以将这种信息保存在单个字段中:Datetime 和 Timestamp。MySQL 文档中是这么介绍这些数据类型的:

DATETIME 类型用于保存同时包含日期和时间两部分的值。MySQL 以 ‘YYYY-MM-DD HH:MM:SS’ 形式接收和显示 DATETIME 类型的值。

TIMESTAMP 类型用于保存同时包含日期和时间两部分的值。

DATETIME 或 TIMESTAMP 类型的值可以在尾部包含一个毫秒部分,精确度最高到微秒(6 位数)。

TIMESTAMP 和 DATETIME 数据类型提供自动初始化和更新到当前的日期和时间的功能,只需在列的定义中设置 DEFAULT CURRENTTIMESTAMP 和 ON UPDATE CURRENTTIMESTAMP。

作为一个例子:

除了原生的日期时间表示方法,还有另一种常用的存储日期和时间信息的方法。即使用 INT 字段保存 Unix 时间(从1970 年 1 月 1 日协调世界时(UTC)建立所经过的秒数)。

MySQL 也提供了只保存时间信息中的一部分的方式,通过使用 Date、Year 或 Time 类型。由于这篇文章是关于保存准确时间点的最佳方式的,我们没有讨论这些不那么精确的局部类型。

使用 INT 类型保存 Unix 时间

使用一个简单的 INT 列保存 Unix 时间是最普通的方法。使用 INT,你可以确保你要保存的数字可以快速、可靠地插入到表中,就像这样:

这就是关于它的所有内容了。它仅仅是个简单的 INT 列,MySQL 的处理方式是这样的:在内部使用 4 个字节保存那些数据。所以如果你在这个列上使用 SELECT 你将会得到一个数字。如果你想把这个列用作日期进行比较,下面的查询并不能正确工作:

这是因为 MySQL 把 INT 视为数字,而非日期。为了进行日期比较,你必须要么获取( LCTT 译注:从 1970-01-01 00:00:00)到 2016-01-01 经过的秒数,要么使用 MySQL 的 FROM_UNIXTIME() 函数把 INT 列转为 Date 类型。下面的查询展示了 FROM_UNIXTIME() 函数的用法:

这会正确地获取到日期在 2016-01-01 之后的记录。你也可以直接比较数字和 2016-01-01 的 Unix 时间戳表示形式,即 1451606400。这样做意味着不用使用任何特殊的函数,因为你是在直接比较数字。查询如下:

假如这种方式不够高效甚至提前做这种转换是不可行的话,那该怎么办?例如,你想获取 2016 年所有星期三的记录。要做到这样而不使用任何 MySQL 日期函数,你就不得不查出 2016 年每个星期三的开始和结束时间的 Unix 时间戳。然后你不得不写很大的查询,至少要在 WHERE 中包含 104 个比较。(2016 年有 52 个星期三,你不得不考虑一天的开始(0:00 am)和结束(11:59:59 pm)…)

结果是你很可能最终会使用 FROM_UNIXTIME() 转换函数。既然如此,为什么不试下真正的日期类型呢?

使用 Datetime 和 Timestamp

Datetime 和 Timestamp 几乎以同样的方式工作。两种都保存日期和时间信息,毫秒部分最高精确度都是 6 位数。同时,使用人类可读的日期形式如 “2016-01-01″ (为了便于比较)都能工作。查询时两种类型都支持“宽松格式”。宽松的语法允许任何标点符号作为分隔符。例如,”YYYY-MM-DD HH:MM:SS” 和 “YY-MM-DD HH:MM:SS” 两种形式都可以。在宽松格式情况下以下任何一种形式都能工作:

其它宽松格式也是允许的;你可以在 MySQL 参考手册 找到所有的格式。

默认情况下,Datetime 和 Timestamp 两种类型查询结果都以标准输出格式显示 —— 年-月-日 时:分:秒 (如 2016-01-01 23:59:59)。如果使用了毫秒部分,它们应该以小数值出现在秒后面 (如 2016-01-01 23:59:59.5)。

Timestamp 和 Datetime 的核心不同点主要在于 MySQL 在内部如何表示这些信息:两种都以二进制而非字符串形式存储,但在表示日期/时间部分时 Timestamp (4 字节) 比 Datetime (5 字节) 少使用 1 字节。当保存毫秒部分时两种都使用额外的空间 (1-3 字节)。如果你存储 150 万条记录,这种 1 字节的差异是微不足道的:

150 万条记录 * 每条记录 1 字节 / (1048576 字节/MB) = 1.43 MB

Timestamp 节省的 1 字节是有代价的:你只能存储从 ‘1970-01-01 00:00:01.000000’ 到 ‘2038-01-19 03:14:07.999999’ 之间的时间。而 Datetime 允许你存储从 ‘1000-01-01 00:00:00.000000’ 到 ‘9999-12-31 23:59:59.999999’ 之间的任何时间。

另一个重要的差别 —— 很多 MySQL 开发者没意识到的 —— 是 MySQL 使用服务器的时区转换 Timestamp 值到它的 UTC 等价值再保存。当获取值是它会再次进行时区转换,所以你得回了你“原始的”日期/时间值。有可能,下面这些情况会发生。

理想情况下,如果你一直使用同一个时区,MySQL 会获取到和你存储的同样的值。以我的经验,如果你的数据库涉及时区变换,你可能会遇到问题。例如,服务器变化(比如,你把数据库从都柏林的一台服务器迁移到加利福尼亚的一台服务器上,或者你只是修改了一下服务器的时区)时可能会发生这种情况。不管哪种方式,如果你获取数据时的时区是不同的,数据就会受影响。

Datetime 列不会被数据库改变。无论时区怎样配置,每次都会保存和获取到同样的值。就我而言,我认为这是一个更可靠的选择。

MySQL 文档:

MySQL 把 TIMESTAMP 值从当前的时区转换到 UTC 再存储,获取时再从 UTC 转回当前的时区。(其它类型如 DATETIME 不会这样,它们会“原样”保存。) 默认情况下,每个连接的当前时区都是服务器的时区。时区可以基于连接设置。只要时区设置保持一致,你就能得到和保存的相同的值。如果你保存了一个 TIMESTAMP 值,然后改变了时区再获取这个值,获取到的值和你存储的是不同的。这是因为在写入和查询的会话上没有使用同一个时区。当前时区可以通过系统变量 time_zone 的值得到。更多信息,请查看 MySQL Server Time Zone Support。

对比总结

在深入探讨使用各数据类型的性能差异之前,让我们先看一个总结表格以给你更多了解。每种类型的弱点以红色显示。

qq%e6%88%aa%e5%9b%be20160910204851

qq%e6%88%aa%e5%9b%be20160910205037

qq%e6%88%aa%e5%9b%be20160910205144

基准测试 INT、Timestamp 和 Datetime 的性能

为了比较这些类型的性能,我会使用我创建的一个天气预报网络的 150 万记录(准确说是 1,497,421)。这个网络每分钟都收集数据。为了让这些测试可复现,我已经删除了一些私有列,所以你可以使用这些数据运行你自己的测试。

基于我原始的表格,我创建了三个版本:

datetimemeasures 表在 measured_on 列使用 Datetime 类型,表示天气预报记录的测量时间
timestampmeasures 表在 measured_on 列使用 Timestamp 类型
inttimestampmeasures 表在 measured_on 列使用 INT (unsigned) 类型
这三个表拥有完全相同的数据;唯一的差别就是 measured_on 字段的类型。所有表都在 measured_on 列上设置了一个索引。

基准测试工具

为了评估这些数据类型的性能,我使用了两种方法。一种基于 Sysbench,它的官网是这么描述的:

“… 一个模块化、跨平台和多线程的基准测试工具,用以评估那些对运行高负载数据库的系统非常重要的系统参数。”

这个工具是 MySQL 文档中推荐的。

如果你使用 Windows (就像我),你可以下载一个包含可执行文件和我使用的测试查询的 zip 文件。它们基于 一种推荐的基准测试方法。

为了执行一个给定的测试,你可以使用下面的命令(插入你自己的连接参数):

这会正常工作,这里 sysbench_test_file.lua 是测试文件,并包含了各个测试中指向各个表的 SQL 查询。

为了进一步验证结果,我也运行了 mysqlslap。它的官网是这么描述的:

“mysqlslap 是一个诊断程序,为模拟 MySQL 服务器的客户端负载并报告各个阶段的用时而设计。它工作起来就像是很多客户端在同时访问服务器。”

记得这些测试中最重要的不是所需的绝对时间。而是在不同数据类型上执行相同查询时的相对时间。这两个基准测试工具的测试时间不一定相同,因为不同工具的工作方式不同。重要的是数据类型的比较,随着我们深入到测试中,这将会变得清楚。

基准测试

我将使用三种可以评估几个性能方面的查询:

  • 时间范围选择

在 Datetime 和 Timestamp 数据类型上这允许我们直接比较而不需要使用任何特殊的日期函数。

同时,我们可以评估在 INT 类型的列上使用日期函数相对于使用简单的数值比较的影响。为了做到这些我们需要把范围转换为 Unix 时间戳数值。

  • 日期函数选择

与前个测试中比较操作针对一个简单的 DATE 值相反,这个测试使得我们可以评估使用日期函数作为 “WHERE” 子句的一部分的性能。

我们还可以测试一个场景,即我们必须使用一个函数将 INT 列转换为一个合法的 DATE 类型然后执行查询。

  • count() 查询

作为对前面测试的补充,这将评估在三种不同的表示类型上进行典型的统计查询的性能。

我们将在这些测试中覆盖一些常见的场景,并看到三种类型上的性能表现。

关于 SQL_NO_CACHE

当在查询中使用 SQL_NO_CACHE 时,服务器不使用查询缓存。它既不检查查询缓存以确认结果是不是已经在那儿了,也不会保存查询结果。因此,每个查询将反映真实的性能影响,就像每次查询都是第一次被调用。

测试 1:选择一个日期范围中的值

这个查询返回总计 1,497,421 行记录中的 75,706 行。

查询 1 和 Datetime:

性能

qq%e6%88%aa%e5%9b%be20160910205651

查询 1 和 Timestamp:

性能

qq%e6%88%aa%e5%9b%be20160910205848

查询 1 和 INT:

性能

qq%e6%88%aa%e5%9b%be20160910210029

另一种 INT 上的查询 1:

由于这是个相当直接的范围搜索,而且查询中的日期可以轻易地转为简单的数值比较,我将它包含在了这个测试中。结果证明这是最快的方法 (你大概已经预料到了),因为它仅仅是比较数字而没有使用任何日期转换函数:

性能

qq%e6%88%aa%e5%9b%be20160910210218

测试 1 总结

qq%e6%88%aa%e5%9b%be20160910210341

两种基准测试工具都显示 Datetime 比 Timestamp 和 INT 更快。但 Datetime 没有我们在另一种 INT 查询中使用的简单数值比较快。

测试 2:选择星期一产生的记录

这个查询返回总计 1,497,421 行记录中的 221,850 行。

查询 2 和 Datetime:

性能

qq%e6%88%aa%e5%9b%be20160910210501

查询 2 和 Timestamp:

性能

qq%e6%88%aa%e5%9b%be20160910210657

查询 2 和 INT:

性能

qq%e6%88%aa%e5%9b%be20160910210838

测试 2 总结

qq%e6%88%aa%e5%9b%be20160910211046

再次,在两个基准测试工具中 Datetime 比 Timestamp 和 INT 快。但在这个测试中,INT 查询 —— 即使它使用了一个函数以转换日期 —— 比 Timestamp 查询更快得到结果。

测试 3:选择星期一产生的记录总数

这个查询返回一行,包含产生于星期一的所有记录的总数(从总共 1,497,421 行可用记录中)。

查询 3 和 Datetime:

性能

qq%e6%88%aa%e5%9b%be20160910211204

查询 3 和 Timestamp:

性能

qq%e6%88%aa%e5%9b%be20160910211328

查询 3 和 INT:

性能

qq%e6%88%aa%e5%9b%be20160910211459

测试 3 总结

qq%e6%88%aa%e5%9b%be20160910211610

再一次,两个基准测试工具都显示 Datetime 比 Timestamp 和 INT 快。不能判断 INT 是否比 Timestamp 快,因为 mysqlslap 显示 INT 比 Timestamp 略快而 Sysbench 却相反。

注意: 所有测试都是在一台 Windows 10 机器上本地运行的,这台机器拥有一个双核 i7 CPU,16GB 内存,运行 MariaDB v10.1.9,使用 innoDB 引擎。

结论

基于这些数据,我确信 Datetime 是大多数场景下的最佳选择。原因是:

  • 更快(根据我们的三个基准测试)。
  • 无需任何转换即是人类可读的。
  • 不会因为时区变换产生问题。
  • 只比它的对手们多用 1 字节
  • 支持更大的日期范围(从 1000 年到 9999 年)

如果你只是存储 Unix 时间戳(并且在它的合法日期范围内),而且你真的不打算在它上面使用任何基于日期的查询,我觉得使用 INT 是可以的。我们已经看到,它执行简单数值比较查询时非常快,因为只是在处理简单的数字。

Timestamp 怎么样呢?如果 Datetime 相对于 Timestamp 的优势不适用于你特殊的场景,你最好使用时间戳。阅读这篇文章后,你对三种类型间的区别应该有了更好的理解,可以根据你的需要做出最佳的选择。

1 11 收藏 11 评论

相关文章

可能感兴趣的话题



直接登录
最新评论
  • theboboy   2016/09/14

    为什么不能用20160914104326这种bigint表示呢  比date占的空间小  处理起来很方便  人类又能看懂

    • 关键是计算机看不懂

      • theboboy   2016/10/20

        这要靠业务代码去把它变成个计算机的DateTime   但写一次就可以 肯定要比上面的方案划算

    • sender_is_sender 高级打杂 2016/10/20

      你这种表示方式最大问题在于所有的时间的增减量都要自己另外写函数(要么存储过程,要么业务逻辑)才能实现,不是不行,太折腾了。

      • theboboy   2016/10/20

        必须要写逻辑   对于Java来说  就是一个过滤器和一个AOP的事儿

        • sender_is_sender 高级打杂 2016/10/20

          有现成的实现么?可以处理比如给出一个时间,求这个时间所在月的最后一天的最后一秒这样的计算么?

          • theboboy   2016/10/21

            只要在出库时到Java变成了Date/Timestamp/Calendar/LocalDateTime  至于后边干什么  是你说了算的  这里强调的是时间存储以及表示上  只要这种实现  剩下的都能用公共的 可重用的代码去解决  不是吗

            • sender_is_sender 高级打杂 2016/10/21

              原来你是这个意思,但我认为没有什么实质好处。转入转出也是要耗费计算资源,且这种情况下基于java做的过滤器效率多数不如原生数据库系统基于C/C++来得高,因为逃不掉要基于字符串来做转换。另一方面,人眼直读也不见得比原生的要容易读啊,因为没有分隔符。而且过滤器的转换实现也太复杂了,就无效日期检查就已经大费周章,等于把原来数据库系统的实现自己又做了一次,感觉某程度上是重复发明轮子呢。

              • theboboy   2016/10/24

                不是  数据库只是用来存储  只要保证select/insert效率高就可以了  没必要帮你去做一些日期转换等等的操作  虽然它有  而且做的也足够好  但它太底层了 我们对数据库的操作就不能太复杂  你说的重复造轮子  也算是  也不算  算是因为完成了相同的功能  不算是因为我们是把可以提前解决的问题前置  这也是分层的一个思想  日期校验什么的  都应该是前面完成的  不该给数据库  数据库要做的就是存取  不参与逻辑运算  至于效率  不能单单这样考虑  而是要考虑一个平衡性  我Java这边稍微慢点  还能保持在一个数量级  再不够  加机器  横向扩展是很容易的  但是数据库那边  日期类型最大的缺陷在于占用的空间大  导致IO慢  这个解决起来就不那么容易了

                • sender_is_sender 高级打杂 2016/10/29

                  基于你的看法“只要保证select/insert效率高就可以了”,那么这个讨论就已经走偏了。这个观点明显就是nosql的范畴,而这篇文章的主题还是关系数据库(虽然mysql也可以提供近似nosql的服务),把两个不同的方向混成一谈的讨论是没有结果的。

                  至于“日期校验什么的  都应该是前面完成的  不该给数据库  数据库要做的就是存取  不参与逻辑运算”,我也有不同看法。数据库系统是必须对进入的数据进行必要的校验的,尤其是关系数据库(此文的前提)。除非是NOSQL中最简单直接的KEY/VALUE方式,那才不需要校验类型(但长度还是有可能需要校验)。

                  至于日期类型占空间IO这个看法明显不成立。datetime才5个字节,而int64是8个字节。就算说5个字节不利于对齐直接拉大到8个字节,那也是平手而已。

                  另一方面,IO的因素也不能只是简单地从数据类型的字节数去判定,还有很多为了实现事务而必须的原子操作机制需要综合考虑。而且随着企业级SSD的广泛应用,内存数据库的不断发展,IO问题已经不如以前那么令人关注了。

                  • theboboy   2016/10/31

                    不扯了 这东西怎么说怎么有理  实际上我就是这样用的  而且用的很爽  每种设计和实现都有不同的场景  你说的SSD什么的 这都是我这里没有的  只要保证select/insert效率高就可以了  我的项目就是这样  在保证数据准确的前提下  响应速度优先  至于你说的  必须对进入的数据进行必要的校验的  我都会前置  这也是我的场景  错误早返回  没必要白白浪费数据库连接  总体来说  各自有各自的场景  谁也不错

跳到底部
返回顶部