面试官:千万级数据,怎么快速查询?
技术百科
Java后端技术全栈
发布时间:2023-08-16
浏览: 次 先来看一个面试场景:
面试官:来说说,一千万的数据,你是怎么查询的? 小哥哥:直接分页查询,使用limit分页。 面试官:有实操过吗? 小哥哥:肯定有呀
也许有些朋友根本就没遇过上千万数据量的表,也不清楚查询上千万数据量的时候会发生什么。
今天就来带大家实操一下,这次是基于MySQL 5.7.26版本做测试
准备数据
没有一千万的数据怎么办?
创建呗
代码创建一千万?那是不可能的,太慢了,可能真的要跑一天。可以采用数据库脚本执行速度快很多。
创建表
CREATE TABLE `user_operation_log` ( `id` int(11) NOT NULL AUTO_INCREMENT, `user_id` varchar(64) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL, `ip` varchar(20) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL, `op_data` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL, `attr1` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL, `attr2` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL, `attr3` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL, `attr4` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL, `attr5` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL, `attr6` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL, `attr7` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL, `attr8` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL, `attr9` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL, `attr10` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL, `attr11` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL, `attr12` varchar(255) CHARACTER SET utf8mb4 COLLATE utf8mb4_general_ci NULL DEFAULT NULL, PRIMARY KEY (`id`) USING BTREE ) ENGINE = InnoDB AUTO_INCREMENT = 1 CHARACTER SET = utf8mb4 COLLATE = utf8mb4_general_ci ROW_FORMAT = Dynamic;
创建数据脚本
采用批量插入,效率会快很多,而且每1000条数就commit,数据量太大,也会导致批量插入效率慢
DELIMITER ;;
CREATE PROCEDURE batch_insert_log()
BEGIN
DECLARE i INT DEFAULT 1;
DECLARE userId INT DEFAULT 10000000;
set @execSql = 'INSERT INTO `test`.`user_operation_log`(`user_id`, `ip`, `op_data`, `attr1`, `attr2`, `attr3`, `attr4`, `attr5`, `attr6`, `attr7`, `attr8`, `attr9`, `attr10`, `attr11`, `attr12`) VALUES';
set @execData = '';
WHILE i<=10000000 DO
set @attr = "'测试很长很长很长很长很长很长很长很长很长很长很长很长很长很长很长很长很长的属性'";
set @execData = concat(@execData, "(", userId + i, ", '10.0.69.175', '用户登录操作'", ",", @attr, ",", @attr, ",", @attr, ",", @attr, ",", @attr, ",", @attr, ",", @attr, ",", @attr, ",", @attr, ",", @attr, ",", @attr, ",", @attr, ")");
if i % 1000 = 0
then
set @stmtSql = concat(@execSql, @execData,";");
prepare stmt from @stmtSql;
execute stmt;
DEALLOCATE prepare stmt;
commit;
set @execData = "";
else
set @execData = concat(@execData, ",");
end if;
SET i=i+1;
END WHILE;
END;;
DELIMITER ;开始测试
田哥的电脑配置比较低:win10 标压渣渣i5 读写约500MB的SSD
由于配置低,本次测试只准备了3148000条数据,占用了磁盘5G(还没建索引的情况下),跑了38min,电脑配置好的同学,可以插入多点数据测试
SELECT count(1) FROM `user_operation_log`
返回结果:3148000
三次查询时间分别为:
14060 ms 13755 ms 13447 ms
普通分页查询
MySQL 支持 LIMIT 语句来选取指定的条数数据, Oracle 可以使用 ROWNUM 来选取。
MySQL分页查询语法如下:
SELECT * FROM table LIMIT [offset,] rows | rows OFFSET offset
第一个参数指定第一个返回记录行的偏移量 第二个参数指定返回记录行的最大数目
下面我们开始测试查询结果:
SELECT * FROM `user_operation_log` LIMIT 10000, 10
查询3次时间分别为:
59 ms 49 ms 50 ms
这样看起来速度还行,不过是本地数据库,速度自然快点。
换个角度来测试
相同偏移量,不同数据量
SELECT * FROM `user_operation_log` LIMIT 10000, 10 SELECT * FROM `user_operation_log` LIMIT 10000, 100 SELECT * FROM `user_operation_log` LIMIT 10000, 1000 SELECT * FROM `user_operation_log` LIMIT 10000, 10000 SELECT * FROM `user_operation_log` LIMIT 10000, 100000 SELECT * FROM `user_operation_log` LIMIT 10000, 1000000
查询时间如下:
| 数量 | 第一次 | 第二次 | 第三次 |
|---|---|---|---|
| 10条 | 53ms | 52ms | 47ms |
| 100条 | 50ms | 60ms | 55ms |
| 1000条 | 61ms | 74ms | 60ms |
| 10000条 | 164ms | 180ms | 217ms |
| 100000条 | 1609ms | 1741ms | 1764ms |
| 1000000条 | 16219ms | 16889ms | 17081ms |
从上面结果可以得出结束:数据量越大,花费时间越长
相同数据量,不同偏移量
SELECT * FROM `user_operation_log` LIMIT 100, 100 SELECT * FROM `user_operation_log` LIMIT 1000, 100 SELECT * FROM `user_operation_log` LIMIT 10000, 100 SELECT * FROM `user_operation_log` LIMIT 100000, 100 SELECT * FROM `user_operation_log` LIMIT 1000000, 100
| 偏移量 | 第一次 | 第二次 | 第三次 |
|---|---|---|---|
| 100 | 36ms | 40ms | 36ms |
| 1000 | 31ms | 38ms | 32ms |
| 10000 | 53ms | 48ms | 51ms |
| 100000 | 622ms | 576ms | 627ms |
| 1000000 | 4891ms | 5076ms | 4856ms |
从上面结果可以得出结束:偏移量越大,花费时间越长
SELECT * FROM `user_operation_log` LIMIT 100, 100 SELECT id, attr FROM `user_operation_log` LIMIT 100, 100
如何优化
既然我们经过上面一番的折腾,也得出了结论,针对上面两个问题:偏移大、数据量大,我们分别着手优化
优化偏移量大问题
采用子查询方式
我们可以先定位偏移位置的 id,然后再查询数据
SELECT * FROM `user_operation_log` LIMIT 1000000, 10 SELECT id FROM `user_operation_log` LIMIT 1000000, 1 SELECT * FROM `user_operation_log` WHERE id >= (SELECT id FROM `user_operation_log` LIMIT 1000000, 1) LIMIT 10
查询结果如下:
| sql | 花费时间 |
|---|---|
| 第一条 | 4818ms |
| 第二条(无索引情况下) | 4329ms |
| 第二条(有索引情况下) | 199ms |
| 第三条(无索引情况下) | 4319ms |
| 第三条(有索引情况下) | 201ms |
从上面结果得出结论:
第一条花费的时间最大,第三条比第一条稍微好点 子查询使用索引速度更快
缺点:只适用于id递增的情况
id非递增的情况可以使用以下写法,但这种缺点是分页查询只能放在子查询里面
注意:某些 mysql 版本不支持在 in 子句中使用 limit,所以采用了多个嵌套select
SELECT * FROM `user_operation_log` WHERE id IN (SELECT t.id FROM (SELECT id FROM `user_operation_log` LIMIT 1000000, 10) AS t)
采用 id 限定方式
这种方法要求更高些,id必须是连续递增,而且还得计算id的范围,然后使用 between,sql如下
SELECT * FROM `user_operation_log` WHERE id between 1000000 AND 1000100 LIMIT 100 SELECT * FROM `user_operation_log` WHERE id >= 1000000 LIMIT 100
查询结果如下:
| sql | 花费时间 |
|---|---|
| 第一条 | 22ms |
| 第二条 | 21ms |
从结果可以看出这种方式非常快
注意:这里的 LIMIT 是限制了条数,没有采用偏移量
优化数据量大问题
返回结果的数据量也会直接影响速度
SELECT * FROM `user_operation_log` LIMIT 1, 1000000 SELECT id FROM `user_operation_log` LIMIT 1, 1000000 SELECT id, user_id, ip, op_data, attr1, attr2, attr3, attr4, attr5, attr6, attr7, attr8, attr9, attr10, attr11, attr12 FROM `user_operation_log` LIMIT 1, 1000000
查询结果如下:
| sql | 花费时间 |
|---|---|
| 第一条 | 15676ms |
| 第二条 | 7298ms |
| 第三条 | 15960ms |
从结果可以看出减少不需要的列,查询效率也可以得到明显提升
第一条和第三条查询速度差不多,这时候你肯定会吐槽,那我还写那么多字段干啥呢,直接 * 不就完事了
注意本人的 MySQL 服务器和客户端是在_同一台机器_上,所以查询数据相差不多,有条件的同学可以测测客户端与MySQL分开
SELECT * 它不香吗?
在这里顺便补充一下为什么要禁止 SELECT *。难道简单无脑,它不香吗?
主要两点:
用 "SELECT * " 数据库需要解析更多的对象、字段、权限、属性等相关内容,在 SQL 语句复杂,硬解析较多的情况下,会对数据库造成沉重的负担。 增大网络开销,* 有时会误带上如log、IconMD5之类的无用且大文本字段,数据传输size会几何增长。特别是MySQL和应用程序不在同一台机器,这种开销非常明显。
结束
最后还是希望大家自己去实操一下,肯定还可以收获更多!
# 也会
# 情况下
# 分页
# 第三条
# 编辑器
# mysql
# 查询结果
# 很长
# 第一条
# 第二条
# 偏移量
相关栏目:
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
AI推广<?muma echo $count; ?>
】
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
SEO优化<?muma echo $count; ?>
】
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
技术百科<?muma echo $count; ?>
】
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
谷歌推广<?muma echo $count; ?>
】
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
百度推广<?muma echo $count; ?>
】
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
网络营销<?muma echo $count; ?>
】
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
案例网站<?muma echo $count; ?>
】
<?muma
$count = M('archives')->where(['typeid'=>$field['id']])->count();
?>
【
精选文章<?muma echo $count; ?>
】
相关推荐
- c++怎么设置线程优先级与cpu亲和性_c++ 多
- Win11怎么调整屏幕亮度_Windows 11调
- 为什么Go建议使用error接口作为错误返回_Go
- 如何在Golang中处理URL参数_Golang
- PyTorch DDP 多进程训练在 Kaggle
- Windows10如何更改桌面背景_Win10个性
- C++中的Pimpl idiom是什么,有什么好处
- php嵌入式需要什么环境_搭建php+linux嵌
- 如何高效获取循环末次生成的 NumPy 数组最后一
- c++ unordered_map怎么用 c++哈
- c++怎么使用类型萃取type_traits_c+
- Python实现图数据库操作_Neo4j核心CRU
- Windows 11怎么更改锁屏超时时间_Wind
- PHP主流架构怎么处理表单验证_规则与自定义【技巧
- PHP主流架构如何做单元测试_工具与流程【详解】
- Windows11怎样开启游戏模式_Windows
- 如何在 Go 中正确初始化结构体中的 map 字段
- 如何处理“XML格式不正确”错误 常见XML we
- Windows10如何查看蓝屏日志_Win10使用
- Mac如何使用听写功能_Mac语音输入打字【效率技
- php怎么连接数据库_MySQL数据库连接的基础代
- LINUX怎么设置系统语言_LINUX修改中文环境
- php8.4如何配置ssl证书_php8.4htt
- Win11怎么恢复旧版开始菜单_通过软件还原Win
- 如何高效删除 NumPy 二维数组中所有元素相同的
- 如何使用Golang反射将map转换为struct
- c++中的CRTP是什么 c++奇异递归模板模式【
- Win11怎么清理C盘OneDrive缓存_Win
- Windows10电脑怎么设置虚拟内存_Win10
- Windows如何设置登录时的欢迎屏幕背景?(锁屏
- Ajax提交表单PHP怎么接收_处理Ajax发送的
- Windows7怎么找回经典开始菜单_Window
- Win10怎样清理C盘浏览器缓存_Win10清理浏
- Mac的Time Machine怎么用_Mac系统
- php和redis连接超时怎么办_phpredis
- Win11怎么开启游戏模式_Win11优化游戏帧数
- Windows10如何更改系统字体大小_Win10
- Linux如何挂载新硬盘_Linux磁盘分区格式化
- win11如何清理传递优化文件 Win11为C盘瘦
- 如何使用Golang管理跨项目依赖_Golang多
- 如何使用Golang实现多重错误处理_Golang
- Win11怎么查看激活状态_查询Windows 1
- Win11怎么设置麦克风权限_允许应用访问Win1
- c++如何获取map中所有的键_C++遍历键值对提
- 如何使用Golang实现云原生应用弹性伸缩_自动应
- Go 语言标准库为何不提供泛型 Contains
- Windows音频驱动无声音原因解析_声卡驱动错误
- Win11任务栏怎么固定应用 Win11将软件图标
- Win11怎么清理C盘虚拟内存_Win11清理虚拟
- Drupal 中渲染节点时出现 HTML 标签嵌套

QQ客服